Upload
pasteurtunis
View
115
Download
0
Embed Size (px)
Citation preview
Big Data au service de la génétique
Abdelhalim Rafra
Institut Pasteur de Tunis
18 Avril 2017
Abdelhalim Rafra Big Data au service de la génétique 1/37
Qui je suis
Ingénieur R&D
2010
- 201
3Doctorat
2014
- Pres
ent
Data Scientist
2007
- 201
0
Abdelhalim Rafra Big Data au service de la génétique 2/37
Machine Learning ?
"Machine learning is the science of getting computers to act without
being explicitly programmed. " Andrew Ng
Machine Learning
Abdelhalim Rafra Big Data au service de la génétique 14/37
Apprentissage
Deux modes d'apprentissages :
Supervisé :
- Un corpus pour l'apprentissage et un
corpus de validation.
- Simple à évaluer
- Généralisation sur des nouvelles données.
- Automatiser le traitement d'un ux de
données
Non supervisé
- Détecter des corrélations cachées dans
des données.
- Compliqué à évaluer.
- La quantité de données améliore les
résultats.
Abdelhalim Rafra Big Data au service de la génétique 17/37
Arbre de décision
Une règle par n÷ud.
Un modèle de classication
simple.
Modèle interprétable.
Adaptable à un problème de
régression.
Abdelhalim Rafra Big Data au service de la génétique 20/37
Machine à vecteur de support (SVM)
w? = argmin
w
C (x, y) + λΩ(f )
Hyperplan séparateur.
Modèle linéaire.
Classication binaire.
Adaptable :
- au multi-classes.
- à la régression.
Apprentissage par descente
de gradient.
kernel trick
Abdelhalim Rafra Big Data au service de la génétique 22/37
Réseau de neurones
http://slideplayer.fr/slide/1575938/
Reproduire le
fonctionnement des neurones
humains.
Une somme pondérée.
Fonction d'activation.
Abdelhalim Rafra Big Data au service de la génétique 23/37
Réseau de neurones
Apprentissage par rétropropagation du gradient.
Abdelhalim Rafra Big Data au service de la génétique 24/37
Clustering
Regroupe des données par
similarités.
Minimise la distance
intra-groupe.
Maximise la distance
inter-groupes.
La qualité du modèle dépend
du nombre de groupes et de
la distance.
Abdelhalim Rafra Big Data au service de la génétique 29/37
Changement de dimension
Réduire l'espace de
représentation.
Préserve les liens entre les
données.
Essentiel pour comprendre et
illustrer les données et les
résultats.
Abdelhalim Rafra Big Data au service de la génétique 30/37