View
46
Download
1
Category
Preview:
DESCRIPTION
Introduction à l'Apprentissage Artificiel. Laurent Orseau AgroParisTech laurent.orseau@agroparistech.fr EFREI 2010-2011 A partir des transparents d'Antoine Cornuéjols. Plan Général. Introduction à l'Induction (Laurent Orseau) Réseaux de Neurones Séparatrices à Vastes Marges - PowerPoint PPT Presentation
Citation preview
Introduction à Introduction à l'Apprentissage Artificiell'Apprentissage Artificiel
Laurent OrseauAgroParisTech
laurent.orseau@agroparistech.fr
EFREI 2010-2011A partir des transparents d'Antoine Cornuéjols
2
Plan GénéralPlan Général
• Introduction à l'Induction (Laurent Orseau)• Réseaux de Neurones• Séparatrices à Vastes Marges • Arbres de Décision • Introduction au Data-Mining (Christine Martin)• Règles d'Association• Clustering• Algorithmes Génétiques
3
PlanPlan
• Introduction à l'Induction Exemples d'applications Types d'apprentissage
• Apprentissage Supervisé• Apprentissage par Renforcement• Apprentissage Non-supervisé
Théorie de l'Apprentissage (Artificiel)
• Quelles questions se pose-t-on ?
IntroductionIntroduction
5
Qu'est ce que l'apprentissage ?Qu'est ce que l'apprentissage ?• Mémoire
Acquisition de connaissance Neurosciences
• A court terme (de travail) rétention de 7±2 objets à la fois
(exemple du joueur d'échec professionnel, plateau aléatoire, plateau structuré)• A long terme
Mémoire procédurale» les enchaînements d'actions
Mémoire déclarative» sémantique (concepts) » épisodique (faits)
• Types d'apprentissage Par coeur Par règles Par imitation / démonstration Par essais-erreurs
• Réutilisation de la connaissanceRéutilisation de la connaissance Dans des situations similaires
Introduction
6
Qu'est-ce que l'Apprentissage Artificiel ?Qu'est-ce que l'Apprentissage Artificiel ?
• "Donner la capacité aux machines d'apprendre sans les programmer explicitement"
Arthur Samuel, 1959
Samuel's Checkers> Schaeffer 2007 (résolution)+ TD-Gammon, Tesauro 1992
Introduction
7
Qu'est-ce que l'Apprentissage Artificiel ?Qu'est-ce que l'Apprentissage Artificiel ?
Etant donné :de l'expérience E, une classe de tâches T une mesure de performance P,
On dit d'un ordinateur qu'il apprend si
sa performance sur une tâche de T
mesurée par P
augmente avec l'expérience E
Tom Mitchell, 1997
Introduction
8
Termes associés à l'Apprentissage ArtificielTermes associés à l'Apprentissage Artificiel
• Robotique Automatic Google Cars, Nao
• Prédiction / prévision Bourse, pics de pollution, …
• Reconnaissance faciale, parole, écriture, mouvements, …
• Optimisation vitesse du métro, voyageur de commerce,
• Régulation Chauffage, trafic, température du frigo, …
• Autonomie Robots, prothèses de main
• Résolution automatique de problèmes• Adaptation
préférences utilisateur, Robot sur terrain accidenté, …• Induction• Généralisation• Découverte automatique• …
Introduction
Quelques applicationsQuelques applications
10
Apprendre à cuisinerApprendre à cuisiner
•Apprentissage par imitation / démonstration•Apprentissage procédural (précision motrice)•Reconnaissance d'objets
Applications
11
DARPA Grand challenge (2005)DARPA Grand challenge (2005)
Applications
12
200km de désert
Dangers naturels et artificiels
Sans conducteur
Sans télécommande
200km de désert
Dangers naturels et artificiels
Sans conducteur
Sans télécommande
Applications > DARPA Grand Challenge
13
5 Finalistes5 Finalistes
Applications > DARPA Grand Challenge
14
Reconnaissance de la routeReconnaissance de la route
Applications > DARPA Grand Challenge
15
Apprendre à étiqueter des images:Apprendre à étiqueter des images:Reconnaissance de visagesReconnaissance de visages
“Face Recognition: Component-based versus Global Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), Computer Vision and Image Understanding, Vol. 91, No. 1/2, 6-21, 2003.
Applications
16
Applications > Reconnaissance d'images
Combinaisons de composantesCombinaisons de composantes
17
Prothèse de mainProthèse de main
• Reconnaissance des signaux pronateurs et supinateurs capteurs imparfaits bruit des signaux incertitude
Applications
18
Robot autonome sur MarsRobot autonome sur Mars
Applications
19
1. 1- Des scénarios1. 1- Des scénarios
Apprendre par coeur ? INEXPLOITABLE
Généraliser
Comment coder les formes ?
b
Introduction à la théorie deIntroduction à la théorie del'Apprentissage Artificiell'Apprentissage Artificiel
21
Introduction à la théorie de l'apprentissageIntroduction à la théorie de l'apprentissage
• Apprentissage supervisé
• Apprentissage par renforcement
• Apprentissage non-supervisé (CM)
• Algorithmes Génétiques (CM)
22
Apprentissage superviséApprentissage supervisé
• Ensemble d'exemples xi étiquetés ui
• Trouver une hypothèse h tq:
h(xi) = ui ?
h(xi) : étiquette prédite
• Meilleure hypothèse h* ?
23
Apprentissage Supervisé : 1Apprentissage Supervisé : 1erer Exemple Exemple
• Maisons : Prix / m²
• Recherche de h Plus proches voisins ? Régression linéaire, polynomiale ?
• Plus d'information localisation (x, y ? ou variable symbolique ?),
age du batiment, voisinage, piscine, impots locaux, évolution temporelle ?
Apprentissage supervisé
24
ProblèmeProblème
Prédiction du prix du m² pour une maison donnée.
1) Modélisation
2) Collecte des données
3) Apprentissage
4) Validation (dans 3) ??)
5) Utilisation en cas réel
Apprentissage Supervisé
Idéal Pratique
25
1) Modélisation1) Modélisation
• Espace d'entrée Quelles sont les informations pertinentes ? Variables
• Espace de sortie Que cherche-t-on à prédire ?
• Espace des hypothèses Entrées –(calcul) Sorties Quel (genre de) calcul?
Apprentissage Supervisé
26
1-a) Espace d'entrée : Variables1-a) Espace d'entrée : Variables
• Quelles sont les informations pertinentes ?• Doit-on récupérer tout ce qu'on peut ?• Qualité des informations ?
Bruit Quantité
• Coût de la collecte d'une information ? Economique Temps Risque (invasif ?) Ethique Droit (CNIL)
• Domaine de définition de chaque variable ? Symbolique, numérique borné, non bornée, etc.
Apprentissage Supervisé > 1) Modélisation
27
Prix au m² : VariablesPrix au m² : Variables
• Localisation Continu : (x, y) longitude latitude ? Symbolique : nom de la ville ?
• Age du bâtiment Années relatif au présent ou année de création ?
• Nature du terrain
• Piscine ?
Apprentissage Supervisé > 1) Modélisation > a) Variables
28
1-b) Espace de sortie1-b) Espace de sortie
• Que veut-on en sortie ? Classes symboliques ? (classification)
• Booléennes Oui/Non (apprentissage de concept)• Multi-valuées A/B/C/D/…
Valeur numérique ? (régression)• [0 ; 1] ?• [-∞ ; +∞] ?
• Combien de sorties ? Multi-valué Multi-classe ?
• 1 sortie pour chaque classe Apprendre un modèle pour chaque sortie ?
• Plus "libre" Apprendre un modèle pour toutes les sorties ?
• Chaque "modèle" peut utiliser des informations des autres
Apprentissage Supervisé > 1) Modélisation
30
1-c) Espace des hypothèses1-c) Espace des hypothèses
• Phase cruciale
• Dépend de la méthode d'apprentissage utilisée ! Régression linéaire : espace = ax + b Régression polynomiale
• nombre de paramètres = degré du polynôme Réseaux de neurones, SVM, Algo Gen, … …
Apprentissage Supervisé > 1) Modélisation
31
Choix de l'espace des hypothèsesChoix de l'espace des hypothèses
32
Choix de l'espace des hypothèsesChoix de l'espace des hypothèses
• Espace trop "pauvre" Solutions inadaptées Ex: modéliser sin(x) avec une seule droite y=ax+b
• Espace trop "riche" risque de sur-apprentissage Ex: cf. tableau
• Défini par ensemble de paramètres Plus grand nb param app. plus difficile
• Préférer cependant un espace plus riche ! Utilisation de méthodes génériques Ajouter de la régularisation
Apprentissage Supervisé > 1) Modélisation > c) Espace des hypothèses
33
2) Collecte des données2) Collecte des données
• Collecte Capteurs électroniques Par simulation Sondages Récupération automatique sur internet …
• Obtenir la plus grande quantité d'exemples Coût de la collecte
• Obtenir les données les plus "pures" possibles éviter tout bruit
• bruit dans les variables • bruit dans les étiquettes !
Un exemple = 1 valeur pour chacune des variables• valeurs manquantes = exemple inutilisable ?
Apprentissage Supervisé
34
Données collectéesDonnées collectées
x1x1 x2x2 x3x3 uu
Exemple 1 Oui 1.5 Vert -
Exemple 2 Non 1.4 Orange +
Exemple 3 Oui 3.7 Orange -
… … … … …
Entrées / Variables
Sortie / Classe / Etiquettemesurée
Mais véritable
étiquette y inaccessible
!
Apprentissage Supervisé > 2) Collecte des données
35
Prétraitements des donnéesPrétraitements des données
• Nettoyer les données ex: Réduire le bruit de fond
• Transformer les données Format final adapté à la tâche Ex: Transformée de Fourier d'un signal audio
temps/amplitude fréquence/amplitude
Apprentissage Supervisé > 2) Collecte des données
36
3) Apprentissage3) Apprentissage
a) Choix des paramètres du programme
b) Choix du critère inductif
c) Lancement du programme d'apprentissage
d) Test des performances
Si mauvais, retour en a)…
Apprentissage Supervisé
37
a) Choix des paramètres du programmea) Choix des paramètres du programme
• Temps max de calcul alloué
• Erreur maximale acceptée
• Paramètres d'apprentissage Spécifiques au modèle
• Introduction de connaissance Initialiser les paramètres à des valeurs
correctes ?
• …
Apprentissage Supervisé > 3) Apprentissage
38
b) Choix du critère inductifb) Choix du critère inductif
Objectif : trouver une hypothèse h H minimisant le le risque réelrisque réel (espérance de risque, erreur en généralisation)
Étiquette prédite
Étiquette vraie y(ou désirée u)
Fonction de perteFonction de perteLoi de probabilitéjointe sur X Y
Apprentissage Supervisé > 3) Apprentissage
R(h) l h(x),y dP(x, y)XY
39
Risque réelRisque réel
• Objectif : Minimiser le risque réel
• On ne connaît pas le risque réel, en particulier pas la loi de probabilité P(X,Y).
Apprentissage Supervisé > 3) Apprentissage > b) Critère inductif
• Discrimination
• Régression
l (h(xi),ui) 0 si ui h(xi )
1 si ui h(xi )
l (h(xi),ui) h(xi) ui 2
R (h ) l h (x ),y dP (x , y )X Y
40
Minimisation du risque empiriqueMinimisation du risque empirique
• Le principe ERMprincipe ERM (minimisation du risque empirique)
prescrit de chercher l’hypothèse h H minimisant le le
risque empirique risque empirique • Plus faible erreur sur l'ensemble d'apprentissage
REmp (h) l h(xi ),ui i 1
m
Apprentissage Supervisé > 3) Apprentissage > b) Critère inductif
41
Courbe d'apprentissageCourbe d'apprentissage
• La quantité de données d'apprentissage est importante !
Taille échantillon d'apprentissage
"Erreur"
Courbe d'apprentissage
Apprentissage Supervisé > 3) Apprentissage > b) Critère inductif > Risque empirique
42
Test / ValidationTest / Validation
• Mesurer le sur-apprentissagesur-apprentissage• GENERALISATIONGENERALISATION
la connaissance acquise est-elle utilisable dans des circonstances nouvellescirconstances nouvelles ?
Ne pas valider sur l'ensemble d'apprentissage !
• Validation sur ensemble de test ensemble de test supplémentaire• Validation Croisée
utile quand peu de données leave-p-out
Apprentissage Supervisé > 3) Apprentissage > b) Critère inductif > Risque empirique
43
Sur-apprentissageSur-apprentissageApprentissage Supervisé > 3) Apprentissage > b) Critère inductif > Risque empirique
44
RégularisationRégularisation
• Limiter le sur-apprentissage avant de le mesurer sur le test
• Ajout d'une pénalisationpénalisation dans le critère inductif Ex:
• Pénaliser l'utilisation de grands nombres• Pénaliser l'utilisation de ressources• …
Apprentissage Supervisé > 3) Apprentissage > b) Critère inductif > Risque empirique
45
Maximum a posterioriMaximum a posteriori
• Approche bayésienne• On suppose qu’il existe une distribution de probabilités a priori
sur l’espace H : pH(h)
Principe du Maximum A PosterioriPrincipe du Maximum A Posteriori (MAP)(MAP)::• On cherche l’hypothèse h la plus probable après observation
des données S
• Ex: Observation de la couleur des moutons h = "Un mouton est blanc"
Apprentissage Supervisé > 3) Apprentissage > b) Critère inductif
46
Principe de Description de Longueur MinimalePrincipe de Description de Longueur Minimale
• Rasoir d'OccamRasoir d'Occam"Les hypothèses les plus simples sont les meilleures"
• Simplicité : taille de h Compression maximaleCompression maximale
• Maximum a posteriori avec pH(h) = 2-d(h)
• d(h) : longueur en bits de l'hypothèse h
• Compression généralisation
Apprentissage Supervisé > 3) Apprentissage > b) Critère inductif
47
c) Moulinettec) Moulinette
• Recherche de h
• Utilise les exemples d'un ensemble ensemble d'apprentissaged'apprentissage Un par un Tous ensemble
• Minimiser le critère inductifcritère inductif
Apprentissage Supervisé > 3) Apprentissage
48
Découverte des paramètres du modèleDécouverte des paramètres du modèle
• Explorer l'espace des hypothèses H Quelle meilleure hypothèse selon
le critère inductif ? Dépend fondamentalement de H
a) Exploration Structurée
b) Exploration Locale
c) Pas d'exploration
Apprentissage Supervisé > 3) Apprentissage > c) Moulinette
49
Exploration structuréeExploration structurée• Structuré par une relation de Structuré par une relation de
généralité (ordre partiel)généralité (ordre partiel) Espace des versions PLI (Programmation Logique Inductive) EBL, reformulation en général et révision
de théorie Inférence grammaticale Enumération de programmes
hi hj
gms(hi, hj)
smg(hi, hj)
H
Apprentissage Supervisé > 3) Apprentissage > c) Moulinette > Exploration de H
50
Représentation de l'espace des versionsReprésentation de l'espace des versions
Observation fondamentale :
L'espace des versions structuré par une relation
d'ordre partiel peut être représenté par :
sa borne supérieure : le G-set
sa borne inférieure : le S-set
• G-set = Ensemble de toutes les hypothèses les plus générales
cohérentes avec les exemples connus
• S-set = Ensemble de toutes les hypothèses les plus spécifiques
cohérentes avec les exemples connus
H
G
S
hi hj
Apprentissage Supervisé > 3) Apprentissage > c) Moulinette > Exploration de H
51
Apprentissage…Apprentissage…
… par mise à jour de l'espace des versions
Idée :
maintenir le S-set
et le G-set
après chaque nouvel exemple
Algorithme d'élimination des candidats
Exemple des rectangles (au tableau…)
Apprentissage Supervisé > 3-c) > Exploration de H > Espace des versions
52
Algorithme d'élimination des candidatsAlgorithme d'élimination des candidats
Initialiser S et G par (resp.) :
l'ensemble des hypothèses les plus spécifiques (resp. générales)
cohérentes avec le 1er exemple positif connu.
Pour chaque nouvel exemple (positif ou négatif)
mettre à jour S
mettre à jour G
Jusqu'à convergence
ou jusqu'à ce que S = G = Ø
Apprentissage Supervisé > 3-c) > Exploration de H > Espace des versions
55
M-à-j de S et G : xM-à-j de S et G : xii est est positifpositif
• Mise à jour de SMise à jour de S Généraliser les hypothèses de S ne couvrant pas xi
juste assez pour qu'elles le couvrent
Puis éliminer les hypothèses de S
• couvrant un ou plusieurs exemples négatifs
• plus générales que des hypothèses de S
• Mise à jour de GMise à jour de G Eliminer les hypothèses de G ne couvrant pas xi
Apprentissage Supervisé > 3-c) > Exploration de H > Espace des versions
56
M-à-j de S et G : xM-à-j de S et G : xii est est négatifnégatif
• Mise à jour de SMise à jour de S Eliminer les hypothèses de S couvrant (indûment) xi
• Mise à jour de GMise à jour de G Spécialiser les hypothèses de G couvrant xi juste
assez pour qu'elles ne le couvrent plus
Puis éliminer les hypothèses de G
• n'étant pas plus générales qu'au moins un élément de S
• plus spécifiques qu'au moins une autre hypothèse de G
Apprentissage Supervisé > 3-c) > Exploration de H > Espace des versions
57
Algorithme d'élimination des candidatsAlgorithme d'élimination des candidats
Mise à jour des
bornes S et G
H
G
Sx
x
x
x(a)
(b)
(c)
(d)
x
(d')
(b')
(a')
xx
x
Apprentissage Supervisé > 3-c) > Exploration de H > Espace des versions
61
Exploration localeExploration locale
• Seulement une notion de voisinage dans Seulement une notion de voisinage dans HH Méthodes de « gradient »
• Réseaux de neurones• SVM (Séparatrices à Vastes Marges)• Recuit simulé / algorithmes d’évolution simuléeévolution simulée
• /!\ Minima locaux
Apprentissage Supervisé > 3) Apprentissage > c) Moulinette > Exploration de H
xh
H
62
Exploration sans espace d'hypothèseExploration sans espace d'hypothèse
• Pas d’espace d’hypothèsesPas d’espace d’hypothèses Utiliser directement les exemples
• Et l'espace des exemples Méthodes de plus proches voisins
(Raisonnement par cas / Instance-based learning)
Notion de distancedistance
• Exemple : k Plus Proches Voisins Option : Vote pondéré par la distance
Apprentissage Supervisé > 3) Apprentissage > c) Moulinette > Exploration de H
63
Biais inductifBiais inductif
• Préférence a priori de certaines hypothèses Dépendant de H Dépendant de la méthode de recherche
• Quelque soit le critère utilisé ERM : implicite dans H MAP : explicite, libre à l'utilisateur MDL : explicite, fixe (longueur) PPV : notion de distance
• Justification du biais ?
Apprentissage Supervisé
Apprentissage superviséApprentissage supervisé
Types d'apprentissage moins Types d'apprentissage moins fréquentsfréquents
65
Apprentissage IncrémentalApprentissage Incrémental
• Les exemples sont fournis les uns après les autres Mise à jour incrémentale de l'hypothèse Utiliser la connaissance acquise pour
• apprendre mieux• apprendre plus rapidement
• Les données ne sont plus i.i.d. ! i.i.d : Indépendamment et Identiquement Distribuées Dépendance à la séquence / au temps
• Ex: Goûts utilisateurs téléphonie mobile
Apprentissage Supervisé
66
Apprentissage ActifApprentissage Actif
• Ensemble d'exemples non-étiquetés
• Etiqueter un exemple coute cher
• Demander l'étiquette d'un exemple choisi Quel exemple choisir ?
• Données non i.i.d.
• Ex: étiquetage de séquences vidéos
Apprentissage Supervisé
Autres types d'apprentissageAutres types d'apprentissage
Apprentissage par RenforcementApprentissage par Renforcement
Apprentissage non-superviséApprentissage non-supervisé
68
Apprentissage par RenforcementApprentissage par Renforcement
• Pavlov Cloche : déclencheur Gamelle :
récompense saliver : action Association
cloche ↔ gamelle Renforcement du
comportement "saliver"
ActionPerception
Environnement
Récompense /Punition
• Contrôler le comportement par renforcements Récompenses et punitionsRécompenses et punitions
69
Apprentissage par RenforcementApprentissage par Renforcement
• L'agent doit découvrir le bon comportement Et l'optimiserMaximiser l'espérance des récompensesl'espérance des récompenses
st : état à l'instant t
Choix de l'action : at := argmaxa Q(st, a)
• Mise à jour des valeursrt : récompense reçue à l'instant tQ(st, at) α Q(st, at) + (1- α) [ rt+1 + γ maxa Q(st+1, a) ]
70
Apprentissage Non-superviséApprentissage Non-supervisé
• Pas de classe, pas de sortie, pas de récompense• Objectif : grouper grouper les exemples
• Notion de distance• Biais inductif
71
ConclusionConclusion
• Induction Trouver un hypothèse générale à partir d'exemples
• Eviter le sur-apprentissage• Choisir le bon espace d'hypothèse
Pas trop petit (mauvaise induction) Pas trop grand (sur-apprentissage)
• Utiliser un algorithme adapté Aux données A l'espace des hypothèses
72
Ce qu'il faut retenirCe qu'il faut retenir
• C'est surtout l'induction supervisée qui est étudiée
• On ne peut apprendre sans biais
• La réalisation de l'apprentissage dépend de la structuration
de l'espace des hypothèses Sans structure : méthodes par interpolation
Notion de distance : méthodes par gradient (approximation)
Relation d'ordre partiel : exploration guidée (exploration)
Recommended