Apprentissage Statistique
Master IAD - Université Paris 6P. Gallinari
[email protected]://www-connex.lip6.fr/~gallinar/
Année 2013-2014Partie 1
Introduction
Apprentissage Statistique - P. Gallinari 3
Apprentissage à partir d'exemples
Données z1, ..., zN Machine Fθ Critère C But extraire de l'information à partir des données, expliquer les
données information pertinente pour la tâche étudiée information pertinente pour d'autres données du même type
Utilisation inférence sur de nouvelles données
Type d'apprentissage : Supervisé Non supervisé Semi supervisé Renforcement
Apprentissage Statistique - P. Gallinari 4
Exemples - problèmes d'apprentissage
Parole / Ecriture Données : (signal, (transcription)) But : reconnaître signal Critère : # mots correctement reconnus
Conduite véhicule autonome Données : (images routes, (commande volant)) e.g. S. Thrun Darpa
Challenge + Google car But : suivre route Critère : distance parcourue
Extraction d'information dans une base de texte Données : (texte + requête, (information pertinente)) But : extraire l'information correspondant à la requête Critère : Rappel / Précision
Diagnostic dans systèmes complexes Données : (état capteurs + alarmes, (diagnostic)) But : diagnostic correct Critère : ?
Apprentissage Statistique - P. Gallinari 5
Modélisation d'utilisateur Données : (Traces utilisateur - contenu accédé) But : analyser/ catégoriser le comportement de l'utilisateur, Ciblage
clientèle, aide navigation, interfaces adaptatives Critère : ? Evaluation : ?
Plus difficile : Traduction Recherche d'information bases textes, images – vidéos Extraction d’information (e.g. web) Compréhension de texte / scène visuelle – extraction de sens Découverte dans data-warehouse .... Données : i.e. représenter l'information ?? But ?? Critère ??
Apprentissage Statistique - P. Gallinari 6
Données : diversité
Apprentissage Statistique - P. Gallinari 7
Données : quantitésYahoo! Data – A league of its own… U. Fayyad KDD’07
Terrabytes of Warehoused Data
25 49 94 100500
1,000
5,000
Amaz
on
Kore
a
Teleco
m
AT&T
Y! L
iveS
tor
Y! P
anam
a
War
ehou
se
Walm
art
Y! M
ain
war
ehou
se
GRAND CHALLENGE PROBLEMS OF DATA PROCESSING
TRAVEL, CREDIT CARD PROCESSING, STOCK EXCHANGE, RETAIL, INTERNET
Y! PROBLEM EXCEEDS OTHERS BY 2 ORDERS OF MAGNITUDE
Millions of Events Processed Per Day
50 120 2252,000
14,000
SABRE VISA NYSE Y! Panama Y! DataHighway
Petabytes (10^15)
Google processes about 24 petabytes of data per day Google Street View Has Snapped 20 Petabytes of Street
Photos Telecoms: AT&T transfers about 30 petabytes of data
through its networks each day Physics: The experiments in the Large Hadron Collider
produce about 15 petabytes of data per year Neurology: It is estimated that the human brain's ability
to store memories is equivalent to about 2.5 petabytes of binary data
Apprentissage Statistique - P. Gallinari 8
Big Data: Volume, Velocity, Variety, and Veracity http://www-01.ibm.com/software/data/bigdata/
Volume: terabytes, petabytes Turn 12 terabytes of Tweets created each day into improved product sentiment
analysis Convert 350 billion annual meter readings to better predict power consumption
Velocity: streams Scrutinize 5 million trade events created each day to identify potential fraud Analyze 500 million daily call detail records in real-time to predict customer churn faster
Variety: Big data is any type of data - structured and unstructured data such as text, sensor data, audio, video, click streams, log files and more. New insights are found when analyzing these data types together. Monitor 100’s of live video feeds from surveillance cameras to target points of interest Exploit the 80% data growth in images, video and documents to improve customer
satisfaction Veracity: Establishing trust in big data presents a huge challenge as the variety
and number of sources grows.
Apprentissage Statistique - P. Gallinari 9
Gartner Hype Cycle: Big Data
Apprentissage Statistique - P. Gallinari 10
Apprentissage Statistique - P. Gallinari 11
Apprentissage Statistique - P. Gallinari 12
Données : ce que ca change
Nouveaux problèmes Recommandation CRM Analyse utilisateur, click through data, … …
Utilisation intensive des données Là ou on faisait “à la main” Traduction Scoring moteurs de recherche ….
Apprentissage Statistique - P. Gallinari 13
Données dans la pratique de l’apprentissage
Ensemble D’Apprentissage Mettre au point le modèle
De Test Evaluer les performances du modèle appris
De Validation Apprentissage de méta-paramètres
Apprentissage Statistique - P. Gallinari 14
Place de l’apprentissage
L’apprentissage constitue une brique dans le processus de fouille / traitement de données qui arrive souvent à la fin du processus qui est intégré dans une application ou dans le SI de l’entreprise
3 points de vue complémentaires Recherche : algorithmes et théorie Business : $$ Utilisateur : intégration, puissance et facilité d’utilisation
Les différentes étapes de l’analyse des données Collecte des données / stockage Prétraitement des données, étiquetage éventuel Analyses des données par des techniques exploratoires Mise au point et test de différents modèles d’apprentissage Evaluation
Apprentissage Statistique - P. Gallinari 15
Apprentissage supervisé
Ensemble d'apprentissage Constitué de couples (entrée, sortie désirée) (x1, d1) , (x2, d2) , … , (xN, dN)
But Au moyen d'un algorithme d'apprentissage, découvrir
l’association d = Fθ (x) En utilisant les données d’appprentissage Qui offre une bonne généralisation
i.e. d = Fθ (x) si x hors de l'ensemble d'apprentissage mais généré par le même phénomène
Utilisation discrimination, identification, prévision, approximation …
Apprentissage Statistique - P. Gallinari 16
Apprentissage non supervisé
Ensemble d'apprentissage Uniquement des données d’entrée x1, x2,… , xN
But Regrouper les données similaires Modéliser les données Découvrir des relations non spécifiées à l’avance entre les
données Utilisation estimation de densité, extraction de similarités
Apprentissage Statistique - P. Gallinari 17
Apprentissage semi supervisé
Ensemble d’apprentisage étiquetés – faible quantité ((x1, d1) , (x2, d2) , … , (xN, dN) non étiquetés – grande quantité xN+1, xN+2, … , xN+M
But Extraire l’information des exemples non étiquetés utile pour
l’étiquetage Apprendre conjointement à partir des deux ensembles
d’exemples Utilisation grandes masses de données où l’étiquetage est possible mais
trop coûteux données qui évoluent implémentation rapide de systèmes génériques pour différentes
instances d’un problème
Apprentissage Statistique - P. Gallinari 18
Apprentissage par Renforcement
Ensemble d'apprentissage Couples (entrée, sortie désirée qualitative) (x1, d1) , (x2, d2) , … , (xN, dN) Les xi peuvent être des séquences (temporal credit
assignment), les di sont des réponses qualitatives (e.g. 0,1), déterministes ou stochastiques.
But Apprendre des actions optimales
Utilisation commande, décision séquentielle, recherche
opérationnelle, jeux, programmation dynamique, navigation, ...
Apprentissage Statistique - P. Gallinari 19
Domaines d’application industriels classiques – à partir de 1990
Défense : classification signaux, fusion donnée, commandevéhicules, suivi de cibles
Traitement de documents : compétitions ARPA, systèmes OCRspécialisés (fax, banque,..)
Finance - Banque - Assurance : détection fraude (systèmescommerciaux largement répandus), prévision, trading, gestionportefeuille
Prévision - Marketing : consommation (eau - electricité), prévisiontrafic, séries financières
Industrie pétrolière : analyse de données sismiques (traces,detection de pics), commande (raffineries).
Télécommunications : diagnostic, routage, traitement signal,contrôle d'admission (ATM), modélisation trafic
Capteurs : capteurs gaz, nez électronique, rétines artificielles Industrie du transport : modélisation et commande VLSI - circuits dédiés : accélérateurs, chips dédiés RN
Apprentissage Statistique - P. Gallinari 20
Domaines d’application en Data Mining
Web : recherche d'information, filtrage d'information Text mining catégorisation, filtrage extraction d'information textuelle : e.g. recherche BD
journaux, bibliothèques virtuelles, veille technologique, Question Answering , ...
Multi-média : image + son, indexation d'informations e.g. BD vidéo Data mining : BD entreprise (Data-wharehouse), infos produits, infos
clients, ciblage clientèle ... Analyse comportement e.g. telecoms : serveurs web, accès services
commerciaux, internet - intranet, aide accès information Web2.0 : les communautés Mobiles : personnalisation, accès information Biologie - analyse de séquences, de structures Automobile ...
Apprentissage Statistique - P. Gallinari 21
Challenges de l’apprentissage
Passage à l’échelle Quantité de données, taille données
Dynamicité Flux
Distribué Complexité des données et des problèmes Données structurées standards (XML, RDF, SMIL, …), taxonomies Web2.0 : découverte / analyse de relations !!
Nouveaux problèmes, nouveaux usages
Apprentissage Statistique - P. Gallinari 22
Un exemple : Perceptron (1960 Rosenblatt)
Le perceptron est utilisé pour la discrimination La cellule de décision calcule une fonction à seuil :
F(x) = sgn [ i wi xi ]Classe 1 = x : F[ x ] = 1Classe 2 = x : F[ x ] = -1
Rétine Cellules d’association x Cellule de décision F(x)
w
Apprentissage Statistique - P. Gallinari 23
L'algorithme du perceptron (2 classes)
Sortie désirée d = ± 1
Décision :
C'est un algorithme de correction d'erreur si est constant : règle à incrément fixe si est fonction du temps : règle à incrément variable
n
i iixwxF1
)sgn()(
Initialiser W (0)Répeter (t)
Pour i = 1 à NSi di(w(t).xi) 0 alors w(t+1) = w(t) + di.xi
Jusqu'à convergence
Apprentissage Statistique - P. Gallinari 24
Fonction discriminante linéaire
Surface de décision: hyperplan F(x) = 0 Quelques propriétés w est le vecteur normal de l'hyperplan, il défini son
orientation distance de x à H : r = F(x) / || w || w0 = 0 : H passe par l'origine
Vecteur forme étendu (notation par défaut) x' = (1, x) w' = (w0, w) Fonction de décision : F(x') = w ’.x'
0
n
1i ii0 wxw w w.x F(x)
Apprentissage Statistique - P. Gallinari 25
Géométrie de la discrimination linéaire
W
F(x) < 0
F(x) > 0wxF )(
La partie de l'image avec l'ID de relation rId9 n'a pas été trouvé dans le fichier.
F(x) = 0
Apprentissage Statistique - P. Gallinari 26
Le perceptron effectue une descente de gradient
Fonction de coût et gradient
Demo http://lcn.epfl.ch/tutorial/english/
CgradwwwC
wC
Cgrad
dxwC
dw.xC
w
n
w
dxi
dx
...
...
.
.
1
classés mal ),(
classés mal ),(
Apprentissage Statistique - P. Gallinari 27
Cas multiclasses
p classes = p " problèmes 2 classes " : Ci contre le reste Règle de décision : x Ci si Fi(x) > 0 et Fj(x) < 0 pour j
i pb : régions indéfinies
Approche générale construire p fonctions discriminantes Fi(x), i = 1 ... p règle de décision: x Ci si Fi(x) > Fj(x) pour ji crée une partition de l'espace d'entrée chaque classe est un polygone avec au plus p -1 faces.
Régions convexes : limitation des classifieurs linéaires
Apprentissage Statistique - P. Gallinari 28
Propriétés Probabilité de séparabilité linéaire (Cover 1965)
Entrée de taille n, m formes classées aléatoirement en 2 classes (dichotomie) L(m,n) : nb de "vraies" dichotomies linéairement séparables : si m > n aucun sous espace engendré par n + 1 formes n'est de
dimension n - 1. si m n aucun sous espace de dimension m - 2 ne contient les m
formes. P(m,n) : probabilité qu'une dichotomie soit linéairement
séparable.
n im
m
nm siC
nm si nmL
0 1
2),(
P m n
m n
C m nmmi
n( , )
1
211
0
si
si
0 2 4
n1
10
m/n+1
P(m,n)
0.5
1
Apprentissage Statistique - P. Gallinari 29
Propriétés Théorème de convergence du perceptron (Novikov 1962)
Si
les données peuvent être séparées avec une marge , i.e.
l'ensemble d'apprentissage est présenté au perceptron un nombre suffisant de fois
Alors après au plus corrections, l'algorithme converge
RxxR ,/
).(minsup wxd iiiW
22
R
Apprentissage Statistique - P. Gallinari 30
Propriétés Borne sur l'erreur de généralisation (Aizerman et al. 1964)
Si les données sont séparables elles sont en nombre infini règle arrêt : après la kème correction, lesdonnées présentées sont reconnues correctement
alors le perceptron converge enétapes avec une probabilité , l'erreur de test est <
)1ln(lnln21
kmk
2
2
)1ln(lnln41
R
Rl
1
Apprentissage Statistique - P. Gallinari 31
Overtraining / généralisation en regression
Exemple (Bishop 06)
Necessité de controler lors de l’apprentissage la complexité des modèles Techniques de régularisation
Apprentissage Statistique - P. Gallinari 32
Algorithmes d'apprentissage numérique
Données statiques Réseaux de neurones Arbres décision / régression Méthodes issues de la statistique : estimation de densité paramétrique,
non paramétrique Décision k-ppv Fonctions noyau, machines à vecteurs supports…
Données séquentielles AR, ARMA, ARMAX, etc Réseaux de neurones récurrents Chaines de Markov, Modèles de Markov Cachés, champs conditionnels
de Markov Données structurées recherche actuelle : modèles relationnels
Formalisation du problème de l'apprentissage
Apprentissage Statistique - P. Gallinari 34
Formalisme
Données : vecteurs aléatoires (z), p(z)Machine :
θ : paramètres du modèle
Risque théorique :
Solution optimale :
FF
z
z dzzpzczcER )()()(
RF minarg*
Apprentissage Statistique - P. Gallinari 35
Apprentissage à partir d'exemples
Données : Risque empirique :
Principes inductifs
Le principe inductif défini le processus d'apprentissage Exemple : Minimisation du risque empirique La fonction qui minimise le risque théorique est
approximée par qui optimise le risque empirique Est-ce un bon principe ? Généralisation ?
NiizD ..1
N
i
i FzcN
C1
),(1
*F
NF
Apprentissage Statistique - P. Gallinari 36
Autres principes inductifs
Maximum de vraisemblance : Equivalent a :
Cadre Bayesien : p(modèle/Données) p(Données/Modèle)P(Modèle)
P(W) : loi à priori sur le modèle p(D/W) : vraisemblance p(W/D) : probabilité a posteriori Maximum a posteriori :
!! nécessite une hypothèse a priori sur le modèle
)()/()/( pDpDp
)/( maxarg DpWMAP
)/( maxarg
DpWMV
)/(log maxarg
DpWMV
Apprentissage Statistique - P. Gallinari 37
Problèmes d'apprentissage : exemples
Discrimination z = (x, d) ensemble des fonctions à seuil R : probabilité de mauvaise classification C : fréquence des erreurs
Régression z = (x, d) un ensemble de fonctions réelles R : espérance des erreurs quadratiques C : somme des erreurs quadratiques
Estimation de densité z = x ensemble de fonctions réelles R : espérance (vraisemblance) C : somme
1,0d F
sinon 1
)( si 0),,(
xFdFdxc
Rd F
2)(),,( xFdFdxc
F)(ln),( xpFxc
Apprentissage supervisé
Modèles discriminantsRéseaux de neuronesMachines à noyaux
Modèles génératifs
Apprentissage supervisé
Réseaux de neurones
Apprentissage Statistique - P. Gallinari 40
Description informelle
Caractéristiques
Eléments simples interconnectés Echange d'information au moyen des connexions Calcul distribué et coopératif
Apprentissage Statistique - P. Gallinari 41
Domaine pluridisciplinaire
Domaines Neurosciences Sciences cognitive (AI, psychologie, linguistique) Informatique Maths Physique
Buts Modélisation (neurophysiologie, biologie.....) Modèle de calcul (applications, computational theory,
apprentissage...)
Apprentissage Statistique - P. Gallinari 42
Exemple : réseau linéaire
Etat (cellule) = ΣcellulesW incident*état(cellules incidentes )
Apprentissage Dynamique Caractéristiques : Architecture : interconnexion + définition unités Algorithmes : apprentissage + dynamique
Visible units Hidden units
SIGNAL DECISIONW
W
WW
W
WW
WW
1
2
3
4
5
6
78
9
Visible units
Apprentissage Statistique - P. Gallinari 43
Fondements biologiques
Le neurone Soma Arbre des dendrites Axone Flot d'information axone : impulsions électriques dendrites : transmission chimique avec le soma via synapses
Synapses contact : émission - réception Poids synaptique = modulation de l'information transmise
vers le soma. Comportement du neurone + mémoire ?
Apprentissage Statistique - P. Gallinari 44
Neurones et Types de neurones
Apprentissage Statistique - P. Gallinari 45
Composants du neurone
Apprentissage Statistique - P. Gallinari 46
Historique rapide
43 Mc Culloch & Pitts : neurone formel "A logical calculus of the ideas immanent in nervous activities"
40 – 45 Wiener (USA) Kolmogorov (URSS) Türing (UK) Théorie de l'estimation et de la prédiction (contrôle batteries anti-
aeriennes) Boucle de rétro-action
Apprentissage Statistique - P. Gallinari 47
48 - 50 Von Neuman : réseaux d'automates 49 Hebb : apprentissage dans les réseaux d'automates 55 - 60 Rosenblatt : Perceptron
Widrow - Hoff : Adaline
70 – 80 Mémoires associatives, ART, SOM ... 90 – 95 Réseaux non linéaires Réseaux de Hopfield, Machine de Boltzmann Perceptron multicouches ...
2006 - .. Deep neural networks, restricted Boltzmann
machines,…
Apprentissage Statistique - P. Gallinari 48
Optimisation dans les RNAlgorithmes de gradient Principe : la direction de descente D, le pas de gradient sont
déterminés à partir d'informations locales sur la fonction de coût C(W), i.e. approximations au 1er ou 2nd ordre.
Exemples :
tttt DWW 1
Initialiser W0
ItérerCritère d'arrêt
Plus grande pente
Initialiser W0
Itérer Choisir un exemple xt
Critère d'arrêt
Gradient adaptatif
(w(t))()1( Ctwtw
))(()()1( twctwtw
Apprentissage Statistique - P. Gallinari 49
Explication :
Approximation quadratique locale de la fonction à optimiser :
H : Hessien de la fonction de coût Méthode de Newton : En pratique : 1er ordre ou approximations du 2nd ordre Exemple 2nd ordre :
Méthodes de quasi-Newton : approximation de H-1 itérativement. Forme générale :
H' : approximation de H-1 sans calculer les dérivées secondes : minimisation suivant la direction
Méthodes générales Convergence vers un optimum local
)()()(
)()(21)()()()(
11
1111
tttt
ttT
tttT
tttt
WWHWQWQ
WWHWWWQWWWQWQ
0)( 1 tWQ
)(11 ttt WQHWW
))(),(,,,'(''
)('
111
1
ttttttt
ttttWQWQWWHFHH
WQHWW
)(' tt WQH
Apprentissage Statistique - P. Gallinari 50
Exemple : FW fonction linéaire réelle C erreur quadratique
nj
jj xwxwxF..1
.)(
N
i
ii dxFN
C1
2))((1
nwC
wC
wC
...)(1
i nk
ij
iikk
i nk
iikk
jj
xdxwN
dxwwNw
C..1..1
2 ))(1)(1
Apprentissage Statistique - P. Gallinari 51
Le neurone
C'est un automate caractérisé par des signaux d'entrée x1 , … , xn
une fonction de transition y = F ( x1 , … , xn )
x2
x1
xn
y = F(x)
Apprentissage Statistique - P. Gallinari 52
Différent types de neurones
Le neurone distanceA = || x - w||2
g : Id, F(x) = e-(A/k)
Le neurone produit scalaireA = k wk xk
avec différentes fonctions g: Id,seuil,sigmoïde :th :
A
a
g(x) g(x)
kAexF
11)(
kAkA
kAkA
eeeexF
)(
x2
x1
xn
y = F(x)
Apprentissage Statistique - P. Gallinari 53
Adaline (Adaptive Linear Element)
Architecture
Risque empirique : moindres carrésC(W) = [ 1 / N] . k [ w. xk - dk ] 2
x2
x1
xn
y = F(x)
Apprentissage Statistique - P. Gallinari 54
Algorithme : Widrow-Hoff - gradient stochastique
xt est l'exemple présenté à l'instant t, le gradient est calculé sur le coût local
A comparer avec le gradient classique qui calcule le gradient sur le risque empirique
Initialiser W(0)ItererChoisir aléatoirement un exemple (xt,dt)w(t+1) = w(t) - (t) . [ w(t) xt - dt ] xt
Critère d'arrêt
Initialiser W(0)Itererw(t+1) = w(t) - (t) . k [ w(t) xk - dk ] xk
Critère d'arrêt
Apprentissage Statistique - P. Gallinari 55
Apprentissage hors ligne vs apprentissage adaptatif
ck erreur sur la forme k de l'ensemble d'apprentissage
Gradient sur C Gradient adaptatif sur c
Q qk
W W
k
kcN
C 1
Apprentissage Statistique - P. Gallinari 56
Extension multidimensionnelle Données : x1,…, xN n, d1,…, dN p, y1,…, yN p
Modèle : dk = W xk k 1,…,N i.e. D = W X
Fonction de coûtC(W) = || D - W X ||2
Algorithme: Widrow-Hoff W(t+1) = W(t) - (t)[ W x - d].x
Apprentissage Statistique - P. Gallinari 57
Calcul de l'association optimale par l'algèbre linéaire
L'équation D = W X a une solution ssi D = D X+ X où X+ est la matrice pseudo-inverse de X
La solution générale est donnée par:
W = D X+ + Z ( I - X X+) (*)
où Z est une matrice arbitraire de même dimension que W
Quand D = W X n'a pas de solution exacte (*) est solution de MinW ||D - W X||2 i.e. (*) est la solution optimale de MinW ||D - W X||2
Apprentissage Statistique - P. Gallinari 58
Modèles flexibles
Perceptron Multicouches Réseau avec: des couches externes: entrée et sortie des couches internes ou cachées
Les entrées sont présentées sur lapremière couche et propagées decouche en couche:xi = g [Ai ] avec Ai = j wij xj
La sortie calculée sur la dernièrecouche: yk = F(xk)est ensuite comparée à la sortie désirée dk
y
x
Input
Output
hidden layers
d
Apprentissage Statistique - P. Gallinari 59
Fonction de coût : C(W) = 1/N k = 1..N ck, avec ck=||dk - yk ||2 = j=1..p (dk
j – ykj )2
Algorithme : Widrow-Hoff wij(t) = wij(t-1) - (t) ct / wij(t)
g prend généralement une des deux formes suivantes Sigmoïde
tangente hyperbolique
j jj xwwA 0
Kvevg
1
1)(
KvKv
KvKv
ee
eevg
)(
kk jkjj ijiii xwwgwwgxGy 00)(
Apprentissage Statistique - P. Gallinari 60
Algorithme gradient adaptatif PMC
Initialiser W(0)Itérer•présenter un exemple xt
• propager les états en avant de couche en couche :xi = g( Ai)
• comparer: sortie calculée yt
sortie désirée dt
• calculer l'erreur sur les cellules de sortie: eti = ( yt
i - dti)
• rétro-propager l'erreur de la couche de sortie vers la couched'entrée:
si i est une cellule de sortie : zi = 2 . eti. g ' (Ai)
sinon: zi =(h whi (t) zh ) . g ' (Ai)où h indexe les cellules vers lesquelles i envoie sa sortie
• modifier les poids en arrière: wij (t) = - (t) . zi . xj
•exemple suivant
Apprentissage Statistique - P. Gallinari 61
Contrôle de la complexité
En pratique, on n’optimise jamais le risque empirique seul On optimise le risque tout en controlant la complexité Tout bon logiciel d’apprentissage incorpore des techniques de contrôle
de la complexité Cf partie théorique du cours
Nombreuses méthodes Régularisation (Hadamard …Tikhonov) Théorie des problèmes mal posés
Minimisation du risque structurel (Vapnik) Estimateurs algébriques de l’erreur de généralisation (AIC, BIC, LOO,
etc) Apprentissage bayesien Fournit une interprétation statistique de la régularisation Le terme de régularisation apparait comme un a priori sur les paramètres du
modèle Méthodes d’ensembles Boosting, bagging, etc
….
Apprentissage Statistique - P. Gallinari 62
Regularisation
Hadamard Un problème est bien posé si Il existe une solution Elle est unique La solution est stable
Exemple de problème mal posé (Goutte 1997)
Tikhonov Propose des méthodes pour transformer un problème mal posé en
problème bien posé
Apprentissage Statistique - P. Gallinari 63
Régularisation empirique pour les réseaux de neurones Régularisation : Contrôler la variance de la solution en contraignant la
fonctionnelle Optimiser C = C1 + C2(F) C1 : mesure du but poursuivi e.g. MSE, Entropie, ... C2 : contraintes sur la forme de la solution (e.g. distribution des poids) Exemples : forcer les poids inutiles à des valeurs faibles
–> biaise la solution en diminuant les poids utiles
–> 2 groupes de poids autour de c
—> cellules cachées + poids
Utiliser des contraintes différentes suivant le rôle des poids Problème : détermination des "hyper-paramètres"
i i
i
cwcwC/1
/2
22
2
i i
i
i i
i
cwcw
chchC
/1/
/1/
2
22
2
22
2
i
iwC 22
Apprentissage Statistique - P. Gallinari 64
Autres idées pour le problème de la généralisation dans les réseaux de neurones
Arrêt de l'apprentissage Elagage : tuer les paramètres inutiles dans un réseau.
Différentes mesures d'utilité ont été proposées Bruiter les entrées (Matsuoka 1992 ; Grandvallet et Canu
1994 ; Bishop 1994) Réseaux à convolution
Apprentissage Statistique - P. Gallinari 65
Exemple (Cibas et al, 95, 96)
Discriminer entre trois classes de "formes d’onde". Les trois formes de base pour la génération des formes d'onde :
3 classes C1, C2, C3 engendrées respectivement par :
u v. a. de densité uniforme sur [0,1], ~ N(0,I), Classes équiprobables Apprentissage = 10 ensembles disjoints, chacun de 300 exemples Test = 5000 exemples Algorithme : Rétropropagation
1 5 9 13 17 21
6 6 6
h 3
h 2h 1
26)(1
10)(1
2)(1
32
31
21
huuhx
huuhx
huuhx
Apprentissage Statistique - P. Gallinari 66
Evolution des performances pendant l'apprentissage
Figure 1 a (left), b (right): evolution of the performances (mean square error) during training for MLPs with a varying number of hidden units. (a) corresponds to a stochastic gradient descent and (b) to a conjugate gardient. Each curve corresponds to a two weight layer MLP, the number on the curve gives the size of the hidden layer.
0
5
10
15
35
60
5
10
15
3560
Apprentissage Statistique - P. Gallinari 67
Effet de la régularisation
Comparaison de l’erreur en apprentissage (a) et en généralisation (b) pour les réseaux h=15 et h=60 en minimisant le coût ordinaire sans terme de régularisation (...-ord) et le coût avec la régularisation: avec détermination des paramètres à priori (...-WD) et en les estimant pendant l’apprentissage (...-estim)
h=60-WD
h=15-estim
h=60-estimh=15-ord
h=60-ord
h=60-ord
h=15-ord
h=15-estimh=60-estimh=60-WD
Apprentissage Statistique - P. Gallinari 68
Fonctions à Base Radiale
Réseau à deux couches Notations wi. = poids vers la cellule i, xi sortie de la cellule i, x entrée
Risque : moindres carrés
Couche de sortie
g = IdCouche intermédiaire
y
x
j jj xwwA 0
2wxA
2)( A
eAg
2
.0)( jj ijiii wxgwwxGy
Apprentissage Statistique - P. Gallinari 69
La fonction sigmoïde
Distribution de la famille exponentielle :
, : paramètres de la loi, ( paramètre de position , paramètre de dispersion).
Ex. de distributions exponentielles : normale, gamma, binomiale, poisson, hypergéométrique ...
Hypothèse : la distribution des données conditionnellement à chaque classe est de la famille exponentielle, avec un paramètre de dispersion identique pour toutes les classes i.e. :
Alors
)),()())/(((),,( xcabxxp T exp
)),()())/((()/( xcabxCxp iT
ii exp
)(1
1)/(bxwi T
exCP
Apprentissage Statistique - P. Gallinari 70
Capacités d'approximation des PMC
Résultats basés sur les théorèmes d'approximation de l'analyse fonctionnelle. (Cybenko (1989)) Théorème 1: Soit f une fonction saturante continue, alors l'espace
des fonctions de la forme est dense dans l’espace des fonctions continues sur le cube unité C(I). i.e. h C(I)et > 0, g / < sur I.
Théorème 2: Soit f une fonction saturante continue. Soit F une fonction de décision définissant une partition de I. Alors > 0, il existe une fonction de la forme et un ensemble D I tel que (D) = 1 - et < sur D.
(Hornik et al., 1989) Théorème 3 : Pour toute fonction saturante croissante f, et toute
mesure de probabilité m sur Rn , l'espace des fonctions de la forme est uniformément dense sur les
compacts de C(Rn).
)()( .1 xwfvxg tj
nj jc
)()( xhxg
)()( .1 xwfvxg tj
nj jc
)()( xFxg
)()( .1 xwfvxg tj
nj jc
Apprentissage Statistique - P. Gallinari 71
Fonctions radiales (Park & Sandberg, 1993) Théorème 4 : Si f, fonction réelle définie sur Rn est
intégrable, alors l'espace des fonctions de la forme :
est dense dans L1(Rn) ssi .
Nj
j
jj
wxfvxg 1
. )(.)(
nR
dxxf 0)(
Apprentissage Statistique - P. Gallinari 72
Résultats basés sur le théorème de Kolmogorov Théorème sur la représentation (exacte) des fonctions réelles de Kolmogorov
Toute fonction h de C(I) peut s'écrire sous la forme
où les fonctions g et f sont des fonctions continues d'une variable.
Théorème 6 (Kurkova 1992) Soit h dans C(I), n 2 et R+, alors quelquesoit m vérifiant
m = 2n + 1n/(m-n) + v < / ||h||h(1/m) < v(m - n)/(2m - 3n)v > 0
h peut être approximée à une précision par un perceptron possédant deux couches cachées de fonctions saturantes et dont les sorties sont linéaires. La première couche comprend n.m(m+1) unités et la seconde m2(m+1)n. Les poids sont universels sauf ceux de la dernière couche, pour toutes les fonctions f vérifiant :
f(d)= sup|f(x1, ..., xn) - f(y1, ..., yn)|, x, y I et |xp - yp| < p.
))((),...,( 121 11
nq
np ppqqn xfgxxh
Apprentissage Statistique - P. Gallinari 73
Interprétation probabiliste des sorties
Risque théorique R = E ( [ d - h(x) ] 2) Le min de R est obtenu pour h*(x) = E[d | x ]
C(W) = E ( [ d - F(x,W) ]2 )= E ( [ d - h*(x) ]2 ) + E ( [ h*(x) - F(x,W) ] 2)
h*(x) = E[d | x ] est bien la solution optimale
Dans l’espace des hypothèses, W* / R(W*) = MinW Rminimise simultanément : E ( [ d - F(x,W) ]2 ) LMSE E ( [ h*(x) - F(x,W) ]2 ) meilleure approximation LMS
de E[d | x ]
Apprentissage Statistique - P. Gallinari 74
Cas de la Classification d = (0,…, 0, 1, 0, …, 0) avec un 1 en ième position si classe i hi*= P( Ci/ x ) i.e. F( . , W*) meilleure approximation LMS de la fonction
discriminante de Bayes (solution optimale). Sorties binaires hi*= P( di = 1| x )
Coût : di =ij pour x Cj, = coût de la décision i quand la classe est j hi* est le risque conditionnel de la décision i Décision : sortie la plus faible.
L’importance de la précision sur les sorties : dépend de l'utilisation (classification OU estimation de probabilité conditionnelle).
)/(]/[ 1 xjPxdE mj iji
Apprentissage Statistique - P. Gallinari 75
Fonctions de coût
Différentes fonctions de coût sont utilisées, suivant les problèmes, ou les modèles
LMSE Regression Souvent utilisé en
classification Classification, Hinge,
logistique Classification Exemples y R, d -1, 1
Hinge, logistique sont ici des approximations de l’erreur de classification
))exp(1ln(),(
1),(
(marge) .
log
2
yddyc
yddyc(y-d)(y,d)c
dyz
istique
hinge
MSE
Figure from Bishop 2006
Apprentissage supervisé
Machines à noyaux
Apprentissage Statistique - P. Gallinari 77
Introduction
Familles de machines d'apprentissage générales qui exploitent l'idée suivante : Projeter les données dans un espace de grande dimension
- éventuellement infini -où le problème sera facile à traiter Utiliser des "projections" non linéaires permettant des
calculs "efficaces" Exemples :
Machines à Vecteurs Support (généralisent : hyperplan optimal, cadre Vapnik)
Processus Gaussien (généralisent : régression logistique, cadre Bayesien)
Apprentissage Statistique - P. Gallinari 78
Représentation DualeExemple introductif : le perceptron
Hyp : 2 classes linéairement séparables, sortie désirée d = ± 1
i : mesure de la difficulté àclassifier iFonction de décision :
G = (xi.xj)i,j = 1..N : Matrice de Gram
Perceptron Dual = 0Répeter (t)Pour i = 1 à NSi
alors i = i (t) + 1Jusqu'à convergence
Fonction de décision :
W(0) = 0
Perceptron PrimalW(0) = 0Répeter (t)Pour i = 1 à N
Si di(W(t).xi) 0alors W(t+1) = W(t) + di.xi
Jusqu'à convergence
0)(1
N
j
ijjji xxdd
n
iii xwxF
1)()( sgn
N
i
ixidi
W1
N
ixixid
ixF
1).()( sgn
Apprentissage Statistique - P. Gallinari 79
Représentation Duale
La plupart des machines à apprentissage linéaires ont une représentation duale Exemples Adaline, regression, regression ridge, etc
L’information sur les données est entièrement fournie par la matrice de Gram : G = (xi.xj) i,j = 1..N, qui joue un rôle central
La fonction de décision F(x) s’exprime comme une combinaison linéaire de produits scalaires entre la donnée d’entrée x et les exemples d’apprentissage
Les machines à noyau généralisent ces idées Une fonction noyau K est définie sur X2, par
K(x,z) = < Φ(x), Φ(z)>où Φ est une fonction de X dans un espace muni d’un produit
scalaire
Apprentissage Statistique - P. Gallinari 80
Produit Scalaire et Noyaux
Projection non linéaire dans un espace de (éventuellement très) grande dimension H
Machine linéaire dans H - Primal :
Machine linéaire dans H - Dual :
Calculer les produits scalaires dans l'espace initial : choisir F /
avec K : fonction noyau (i.e. symétrique)
avec : npRR pn
bxwxF ipi
i
)()(1..
bxxdxFxdWNi
ii
i
Ni
ii
i
)()()( )(1..1..
)',()'().( xxKxx
bxxKdxFNi
ii
i 1..
),()(
Apprentissage Statistique - P. Gallinari 81
Généralise le produit scalaire dans l'espace initial Le calcul de F ne dépend pas directement de la taille de
H : les calculs sont faits dans l'espace initial. La machine linéaire dans H peut être construite à partir
d'une fonction K sans qu'il soit nécessaire de définir explicitement : en pratique, on spécifiera directement K.
Cette idée permet d'étendre de nombreuses techniques linéaires au non linéaire: il suffit de trouver des noyaux appropriés Exemples ACP, Analyse discriminante, regression, etc
Apprentissage Statistique - P. Gallinari 82
Caractérisation des noyaux
Quand peut on utiliser cette idée ? Cas d'un espace fini Soit X = x1,…, xN, K(x,x') une fonction symétrique sur X,
K est une fonction noyau ssi la matrice est positive semi-définie (valeurs propres 0)
Cas général : Conditions de Mercer (noyaux de Mercer) Il existe une application et un développement
ssi est fini
Nji
ji xxK 1,)),((K
1)'(.)()',(
iii xxxxK
dxxgg 2)(/
0')'()()',( dxdxxgxgxxK
Apprentissage Statistique - P. Gallinari 83
Caractérisation des noyauxEspace de Hilbert à noyau autoreproduisant Une fonction K: X*X R qui est soit continue soit définie sur un domaine
fini peut s’écrire sous la forme d’un produit scalaire :
avec Φ : x Φ(x) F espace de Hilbert ssi c’est une fonction symétrique et toutes les matrices formées par la
restriction de K à un échantillon fini sur X sont semi-définies positives).
Résultat à la base de la caractérisation effective des fonctions noyaux Il permet de caractériser K comme un noyau sans passer par Φ C’est une formulation équivalente aux conditions de Mercer
)(),(),( zxzxK
Apprentissage Statistique - P. Gallinari 84
L’espace de Hilbert associé à K :
Le produit scalaire défini sur cet espace :
l
iiiii liRXxNlxKF
1..1,,,/,.)(
l
iij
n
jii
l
ijiji
n
j
n
jjj
l
iii
zfxgzxKgf
xKgxKf
1 11 1
11
)()(),( ,
,.)((.) ,,.)((.)Soient
Noyau auto-reproduisant
Si on prend g(.) = K(x,.), alors
)(),( ,.)(,1
xfxxKxKfl
iii
Apprentissage Statistique - P. Gallinari 86
Exemples de noyaux
2 d de polynomes des ensemble ss i.e.
),)2(,).(()(/ avec )().(),(
).(),(
21n
: 2 d de monomes les tousi.e.
).()(/)( avec )().(),(
).)(.(.),(
.),(
,1,1,,
2
,1,,
1,
2
1
2
ccxxxx(x)zxzxK
czxzxK
xxxxzxzxK
zzxxzxzxK
zxzxK
niinjijiji
njijiji
n
jijiji
n
iii
Apprentissage Statistique - P. Gallinari 87
Exemples de noyaux
).(
gaussien noyau exp
d ordred' polynome )1.(
),(2
cxvxSigmoïde
xx
xx
xxK
i
i
di
i
Apprentissage Statistique - P. Gallinari 88
Construction des noyaux en pratique
Les résultats de Mercer servent à prouver les propriétés des fonctions noyaux. En pratique, elles sont peu utiles
Pour construire des noyaux, on procède par combinaison à partir de noyaux connus
Si K1 et K2 sont des noyaux sur X2, K3 défini sur F, les fonctions suivantes sont des noyaux : K(x, z) = K1 (x, z) + K2 (x, z) K(x, z) = K1 (x, z) . K2 (x, z)* K(x, z) = aK1 (x, z) K(x, z) = K3 (Φ(x), Φ(z)) …..
Apprentissage Statistique - P. Gallinari 89
Machines à vecteurs support
Exposé du cours : discrimination 2 classes Cas général : discrimination multi-classes, régression,
densité Idées Projeter -non linéairement- les données dans un espace de
"très" grande taille H Faire une séparation linéaire de bonne qualité dans cet
espace Raisonner dans H, mais résoudre le problème
d'optimisation dans l'espace de départ (noyaux)
Apprentissage Statistique - P. Gallinari 90
Notion de marge
WxF )(
W
Wb
H : F(x) = W.x + b = 0
Marge géométrique pour xi :
Marge de W pr à ens. D :Mini(M(xi))
Hyperplan de marge maximale :
MaxW(Mini(M(xi)))
)()(Wbx
WWdxM iii
Apprentissage Statistique - P. Gallinari 91
Marge géométrique vs marge fonctionnelle
Marge géométrique di.F(xi)/||w||
Marge fonctionnelle di.F(xi)
Remplacer w par k.w ne change pas la fonction de décision ou la marge géométrique, mais change la marge fonctionnelle.
Pour les SVM, on fixera la marge fonctionnelle à 1 et on optimisera la marge géométrique.
Apprentissage Statistique - P. Gallinari 92
Prémisses : Séparation linéaire à hyperplan optimal (1974) Hyp : D linéairement séparable
Fonction de décision : F(x) = W.x + b Pb apprentissage : trouver l'hyperplan optimal H* qui sépare D i.e. di.F(xi) 1 , i
avec une marge maximale M =
i.e. : Problème Primal :
1 avec , 1.. i
Niii ddxD
wwxFd ii
i
1)(.min
1)(...
Minimiser 2
ii xFdCS
W
Apprentissage Statistique - P. Gallinari 93
Solution : W* dépend uniquement des points supports i.e. points sur la marge qui vérifient : di.F*(xi) = 1
Rq: Quelque soit la dimension de l'espace, le nombre de degrés de liberté est "égal" au nombre de points de support
F* dépend uniquement du produit scalaire xi.x
support support
i i .x)(* x*i i
ii
ii xdxFdw
Marge
Vecteurs Supports
Apprentissage Statistique - P. Gallinari 94
Apprentissage :
On résoud le problème d'optimisation dit dual :
Problème minimisation quadratique sous contraintes
0et 0.
.)( Maximiser
ii
,
ii
ji
jjji
ii
dCS
xxddL ii
Apprentissage Statistique - P. Gallinari 95
Machines à vecteurs supports
Faire une séparation à marge max. dans un espace défini par une fonction noyau.
Tous les résultats sur le classifieur linéaire à marge max. se transposent en remplaçant par .xxi ),( xxK i
bxxKdxF
xxKxx
bxxdxFxdW
RR
SVx
ii
i
SVx SVx
ii
iii
i
pn
i
i i
..
.. ..
),()(
)',()'().(
)()()( )(
:
Apprentissage Statistique - P. Gallinari 96
Apprentissage : On résoud le problème d'optimisation dual :
Problème minimisation quadratique sous contraintes dans l ’espace de départ
Difficile en pratique : différents algorithmes. Dans la solution optimale i > 0 uniquement pour les points
support. Seuls les produits scalaires K apparaissent, et pas les .
0et 0.
),()( Maximiser
ii
,
ii
ji
jijiji
ii
dCS
xxKddL
Apprentissage Statistique - P. Gallinari 97
Propriétés de généralisation -exemples
Th 1 peu de points support meilleure généralisation indépendant de la taille de l'espace de départ
Th 2 Si l'hyperplan optimal passe par l'origine et a pour marge
Alors
Dans les 2 cas, E[P()] est l'espérance sur tous les ensembles de taille l-1, et E[membre droit] est l'espérance sur tous les ensembles d'apprentissage de taille l (leave one out).
1ageapprentissexemples#supports]vecteurs[#))](([
ExerreurPE
qxNiq i ,1../
N
][))](([
2
2
qExerreurPE
Apprentissage Statistique - P. Gallinari 98
Cas non linéairement séparable
Marges molles L'algorithme est instable Dans les cas non linéairement séparables Dans le cas de données réelles même linéairement séparables Solution adoptée en pratique autoriser des erreurs, i.e. prendre pour contraintes :
ηi = 0, xi est correctement classifié et est du bon coté de la marge 0 < ηi <= 1, xi est correctement classifié, est à l’intérieur de la marge ηi > 1, xi est mal classé ηi : slack variable
0
1))(.(
i
iii bxWd
Apprentissage Statistique - P. Gallinari 99
But Maximiser la marge tout en pénalisant les points qui sont mal
classés Formalisation Plusieurs expressions possibles du problème L’une des plus courantes :
C fixé par validation croisée joue le rôle de paramètre de régularisation
NiNibxwd
CS
CwwMin
ii
N
i
..1,0 ..1,1).(
..
marge) lamax (i.e. ).(
i
i
1
i
Apprentissage Statistique - P. Gallinari 100
Marges molles – formulation duale
0et 0.
),()( Maximiser
ii
,
ii
ji
jijiji
ii
dCCS
xxKddL
Apprentissage Statistique - P. Gallinari 101
Algorithmes d’optimisation
Algorithmes d’optimisation standard pour la programmation quadratique sous contrainte e.g. Sequential Minimal Optimization (SMO)
Algorithmes stochastiques - SVM Results –(Bottou 2007) Task : Document classification - RCV1 documents belonging to
the class CCAT (2 classes classification task) Programs SVMLight and SVMPerf are well known SVM solvers written by Thorsten
Joachims. SVMLight is suitable for SVMs with arbitrary kernels. Similar results could be achieved using Chih-Jen Lin‘s LibSVM software. SVMPerf is a specialized solver for linear SVMs. It is considered to be one of the most efficient optimizer for this particular problem.
Algorithm (hinge loss) Training Time Primal cost Test Error
SVMLight 23642 secs 0.2275 6.02%
SVMPerf 66 secs 0.2278 6.03%
Stochastic Gradient (svmsgd) 1.4 secs 0.2275 6.02%
Stochastic Gradient (svmsgd2 1.4 secs 0.2275 6.01%
Apprentissage Statistique - P. Gallinari 102
Annexe : OptimisationProblèmes sous contraintes égalités, inégalités
Soient f, gi, i = 1..k, hj, j = 1 ..n des fonctions définies sur Rn à valeur dans R
On considère le problème primal suivant (Pb. 0) :
mjwhkiwg
RwwfMin
j
i
n
..1,0)(..1,0)(
sContrainte Sous )),((
Apprentissage Statistique - P. Gallinari 103
Optimisation non contrainte
Fermat Une C.N. pour que w* soit un min. de f(w) est
Si f est convexe c’est une Condition Suffisante
F est convexe si ∀ ∈ 0,1 , 1 1
0*)(
wwf
Apprentissage Statistique - P. Gallinari 104
OptimisationLagrangien On considère le (Pb. 1) :
On définit le Lagrangien L pour (Pb. 1) par
les βi sont les coefficients de Lagrange
mjwhCS
RwwfMin
j
n
..1,0)( ..
)),((
m
ijj whwfwL
1)()(),(
Apprentissage Statistique - P. Gallinari 105
OptimisationTh. Lagrange
Une CN pour que w*, * soit solution de (Pb. 1) est que en ce point
Si L(w, *) est une fonction convexe de w, c’est une C.S.
0*)*,(
0*)*,(
wLw
wL
OptimisationLagrangien augmenté De même, on définit le Lagrangien augmenté pour (Pb. 0) :
m
jjj
k
iii whwgwfwL
11
)()()(),(
Apprentissage Statistique - P. Gallinari 107
OptimisationTh. Kuhn et Tucker
On considère (Pb. 0) avec Ω convexe et f C1 convexe, gi, hjaffines (hi = A.w – b)
1 CNS pour que w* soit un optimum est qu’il existe α* et β* /
kikiwg
kiwg
wLw
wL
i
i
ii
..1,0*..1,0*)(
..1,0*)(*
0*)*,*,(
0*)*,*,(
Rq :
Soit une contrainte est active (αi* ≠ 0) et gi(w*) = 0), w* est un point frontière de la région admissible
Soit elle est inactive ((αi* = 0) et w* est dans la région admissible
Apprentissage Statistique - P. Gallinari 108
Formulation duale du problème d’optimisation Le (Pb. 0 _ formulation primale) est équivalent à la forme duale
suivante :
Rq : est une fonction de , uniquement
0 S.C.
)),,(inf ( Maximiser ,
wLw
),,(inf wLw
Apprentissage Statistique - P. Gallinari 109
SVM – formulations primale et duale
SVM Ω, f, contraintes sont convexes, L est quadratique On étudie le cas, D = (xi ,di)i = 1..N linéairement séparables Formulation similaire pour le cas non linéairement séparable
Pb. Primal
Lagrangien primal
Lagrangien dual
Nibxwd
CSwwMin
ii ..1,1).(
.. marge) lamax (i.e. ).(
0
)1).((.21),,(
1
i
N
i
iii bxwdwwbwL
N
i
jiji
jiN
ii xxddbwL
11).(
21),,(
Apprentissage Statistique - P. Gallinari 110
SVM – formulations primale et duale
Pb. Dual
Fonction de décision
Ni
d
CS
xxddbwL
i
N
ii
i
N
i
jiji
jiN
ii
..1,0
0
..
).(21),,(
1
11
VSi
ii
i bxxdxF.
*).(**)*,,(
Apprentissage non supervisé
Algorithme EM et mélange de densitésProbabilistic Latent Semantic AnalysisLatent Dirichlet AllocationSpectral clusteringNon Negative Matrix Factorization
Apprentissage Statistique - P. Gallinari 112
Applications
analyse des données quand il n'y a pas de connaissance sur la classe. e.g. pas d'étiquetage des données (problème nouveau)
trop de données ou étiquetage trop compliqué e.g. traces utilisateur (web), documents web, parole, etc
réduction de la quantité d'information e.g. quantification
découverte de régularités sur les données ou de similarités.
Apprentissage non supervisé
Algorithme Espérance Maximisation (EM)Application aux mélanges de densités
Apprentissage Statistique - P. Gallinari 114
Algorithme E. M. (Espérance Maximisation)
On dispose de données D = xii = 1..N On n’a pas d’étiquette di
d’un modèle génératif, de paramètres W : FW Le modèle « explique » la génération des données
On veut trouver les paramètres du modèle qui expliquent au mieux lagénération des données
On se donne un critère Ici on considère la vraisemblance des données qui est le critère le plus
fréquent P(D| W) = P(x1, …, xN| W)
D’autres critères sont également couramment utilisés On va essayer de déterminer les paramètres W de façon à maximiser la
vraisemblance
Apprentissage Statistique - P. Gallinari 115
Exemple
On recueille des données sur deux populations e.g. taille d’individus D = xii = 1..N
Hypothèse les données de chaque population sont gaussiennes Elles ont la même variance 2
Problème estimer les i et les à partir des données Si les di sont connus, i.e. D = (xi, dii = 1..N la solution est simple On a deux population séparées (2 classes) C1, C2
La maximisation de la vraisemblance donne l’estimateur classique de la moyenne
Difficulté : les di sont inconnus
),(),,( 22
21 IdNIdN
ji Cx
i
jj x
C1
Cas où l’appartenance est connue
Vraisemblance ∏ |∈ ∏ |∈
En pratique on maximise la log-vraisemblance log ∑ ∑ ∈∈
Cas des gaussiennes
exp
0 ⇔| |
∑ ∈
Apprentissage Statistique - P. Gallinari 116
Cas où la probabilité d’appartenance est connue On connait | ,k 1,2
Log-vraisemblance log ∑ log
Cas des gaussiennes
0 ⇔∑ .
∑ |
Rq : si on ne connait les | ,k 1,2 leséquationsformentunsystèmenonlinéairecouplé,insoluble.
Apprentissage Statistique - P. Gallinari 117
Apprentissage Statistique - P. Gallinari 118
Variables cachées (ou latentes)
On postule l’existence de variables cachées h responsables de la
génération des données À chaque xi, on associe sa classe cachée hi
H = hiI = 1..N
l’existence d’une fonction densité jointe sur les données observées et cachées p(x, h)
P(D, H| W) sera appelé vraisemblance complète des données pour le modèle W.
Remarque Les variables h sont inconnues et sont considérées comme
des variables aléatoires P(D, H| W) sera elle même une variable aléatoire
Apprentissage Statistique - P. Gallinari 119
Algorithme EM
On veut maximiser P(D/W)à partir de l'observation des données visibles Problème la maximisation directe de P(D/W) ne conduit pas à des formules calculatoires
(algorithme) Solution : on maximise de façon itérative une fonction auxiliaire Q L’espérance de la vraisemblance des données complètes connaissant le modèle
courant L’espérance est calculée par rapport à la distribution des variables cachées h Le modèle courant à l’étape t est noté W(t)
Remarque : dans cette expression D et W(t) sont des constantes h est une variable aléatoire de densité p(h|x, W(t)) W est les paramètres du modèle que l’on veut estimer
H
ttt WHDpWDHpWDWHDpEWWQ )/,(log),/(,)//,(log)/( )()()(
Apprentissage Statistique - P. Gallinari 120
Algorithme EM
L’algorithme converge vers un maximum local de la fonction Q et de P(D/W)
Initialiser W = W(0)
1. Etape E : EspéranceOn calculeOn en déduitL'espérance est calculée par rapport à la distribution de H
2. Etape M : MaximisationEtant donnée la distribution courante sur H, trouver les paramètres quimaximisent Q
),/( )(tWDHp)/( )(tWWQ
)(1)( ,)//,(logmaxarg t
W
t WDWHDpEW
Apprentissage Statistique - P. Gallinari 121
Remarques Lors de l'étape E, on estime la distribution de H, à
partir des valeurs courantes des paramètres W(t). Au lieu d'essayer de maximiser directement, on utilise
la fonction auxiliaire Q. On peut montrer la convergence de l'algorithme par :
L'algorithme est utilisé pour les algorithmes non supervisés, semi - supervisés les données manquantes ou les composantes manquantes dans les
données les HMM ...
),/( )(tWDHp
)/( WDp
)/()/()/()/( tttt WDpWDpWWQWWQ
Apprentissage Statistique - P. Gallinari 122
Exemple
Mélange de densités - Cas de deux classe gaussiennes, connu But (MV) : trouver On considère , les hi sont les données
cachées Algorithme Initialisation itérer Etape E
Etape M
NiixD ..1)( ),/(maxarg, 2121 Dp
Niii hxHD ..1),(
calculer i = 1..N, j = 1,2)/( ii xjhp )],,/([),,,,( 212121
tttttt HDPEQ
Trouver les μ1, μ2 qui maximisent Qcalculer
Ni
Nitj i
ii
xjhp
xxjhp
..1
..1)1(
)/(
)/(
(0)2 ,)0(
1
Apprentissage Statistique - P. Gallinari 123
Remarques Etape E : calcul de la responsabilité de chaque gaussienne pour
chaque point
Etape M : chaque centre est défini comme le centre de toutes lesdonnées, chacune étant pondérée par cette responsabilité
Cas limite : = 0 : algorithme des k-moyennes
k
iii
iiiii
khxpkhpjhxpjhpxjhp
)/()()/()()/(
Apprentissage Statistique - P. Gallinari 124
Mélange de densités – cas gaussien
On suppose que le modèle génératif des données est un mélange de densités gaussiennes On fixe a priori le nombre de composantes du mélange à k on suppose que les données x sont unidimensionnelles
Paramètres Coefficients du mélange p(l| x), moyennes et écarts types
k
llxplpxp
1)/()()( 2
2
2)(
2/12 )2(1)/( l
lx
l
elxp
kllllpW
1..,),(
Apprentissage Statistique - P. Gallinari 125
Vraisemblance
Vraisemblance complète variables cachées : hi classe de xi
N
i
k
l
i WlxpWlpWDp1 1
),/()/()/(
)),/()/((
)),/()/(()/,(
1 1
1
N
i
ik
l lh
N
i
iii
WlxpWlp
WhxpWhpWHDp
i log
loglog
Apprentissage Statistique - P. Gallinari 126
Mélange de densité – Etapes E et M
Etape E
Etape M
),/()/(log),/(
),/()/,(log...)],(log[)/(
1 1
)(
1 1 1
)(,/
)(
1)(
WlxpWlpWxlp
WxhpWHDpWHDpEWWQ
iN
i
k
l
ti
k
h
k
h
N
i
tiiWXH
t
Nt
kl
tti
ttit
i Wlp(hWlhxp
Wjp(hWjhxpWxjhp
1..
)()(
)()()(
)).,/(
)),/(),/(
))1)/(((1)/( contrainte sous
)(
11
k
l
k
l
WlpQMinWlp
QMin
Apprentissage Statistique - P. Gallinari 127
Mélange de densités – Reestimation dans l’étape M
i
titi
tii
tj
iti
tj
i
tii
iti
tj
WxjpN
jp
Wxjp
xWxjp
n
Wxjp
xWxjp
),/(1)(
),/(
),/(1
),/(
),/(
)()1(
)(
2)1()(2)1(
)(
)(
)1(
Apprentissage non supervisé
Mélange de densitésApprentissage par échantillonnage de Gibbs
Apprentissage Statistique - P. Gallinari 129
Les méthodes MCMCMarkov Chain Monte CarloMéthodes de calcul intensif basées sur la simulation
pour Echantillonnage de variables aléatoires x(t)t=1..T qui suivent une certaine distribution p(x)
Calcul de l’espérance de fonctions suivant cette distribution
E[f(x)] sera estimé par 1/T . Σt=1..Tf(x(t)) e.g. moyenne, marginales, …
Maximisation de fonctions Argmaxxp(x)
Apprentissage Statistique - P. Gallinari 130
Echantillonneur de Gibbs
On veut estimer une densité p(x) avec x = (x1,..,xn) Hyp On connait les lois conditionnelles p(xi| x1,.., xi -1, xi+1,..., xn) = p(xi| x - i)
Algorithme Initialiser xi, i = 1..n Pour t = 1 …T faire
)(~nner Echantillo
........
)(~nner Echantillo
1
111
1
tnn
tn
tt
xxpx
xxpx
Apprentissage Statistique - P. Gallinari 131
Propriétés Sous certaines conditions de régularité, la procédure
converge vers la distribution cible p(x) Les échantillons résultants sont des échantillons de la loi
jointe p(x) On n’a pas besoin de connaitre la forme analytique des
p(xi| x - i) mais uniquement de pouvoir échantillonner à partir de ces distributions Mais la forme analytique permet d’avoir de meilleurs estimés
Avant de retenir les points échantillons, on autorise souvent une période de “burn-in” pendant laquelle on fait simplement tourner l’algorithme “à vide”
Gibbs facile à implémenter, adapté aux modèles hierarchiques (cf LDA)
Apprentissage Statistique - P. Gallinari 132
Cas du mélange de deux lois gaussiennes
Modèle
On va considérer un modèle augmenté en ajoutant une variable cachée h Les données complètes sont les (xi, hi)
Les paramètres à estimer sont :
On va utiliser Gibbs en échantillonnant sur les densités conditionnelles Pour simplifier on suppose dans l’example que les proportions p(l) et
les variances σ sont fixées, on estime juste les moyennes μ1 et μ2
Pour cela, on va échantillonner suivant la distribution jointe (h(t), μ1(t),
μ2(t))
2
1)/()()(
llxplpxp
2..1,),( llllpW
Apprentissage Statistique - P. Gallinari 133
Echantillonneur de Gibbs pour le modèle de mélange de deux gaussiennes
2,1),,ˆ(~générer 2.
2,1,)1(
).1(ˆ
calculer
2,1,),(),(
),()
selon 1,0générer 1.
1Pour 1...T Répéter t
, initiales valeursdesChoisir
j(t)j
1
)(
1
)(
j
2)1(
2)1(
21)1(
1)1(
1
)1()1(
)(
)0(2
)0(1
jN
jh
xh
jxppxpp
xppjp(h
h
...N i
j
N
i
ti
N
ii
ti
ti
tti
tj
tji
tj
i
ti
Apprentissage Statistique - P. Gallinari 134
Lien avec l’algorithme EM
Les étapes pour cet exemple sont les mêmes que avec EM
Différence Au lieu de maximiser la vraisemblance, aux étapes 1 et 2,
on échantillonne Etape 1 : on simule les variables cachées h au lieu de calculer
E(h|W, D) Etape 2 : on simule à partir de p(μ1, μ2|h, D) au lieu de calculer
le max. vraisemblance p(μ1, μ2| D) dans EM
Apprentissage non supervisé
Algorithmes à variables latentes Probabilistic Latent Semantic Analysis Latent Dirichlet Allocation
Apprentissage Statistique - P. Gallinari 136
Preliminaries : unigram model
Generative model of a document
Select document length Pick a word w with probability p(w) Continue until the end of the document
Applications Classification Clustering Ad-hoc retrieval (language models)
i
i dwpdp )()(
Apprentissage Statistique - P. Gallinari 137
Preliminaries - Unigram model – geometric interpretation
P(w1|d)
P(w3|d)
P(w2|d)
Document d
Word simplex
2/1)(
4/1)(
4/1)(
3
2
1
tionrepresenta d doc
dwp
dwp
dwp
Apprentissage Statistique - P. Gallinari 138
Latent models for document generation
Several factors influence the creation of a document (authors, topics, mood, etc). They are usually unknown
Generative statistical models Associate the factors with latent variables Identifying (learning) the latent variables allows us to
uncover (inference) complex latent structures
Apprentissage Statistique - P. Gallinari 139
Probabilistic Latent Semantic Analysis -PLSA (Hofmann 99)
Motivations Several topics may be present in a document or in a
document collection Learn the topics from a training collection Applications Identify the semantic content of documents, documents
relationships, trends, … Segment documents, ad-hoc IR, …
Apprentissage Statistique - P. Gallinari 140
PLSA
The latent structure is a set of topics Each document is generated as a set of words chosen from
selected topics A latent variable z (topic) is associated to each word occurrence
in the document
Generative Process Select a document d, P(d) Iterate Choose a latent class z, P(z|d) Generate a word w according to P(w| z)
Note : P(w| z) and P(z|d) are multinomial distributions over the V words and the T topics
Apprentissage Statistique - P. Gallinari 141
PLSA - Topic
A topic is a distribution over words
Remark A topic is shared by several words A word is associated to several topics
P(w|z)
words
word P(w|z)
machine 0.04
learning 0.01
information 0.09
retrieval 0.02
…… …….
Apprentissage Statistique - P. Gallinari 142
PLSA as a graphical model
z
dzPzwPdwP
dwPdPwdP
)()()(
)(*)(),(
Boxes represent repeated samplingd wz
Corpus level
Document level
P(z|d) P(w|z)
DNd
Apprentissage Statistique - P. Gallinari 143
PLSA model
Hypothesis # values of z is fixed a priori Bag of words Documents are independent No specific distribution on the documents
Conditional independence z being known, w and d are independent
Learning Maximum Likelihood : p(Doc-collection) EM algorithm and variants
Apprentissage Statistique - P. Gallinari 144
PLSA - geometric interpretation
Topici is a point on the word simplex Documents are constrained to lie on the topic simplex Creates a bottleneck in document representation
Topic simplex
topic2
topic1
topic3w2 w1
w3
Word simplex
Document d
z
dzPzwPdwP )()()(
Apprentissage Statistique - P. Gallinari 145
Applications
Thematic segmentation Creating documents hierarchies IR : PLSI model Clustering and classification Image annotation Learn and infer P(w|image)
Collaborative filtering
Note : #variants and extensions E.g. Hierarchical PLSA (see Gaussier et al.)
Apprentissage Statistique - P. Gallinari 146
Latent Dirichlet Allocation - LDA (Blei et al. 2003)
LDA is also a topic model Extends PLSA
Motivations Generalization over unseen documents Define a probabilistic model over documents Not present in PLSA
Allows to generate (model) unseen documents Overtraining In PLSA, the number of parameters grows with the corpus
size LDA constrains the distribution of topics for each document
and words for each topic
Apprentissage Statistique - P. Gallinari 147
LDA - model
Similar to PLSA with the addition of a prior distribution on the topic distribution
Generative process For a document Topic distribution Choose θ ~ Dirichlet () a distribution over topics
Words For each document word w Choose a topic z ~ multinomial (θ) Choose a word w from p(w | θ, ) multinomial probability
conditioned on topic z
Apprentissage Statistique - P. Gallinari 148
LDA - model
ddzwpzpppWp
zwpzpppWZp
d
i
d
N
i ziii
N
iiii
1
1
),()()()(),(
),()()()(),,,,(
θ wz
Corpus level
Document level
Ф(z)
Multinomial
Dirichlet Multinomial
Nd
D
βT
Dirichlet
Apprentissage Statistique - P. Gallinari 149
LDA – model - unfolded
P(w|z1,1)
words
P(z|1)
topics
1 2
Z1,1 Z1,2Z2,1
w1,1 w1,2 w2,1
Doc1 Doc2
………
Apprentissage Statistique - P. Gallinari 150
PLSA vs LDA - geometric interpretation
PLSA provides a sampling of the document distribution on the topic simplex
LDA provides an estimate of the document distribution on the topic simple
topic2
topic1
topic3w2 w1
w3
Observed documents
topic2
topic1
topic3w2 w1
w3
Document distribution
Apprentissage Statistique - P. Gallinari 151
Dirichlet etc…
, are priors on the distributions and Perform a smoothing of and distributions , control the amount of smoothing
Dirichlet and multinomial Dirichlet is a conjugate prior for multinomial Allows to compute closed forms for posterior distributions
Apprentissage Statistique - P. Gallinari 152
LDA applications
Exploratory analysis Discovering topics Topic evolution Document tagging by most relevant topic words
Classification Collaborative filtering Image annotation IR All latent models Inference on latent variables
Apprentissage Statistique - P. Gallinari 153
LDA tagging (Blei et al 2003)
Apprentissage Statistique - P. Gallinari 154
Finding topics in PNAS (Griffith et al. 2004)
PNAS categories
LDA topics
Mean θi value for the most significant topic i on this
category
Apprentissage Statistique - P. Gallinari 155
Peer to Peer document download analysis (Denoyer 2008)
Nodes are files Two nodes are connected if they have been dowloaded
by at least 20 peers (500 K peers in total and 2.5 K files) Colors indicate the thematic clustering performed by
LDA using the key words associated to files Results Strong correspondance between download (connections)
and thematic communities
Apprentissage Statistique - P. Gallinari 156
Peer to Peer document download analysis (Denoyer 2008)
Apprentissage Statistique - P. Gallinari 157
Author-recipient topic model (McCallum et al. 2004)
Learning from Enron data
Identify
•Topic
•Author-recipient
Apprentissage Statistique - P. Gallinari 158
LDA – learning and inference
Exact learning and inference are intractable Approximate models Variational models Gibbs sampling Expectation propagation…
Apprentissage Statistique - P. Gallinari 159
Other latent models
Image annotation Author-topic model Author-Recipient-Topic…
Apprentissage Statistique - P. Gallinari 160
Example: Discovering e-communities (Zhou et al 2006)
Usual methods Rely mostly on graph and connectivity analysis
Machine learning Introduce semantic relationships e.g. shared documents in e-mails or linked documents for the
web Common interests
Example : e-mail analysis Recipient list (connectivity) Message body (Semantic information) Identify communities of users based on their exchanges,
and topics
Apprentissage Statistique - P. Gallinari 161
A document is characterized by 3 latent variables Content t Author u Community c
Goal Compute p(c, u, z | w)
Message generation d Choose a community c Choose an author in the community Choose a topic t Choose a word according to topic distribution w
Apprentissage Statistique - P. Gallinari 162
Community-user-topic model
di wzCorpus level
Document level
cNd
D
ФβT
C
U
Distribution of users over communities
Apprentissage Statistique - P. Gallinari 163
Example ( Zhou 06)
Apprentissage non supervisé
Spectral Clustering
Apprentissage Statistique - P. Gallinari 164
Spectral Clustering (after Von Luxburg 2007)
Intuition x1, …, xn data points, wij similarity between xi and xj
G = (V, E) graph vertex vi corresponds to data point xi
Edges are weighted by wij
Clustering amounts at finding a graph partition such that Edges between clusters have low weights Edges among points inside a cluster have high values
Apprentissage Statistique - P. Gallinari 165
Graphs notations G = (V, E) undirected graph V = v1, …, vn) Edges are weighted, W = (wij)I, j = 1…n , wij ≥ 0 is the weight
matrix D : diagonal matrix with ∑
Apprentissage Statistique - P. Gallinari 166
Building similarity graphs from data points Different ways to build a similarity graph Locally connected graphs: k-nearest neighbor graphs Two vertices are connected if one of them is among the k-
nearest neighbor of the other Or two vertices are connected if both are in the k-
neighborhood of the other Edges are then weighted using the similarity of the vertices
Fully connected graphs
exp /2 )
Apprentissage Statistique - P. Gallinari 167
Graph Laplacians Unnormalized graph Laplacian
Normalized graph Laplacians
I symmetric interpretation : random
walk on the graph
Apprentissage Statistique - P. Gallinari 168
Properties of the unnormalized graph Laplacian L satisfies:
∀ ∈ , ∑ ,
L is symmetric, positive semi-definite The smallest eigenvalue of L is 0, the corresponding
eigenvector is 1 (vector with n 1) L has n non negative eigenvalues 0 …
Apprentissage Statistique - P. Gallinari 169
Properties of the normalized graph Laplacians
∀ ∈ , ∑ ,
Lsym and Lrw are positive semi-definite and have n non negative eigenvalues 0 …
is an eigenvalue of Lrw with eigenvector u iff is an eigenvalue of Lsym with eigenvector D1/2u
Apprentissage Statistique - P. Gallinari 170
Unnormalized spectral clustering
Idée Projeter les points x ∈ , i 1…n, dans un espace de
dimension k dans lequel le clustering se fait facilement
Apprentissage Statistique - P. Gallinari 171
Unnormalized spectral clustering
Input: n points x1, …, xn, similarity matrix S Output: clusters Construct similarity graph and corresponding weight matrix W Compute unnormalized Laplacian L Compute first eigenvectors of L (corresponding to smallest
eigenvalues): u1, …, uk
U: n x k matrix with columns u1, …, uk
For i = 1…n, ∈ i-th row of U Cluster yi, i = 1…n with k-means into clusters C1, …, Ck
k clusters in the initial space: C’1, …, C’k / C’i = xj / yj Ci
Note: Similar algorithms with normalized Laplacians
Apprentissage Statistique - P. Gallinari 172
Apprentissage non supervisé
Non Negative Matrix Factorization
Apprentissage Statistique - P. Gallinari 173
Non Negative Matrix Factorization
Idea Project data vectors in a latent space of dimension k < m
size of the original space Axis in this latent space represent a new basis for data
representation Each original data vector will be approximated as a linear
combination of k basis vectors in this new space Data are assigned to the nearest axis This provide a clustering of the data
Apprentissage Statistique - P. Gallinari 174
x1,…, xn, ∈ , 0 X m x n non negative matrix with columns the xi s Find non negative factors U, V, / With U an m x k matrix, U a k x n matrix, k < m, n
x
m x n m x k k x n
vvApprentissage Statistique - P. Gallinari 175
X U V
, ∑
Columns ofU,uj arebasisvectors,the arethecoefficientofxi inthis basis
Loss function Solve
, Underconstraints , 0
Convex loss function inUandinV,butnotinboth UandV
Apprentissage Statistique - P. Gallinari 176
Algorithm Constrained optimization problem Can be solved by a Lagrangian formulation Iterative multiplicative algorithm (Xu et al. 2003)
U, V initialized at random values Iterate until convergence
←
←
Or by projected gradient formulations The solution U, V is not unique, if U, V is solution, then UD,
D-1V for D diagonal positive is also solution
Apprentissage Statistique - P. Gallinari 177
Using NMF for Clustering Normalize U as a column stochastic matrix (each column
vector is of norm 1)
←∑
← ∑
Under the constraint “U normalized” the solution U, V is unique
Associate xi to cluster j if
Apprentissage Statistique - P. Gallinari 178
Note many different versions and extensions of NMF Different loss functions e.g. different constraints on the decomposition
Different algorithms Applications Clustering Recommendation Link prediction Etc
Specific forms of NMF can be shown equivalent to PLSA Spectral clustering
Apprentissage Statistique - P. Gallinari 179
Illustration (Lee & Seung 1999)
Basis images for
NMF
Vector Quantization
Principal Component Analysis
Apprentissage Statistique - P. Gallinari 180
Apprentissage Semi supervisé
Méthodes génératives et discriminantesMéthodes basées sur les graphes
Apprentissage Statistique - P. Gallinari 182
Problématique
Cadre Problème de discrimination, i.e. on veut estimer P(C| x)
pour toutes les classes CMotivation Apprendre à classifier des données en utilisant un faible
nombre de données étiquetées et un grand nombre de données non étiquetées
L’etiquetage coûte cher, les données non étiquetées sont souvent largement disponibles
Utilisation Nombreux problèmes du web Ressources (temps, moyens humains etc) non disponibles
pour construire des ensembles annotés
Apprentissage Statistique - P. Gallinari 183
Méthodes
Très nombreuses méthodes Self learning Méthodes génératives Méthodes discriminantes SVM, CEM
Méthodes à base de graphes …
Apprentissage Statistique - P. Gallinari 184
Apprentissage semi-superviséModèles génératifs Approche générale : Maximiser la vraisemblance jointe des données étiquetées
et non étiquetées Utiliser un algorithme EM On en déduit P(C|x) pour tout x On regarde ici le cas à 2 classes
Notations D = DLU DU DL : Labeled data DU : Unlabeled data
C1 et C2 sont les deux classes considérées p1 et p2 sont les probabilités a priori des deux classes C1 et
C2
Apprentissage Statistique - P. Gallinari 185
Apprentissage semi-superviséModèles génératifs Log Vraisemblance des données
uiU
LLL
UL
Dx kkik
Dx
CDxCDxDx
DxDxM
DxM
Cxpxp
CxpCxpxp
xpxpL
xpL
))/(.(log)(log
),(log),(log)(log
)(log)(log
)(log
2
1
2121
Vraisemblance des données non étiquetées.
C’est un modèle de mélange
Vraisemblance des données
étiquetées
Apprentissage Statistique - P. Gallinari 186
Apprentissage semi-superviséModèles génératifs La vraisemblance totale s’écrit
Important Les modèles pour les densités p(x| C) sont les mêmes pour
les données supervisées et non supervisées C’est ce qui permet de capturer dans une même fonction
nles informations supervisées et non supervisées
uiki Dx k
kikk Cx
kikM CxpCxpL ))/(.(log))/(.log(2
1
2
1
Somme sur les données
étiquetées
Somme sur les données non étiquetées
Modèle de mélange
Apprentissage Statistique - P. Gallinari 187
Apprentissage semi-superviséModèles dicriminants (Amini 2004)
Au lieu de maximiser la vraisemblance, on va maximiser la vraisemblance classifiante (Symons et al. 71).
But classifier les exemples en c groupes en prenant une
décision “dure”.
avec T=(t1,…,tc) le vecteur des indicateurs de classe:
Vraisemblance classifiante vraisemblance des données complètes (donnée, classe) :
0,et1 hkk tkhtCx
8
c
k
N
ikkkikkiC CxptCL
1 1
)),,/(.log(.),,(
Apprentissage Statistique - P. Gallinari 188
Comparer avec la vraisemblance usuelle pour un mélange de densités :
N c
kkkkikkiC CxptCL
11 1
)),,/(..(log),,(
Apprentissage Statistique - P. Gallinari 189
Vraisemblance classifiante pour le cas semi-supervisé Pour un classifieur discriminant maximiser LC est
equivalent à maximiser
n étiquetés, m non étiquetés Algorithme : CEM
c
k
mn
nikkikki
c
k kCixkkikC xCptxCpCL
1 11)),,/(log(.)),,/(log(),,(~
9
Apprentissage Statistique - P. Gallinari 190
Mesures d’évaluation
Caractéristique des ensembles de données
Critère de performance
Pertinent
Non pertinent
Decision du système
+
PGC = ++
Precision =
Classification
Text summarization
IJCAI’03
Apprentissage Statistique - P. Gallinari 191
Exemple : Email spam
IJCAI’03
5%
65%
73%
82%
Apprentissage Statistique - P. Gallinari 192
Exemple : Résumé de texte
IJCAI’03
Apprentissage Statistique - P. Gallinari 193
Apprentissage semi-superviséModèles de graphes Les modèles génératifs ou discriminants précédants ne
prennent pas en compte la densité locale des données. Ils ne considèrent que la cohérence globale des données Vraisemblance
Sans considérer la cohérence locale Voisinage des points, densité locale
Cela peut conduire à des erreurs importantes si les densités ne sont pas bien séparées
Plusieurs familles de modèles ont été proposées pour prendre en compte à la fois les cohérences globales et locales des données Parmi elles, les méthodes à base de graphes
Apprentissage Statistique - P. Gallinari 194
Data consistency (Zhou et al. 2003)
SSL rely on local (neighbors share the same label) and global (data structure) data consistency
Fig. from Zhou et al. 2003
Apprentissage Statistique - P. Gallinari 195
Graph methods general idea Create a graph G = (V, E) Compute a similarity matrix W: Wij is the similarity between
nodes i and j Propagate observed labels to unlabeled nodes
Apprentissage Statistique - P. Gallinari 196
Example (Zhou et al 2003)
Compute an affinity matrix W
a normalized affinity matrix S
Iterate
Converges to Y* final labels on unlabeled data
0),2
exp(: 2
2
iiji
ij Wxx
WW
21
21
WDDS
)0()1()(.)1( YtYStY
D is a diagonal matrix whose ith element is the sum of ith row of W
Y(0) matrix of initial labels and 0 for unlabeled data
Apprentissage Statistique - P. Gallinari 197
Iterations
Fig. from Zhou et al. 2003
Apprentissage Statistique - P. Gallinari 198
Apprentissage en présence de données positives uniquement Problème Discrimination avec des étiquetages dans une seule classe
-positifs- et en faible nombre Nombreuses instances dans la réalité
Méthode pratique générale On considère que les exemples les plus éloignés des
exemples étiquetés sont négatifs On applique un algorithme d’apprentissage semi-supervisé
Apprentissage Statistique - P. Gallinari 199
Quelques liens utiles
Livres Cornuéjols, A and Miclet L.: Apprentissage Artificiel. Concepts et
algorithmes (2nd Ed.with revisions and additions - 2006 Eyrolles, 650 p Christopher M. Bishop, Pattern Recognition and Machine Learning,
Springer (2006). David Barber, 2012, Bayesian Reasoning and Machine Learning,
Cambridge Univ. Press. Software General Weka 3: Data Mining Software in Java
http://www.cs.waikato.ac.nz/ml/weka/ Lush (Leon Bottou)
http://lush.sourceforge.net) SVM http://www.csie.ntu.edu.tw/~cjlin/libsvm/
http://svmlight.joachims.org/http://www.torch.ch/
Test sets UCI machine learning repository …..