View
226
Download
3
Category
Preview:
Citation preview
Statistique non-paramétriqueApprentissage statistique
Estimation non-paramétrique et Apprentissage statistique
Sébastien Loustau, Université d'Angers
25 Février 2010, Université de La Rochelle
Estimation non-paramétrique et Apprentissage statistique 1 / 45
Statistique non-paramétriqueApprentissage statistique
De la statistique paramétrique...
La statistique paramétrique remonte à Fisher, 1920 : estimation
d'un nombre ni de paramètres θ ⊂ Rk .
Limites de l'approche :
1. modèles simplistes ne fournissant qu'une approximation de la
réalité,
2. résultats très souvent asymptotiques.
La réalité est souvent plus complexe, le nombre d'observations
limité, et les inconnues des fonctions possédant certaines propriétés
de régularité.
Estimation non-paramétrique et Apprentissage statistique 2 / 45
Statistique non-paramétriqueApprentissage statistique
... à la statistique non-paramétrique
La statistique non-paramétrique s'intéresse à l'estimation, à partir
d'un nombre ni d'observations, d'une fonction inconnue f ∈ Θ, où
Θ est un espace fonctionnel assez large.
Ces 30 dernières années, la théorie de l'estimation
non-paramétrique s'est développée autour des thèmes suivants :
1. Méthodes de constructions d'estimateurs,
2. Propriétés statistiques de ces estimateurs,
3. Optimalité de ces estimateurs,
4. Estimation adaptative.
Estimation non-paramétrique et Apprentissage statistique 3 / 45
Statistique non-paramétriqueApprentissage statistique
Plan de l'exposé
1. Statistique non-paramétriqueI Modèles statistiquesI Estimateurs, risque, régularisationI Vitesses de convergenceI Adaptation, inégalités oracles
2. Apprentissage statistiqueI Modèles d'apprentissageI Algorithmes d'apprentissageI Vitesses de convergenceI Adaptation
Estimation non-paramétrique et Apprentissage statistique 4 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle
Modèle non-paramétrique : l'estimation d'une densité
On dispose d'observations Xi , i = 1, . . . n i.i.d. de loi inconnue Pfde densité f telle que :
I f ∈ f (x , θ), θ ∈ Θ où Θ ⊂ Rk et f (x , θ) connue →estimation paramétrique de θ.
I f ∈ F , où F espace fonctionnel → estimation
non-paramétrique de f .
Construction d'un estimateur : l'estimateur à noyau (Rosenblatt,
1956).
D'après Glivenko-Cantelli, on a (uniformément en x) :
Fn(x) =1
n
n∑i=1
1I(Xi ≤ x)p.s.−→ F (x) = P(X ≤ x).
Estimation non-paramétrique et Apprentissage statistique 5 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle
Or, pour h assez petit,
f (x) = F ′(x) ≈ F (x + h)− F (x − h)
2h
et donc l'estimateur à noyau de Rosenblatt fn est déni par :
fn(x) =Fn(x + h)− Fn(x − h)
2h=
1
nh
n∑i=1
1
21I(−h < x − Xi ≤ h).
ou plus généralement (Parzen, 1962) :
fn(x) =1
nh
n∑i=1
K0(x − Xi
h),
où K0 est un noyau (rectangulaire, gaussien, ...), et h est appelée la
fenêtre.
Estimation non-paramétrique et Apprentissage statistique 6 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle
Autres modèles classiques
I Régression non-paramétrique : on dispose d'observations
(Xi ,Yi ), i = 1, . . . n i.i.d. telle que :
Yi = f (Xi ) + εi ,
où les variables εi vérient Eεi = 0, et f ∈ F est inconnue.
I Modèle du bruit blanc gaussien : on observe une trajectoire
Y (t), t ∈ [0, 1] du processus Y déni par :
dY (t) = f (t)dt + εdW (t), t ∈ [0, 1],
où W est le processus de Wiener standard sur [0, 1], f une
fonction inconnue.
I Problème inverse statistique : Af (t)dt au lieu f (t)dt, Acompact est connu.
Estimation non-paramétrique et Apprentissage statistique 7 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle
Décomposition en valeurs singulières de A
Pour A : H → K compact, on considère (ϕk)k∈N∗ b.o.n. de H de
fonctions propres de A∗A et on note (b2k)k∈N∗ ses valeurs propres
correspondantes. On peut construire (ψk)k∈N∗ b.o.n. de K et on a :
Aϕk = bkψk et A∗ψk = bkϕk .
La suite (bk)k∈N∗ est appelé suite des valeurs singulières de A et on
a clairement bk → 0.
Il nous reste à projeter Y dans la base (ψk)k∈N∗ et on obtient :
Estimation non-paramétrique et Apprentissage statistique 8 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle
Modèle de suites gaussiennes
yk :=< Y , ψk >= bkθk + εξk , k ∈ N∗,
avec :
I (yk) suite d'observations,
I bk → 0 connus (cas direct bk ≡ 1),
I (θk) = (< f , ϕk >) coecients de f à estimer,
I (ξk) suite i.i.d. de variables aléatoires N (0, 1),
I ε > 0 niveau de bruit.
But : estimer la suite (θk)k≥1 à l'aide des observations (yk)k≥1.
Estimation non-paramétrique et Apprentissage statistique 9 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle
Estimateur, risque
Idée naturelle pour estimer θk : θk = ykb−1k puisque pour tout k ,
Eθk = θk .Pour θ estimateur de θ, on considère le risque quadratique suivant :
R(θ, θ) = Eθ‖θ − θ‖2 = Eθ∑k≥1
(θk − θk)2.
On obtient pour notre estimateur :
R(θ, θ) = ε2∑k≥1
b−2k = +∞!!
Conclusion : on ne peut pas estimer tous les paramètres θk .
Estimation non-paramétrique et Apprentissage statistique 10 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle
Estimateurs linéaires
Pour contrôler le risque, on peut introduire la famille des
estimateurs linéaires :
θ(λ) = (θk = λkykb−1k )k∈N∗ : λk ∈ [0, 1], k = 1 . . ..
On obtient alors :
R(θ(λ), θ) =∑k≥1
(λk − 1)2θ2k + ε2∑k≥1
λ2kb−2k
= b(λ)2 + σ2(λ).
Il faut choisir (λk)k≥1 qui réalise le compromis biais-variance.
Estimation non-paramétrique et Apprentissage statistique 11 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle
Exemple : régularisation par projection
Considérons la famille d'estimateurs par projection ( ou spectral
cut-o) θ(N), N ≥ 1 dénie par :
θk(N) = 1I(k ≤ N)ykb−1k , k = 1, . . .
Le risque quadratique de θ(N) s'écrit :
R(θ,N) =∑k>N
θ2k + ε2N∑k=1
b−2k = b(N)2 + σ2(N).
⇒ Choix de N ?
Estimation non-paramétrique et Apprentissage statistique 12 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle
Solution non-adaptative (cas légèrement mal-posé)
Hypothèse de régularité sur la suite θ :
θ ∈ Θ(s,Q) = θ ∈ l2(N) :∑
k2sθ2k ≤ Q.
Alors on obtient, en supposant bk ∼ k−β :
R(θ,N) =∑k>N
θ2k + ε2N∑k=1
b−2k ≤ QN−2s + N2β+1ε2.
En prenant Ns ∼ ε−2
2s+2β+1 , on obtient :
R(θ,Ns) ≤ Qε4s
2s+2β+1 .
On dit que θ(Ns) atteint la vitesse de convergence ε4s
2s+2β+1 .
Estimation non-paramétrique et Apprentissage statistique 13 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle
Le compromis biais-variance en estimation de densité
De la même manière, si on considère fn vu précédemment :
E(fn(x0)− f (x0))2 = (Efn(x0)− f (x0))2 + E(fn(x0)− Efn(x0))2
:= b2(x0) + σ2(x0),
appelée biais et variance de l'estimateur fn au point x0.
En supposant que f ∈ Σ(s, L), et en prenant un noyau d'ordre
l = [s], on obtient :
E(fn(x0)− f (x0))2 ≤ C1h2s +
C2
nh,
E(fn(x0)− f (x0))2 ≤ Cn−2s
2s+1 , pour h ∼ n−1
2s+1 .
d'où l'importance de calibrer la fenêtre h de l'estimateur.
Estimation non-paramétrique et Apprentissage statistique 14 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle
Le compromis biais-variance en estimation de densité
De la même manière, si on considère fn vu précédemment :
E(fn(x0)− f (x0))2 = (Efn(x0)− f (x0))2 + E(fn(x0)− Efn(x0))2
:= b2(x0) + σ2(x0),
appelée biais et variance de l'estimateur fn au point x0.
En supposant que f ∈ Σ(s, L), et en prenant un noyau d'ordre
l = [s], on obtient :
E(fn(x0)− f (x0))2 ≤ C1h2s +
C2
nh,
E(fn(x0)− f (x0))2 ≤ Cn−2s
2s+1 , pour h ∼ n−1
2s+1 .
d'où l'importance de calibrer la fenêtre h de l'estimateur.
Estimation non-paramétrique et Apprentissage statistique 14 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle
Illustration
Estimation non-paramétrique et Apprentissage statistique 15 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle
Vitesse minimax
Le risque minimax sur Θ(s) est dénie par
r(Θ(s)) = inff
supf ∈Θ(s)
R(f , f ),
et on dira que f atteint la vitesse minimax sur Θ(s) s'il existe une
constante C ≥ 1 telle que :
supf ∈Θ(s)
R(f , f ) ≤ Cr(Θ(s)).
Dans notre cadre, on a :
r(Θ(s,Q)) ≈ ε4s
2s+2β+1 et r(Σ(s, L)) ≈ n−2s
2s+1 ,
et ainsi θ(Ns) et fn atteignent la vitesse minimax.
Estimation non-paramétrique et Apprentissage statistique 16 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle
Approche minimax
I Le meilleur estimateur au sens minimax est celui dont le risque
maximal sur Θ(s) est le plus petit.
I Approche pessimiste et qui dépend de connaissances préalables
sur la fonction à estimer.
Ici, θ(Ns) dépend de s, régularité de la fonction à estimer. On dit
que cet estimateur est non-adaptatif.
Vitesse minimax adaptative : Vitesse atteinte quelquesoit la
régularité de f .
Estimation non-paramétrique et Apprentissage statistique 17 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle
L'approche oracle
Etant donnée une famille d'estimateurs fλ, λ ∈ Λ de f , on dénit
l'oracle fλ∗ par :
R(f , fλ∗) = infλ∈Λ
R(f , fλ).
fλ∗ n'est pas un estimateur (dépend de f inconnue) !
On cherche un estimateur f = fλ vériant une inégalité oracle, i.e. :
R(f , fλ) ≤ Cε infλ∈Λ
R(f , fλ) + rε,
où Cε ≥ 1 (proche de 1) et rε négligeable.
Estimation non-paramétrique et Apprentissage statistique 18 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle
Oracle vs Minimax
Deux approches diérentes :
I minimax : on cherche la meilleure vitesse, étant donné
f ∈ Θ(s).
I oracle : étant donné une famille d'estimateurs,on cherche le
meilleur estimateur.
Ainsi :
I minimax : garantit une certaine performance (mais sous une
hypothèse de régularité sur f ) ;
I oracle : dépend de la famille d'estimateurs (mais aucune
hypothèse sur f ).
Estimation non-paramétrique et Apprentissage statistique 19 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle
L'approche oracle pour choisir N
Etant donnée θ(N), N ≥ 1, on cherche N qui s'approche de
N∗ = argminN
R(θ,N).
On dira que θ(N) satisfait une inégalité oracle exacte lorsque :
R(θ(N), θ) ≤ (1 + ρε)R(θ,N∗) + rε,
avec ρε → 0 lorsque ε→ 0 et rε terme résiduel.
Estimation non-paramétrique et Apprentissage statistique 20 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle
Exemple : la méthode du risque sans biais (URE)On va estimer le risque R(θ,N) par un estimateur sans biais
U(y ,N) en utilisant les observations yk = bkθk + εξk , k = 1, . . ..Puis on minimise sur N ≥ 1 l'estimateur du risque.
On a
U(y ,N) =∑k>N
b−2k (y2k − ε2) + ε2N∑k=1
b−2k e.s.b. de R(θ,N),
et on obtient le choix suivant de N :
NURE = argminN
(−
N∑k=1
b−2k y2k + 2ε2N∑k=1
b−2k
).
On a bien, ∀γ > 0,
R(θ(NURE ), θ) ≤ (1 + γ)R(θ,N∗) + C ∗ε2
γ.
Estimation non-paramétrique et Apprentissage statistique 21 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples, modèlesERMSVM
Apprentissage : une illustration
Estimation non-paramétrique et Apprentissage statistique 22 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples, modèlesERMSVM
Apprentissage statistique
On observe (Xi ,Yi ), i = 1, . . . n ensemble d'apprentissage de loi P
sur X × Y inconnue avec :
I X quelconque,
I Y ⊂ R.
But : on veut "apprendre", à partir des observations, la réponse Y
d'une nouvelle observation X .
Exemples :
I Classication binaire : Y = −1, 1.I Régression : Y = R.
I Statistique fonctionnelle : X espace fonctionnel.
Estimation non-paramétrique et Apprentissage statistique 23 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples, modèlesERMSVM
ApplicationsDynamic Reconstruction of Chaotic Systems ⊕Protein Structure
Prediction ⊕Identication of alternative exons using SVM ⊕Breastcancer diagnosis and prognosis ⊕Support Vector Machines Based Modeling
of Seismic Liquefaction PotentialSVM for Geo- and Environmental Sciences
⊕SVM for Protein Fold and Remote Homology Detection ⊕DetectingSteganography in digital images ⊕Breast Cancer Prognosis : Chemotherapy
Eect on Survival Rate ⊕Text Categorization ⊕Facial expression classication
⊕Application of The Kernel Method to the Inverse Geosounding Problem ⊕SupportVector Machine Classication of Microarray Gene Expression Data ⊕Intervals UsingLeast Squares Support Vector Machines ⊕Support Vector Machines For Texture
Classication ⊕SVM application in E-learning ⊕Support vector machines-based generalized
predictive control ⊕Isolated Handwritten Jawi Characters Categorization Using Support Vector
Machines (SVM). ⊕Image Clustering ⊕ewsRec, a SVM-driven Personal Recommendation System for
News Websites ⊕Equbits Foresight ⊕Speaker/speech recognition ⊕Student in AI ⊕Analysis and
Applications of Support Vector Forecasting Model Based on Chaos Theory⊕Image classication⊕Object
Detection⊕Intrusion DetectionEstimation non-paramétrique et Apprentissage statistique 24 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples, modèlesERMSVM
Le modèle de classication binaire
I On observe (X1,Y1), . . . (Xn,Yn) ∈ X × Y i.i.d. de loi π, où :
• X = Rd ,
• Y = −1,+1, classe correspondante.
I But : X → Y ? avec f : Rd → −1,+1 classieur.I On dénit le risque de f par R(f ) = P(f (X ) 6= Y ) et on a :
f ∗ = argminR(f ) = sign(2η − 1),
où η(x) = P(Y = 1|X = x).
I On veut contrôler l'excès de risque R(f , f ∗) = R(f )− R(f ∗).
Estimation non-paramétrique et Apprentissage statistique 25 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples, modèlesERMSVM
Exemple
Estimation non-paramétrique et Apprentissage statistique 26 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples, modèlesERMSVM
Idée naturelle : Minimisation du risque empiriqueOn considère C ensemble de classieurs.
P(f (X ) 6= Y )-f ∗Cminimise
6
estime
1n
∑ni=1 1I(f (Xi ) 6= Yi )fERM -
minimise
6
? ?
Si f ∗ ∈ C, on a :
EπnR(fERM , f∗) −→
n→+∞0.
Estimation non-paramétrique et Apprentissage statistique 27 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples, modèlesERMSVM
Idée naturelle : Minimisation du risque empiriqueOn considère C ensemble de classieurs.
P(f (X ) 6= Y )-f ∗Cminimise
6
estime
1n
∑ni=1 1I(f (Xi ) 6= Yi )
fERM -minimise
6
? ?
Si f ∗ ∈ C, on a :
EπnR(fERM , f∗) −→
n→+∞0.
Estimation non-paramétrique et Apprentissage statistique 27 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples, modèlesERMSVM
Idée naturelle : Minimisation du risque empiriqueOn considère C ensemble de classieurs.
P(f (X ) 6= Y )-f ∗Cminimise
6
estime
1n
∑ni=1 1I(f (Xi ) 6= Yi )fERM -
minimise
6
? ?
Si f ∗ ∈ C, on a :
EπnR(fERM , f∗) −→
n→+∞0.
Estimation non-paramétrique et Apprentissage statistique 27 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples, modèlesERMSVM
Idée naturelle : Minimisation du risque empiriqueOn considère C ensemble de classieurs.
P(f (X ) 6= Y )-f ∗Cminimise
6
estime
1n
∑ni=1 1I(f (Xi ) 6= Yi )fERM -
minimise
6
? ?
Si f ∗ ∈ C, on a :
EπnR(fERM , f∗) −→
n→+∞0.
Estimation non-paramétrique et Apprentissage statistique 27 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples, modèlesERMSVM
Idée naturelle : Minimisation du risque empiriqueOn considère C ensemble de classieurs.
P(f (X ) 6= Y )-f ∗Cminimise
6
estime
1n
∑ni=1 1I(f (Xi ) 6= Yi )fERM -
minimise
6
? ?
Si f ∗ ∈ C, on a :
EπnR(fERM , f∗) −→
n→+∞0.
Estimation non-paramétrique et Apprentissage statistique 27 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples, modèlesERMSVM
Vitesses des ERM
Si f ∗ ∈ C, on a aussi des vitesses de convergence :
I ER(fERM , f∗) ≤ Cn−
12 lorsque la dimension de Vapnik de f ∗
est nie (Vapnik et Chervonenkis 1982)
I Vitesse rapide lorsque R(f ∗) = 0 : ER(fERM , f∗) ≤ Cn−1.
I Plus récemment, vitesse minimax n− κ
2κ+ρ−1 avec :I 0 < ρ < 1 est la complexité de C.I κ ≥ 1 paramétre de marge, i.e. :
P(|2η(x)− 1| ≤ t) ≤ ct1
κ−1 , pour t → 0.
A-t'on f ∗ ∈ C ? ?
Estimation non-paramétrique et Apprentissage statistique 28 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples, modèlesERMSVM
Vitesses des ERM
Si f ∗ ∈ C, on a aussi des vitesses de convergence :
I ER(fERM , f∗) ≤ Cn−
12 lorsque la dimension de Vapnik de f ∗
est nie (Vapnik et Chervonenkis 1982)
I Vitesse rapide lorsque R(f ∗) = 0 : ER(fERM , f∗) ≤ Cn−1.
I Plus récemment, vitesse minimax n− κ
2κ+ρ−1 avec :I 0 < ρ < 1 est la complexité de C.I κ ≥ 1 paramétre de marge, i.e. :
P(|2η(x)− 1| ≤ t) ≤ ct1
κ−1 , pour t → 0.
A-t'on f ∗ ∈ C ? ?
Estimation non-paramétrique et Apprentissage statistique 28 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples, modèlesERMSVM
Problème des ERM : le choix de C !
On peut écrire dans le cas général
R(fERM , f∗) =
(R(fERM)− inf
CR(f )
)+
(infCR(f )− R(f ∗)
).
⇒ La taille de C doit réaliser un compromis :
I C trop grand : l'erreur d'estimation est trop grande.
I C trop petit : l'erreur d'approximation est trop grande.
Estimation non-paramétrique et Apprentissage statistique 29 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples, modèlesERMSVM
Le sur-apprentissage
C trop grand ⇒ solution très instable.
Estimation non-paramétrique et Apprentissage statistique 30 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples, modèlesERMSVM
ERM pénaliséSi C est susamment riche,
minf ∈C
Rn(f ) = 0⇒ sur− apprentissage.
On tient compte de la complexité de la solution. Par exemple :
minf ∈C
[Rn(f ) + αΩ(f )] ,
où Ω(f ) mesure la complexité de f et α est un paramètre de
régularisation.
Exemple :
I Ω(f ) = ‖f ‖2HK(SVM).
I Ω(f ) = ‖f ‖1 (LASSO).
Estimation non-paramétrique et Apprentissage statistique 31 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples, modèlesERMSVM
Le classieur SVM (Support Vector Machines)
classieur SVM
description géométrique
hyperplan optimal
dans un espace à noyau
'&
$%
- - - - - - - - - - - - - - - - - - - - - - -⇓
description statistique
ERM pénalisé
avec perte douce
'&
$%
Estimation non-paramétrique et Apprentissage statistique 32 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples, modèlesERMSVM
Le classieur SVM (Support Vector Machines)
classieur SVM
description géométrique
hyperplan optimal
dans un espace à noyau
'&
$%
- - - - - - - - - - - - - - - - - - - - - - -⇓
description statistique
ERM pénalisé
avec perte douce
'&
$%
Estimation non-paramétrique et Apprentissage statistique 32 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples, modèlesERMSVM
Le classieur SVM (Support Vector Machines)
classieur SVM
description géométrique
hyperplan optimal
dans un espace à noyau
'&
$%
- - - - - - - - - - - - - - - - - - - - - - -⇓
description statistique
ERM pénalisé
avec perte douce
'&
$%
Estimation non-paramétrique et Apprentissage statistique 32 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples, modèlesERMSVM
Support Vector Machines : cas linéaire
ssss
s ss s
s s
ss
ss
ccccc c
cc
ccc c
c
hyperplan SVM
@@I@@Rmarge
'
&
$
%
Hyperplan maximisant la marge :
Cas linéaire sans bruit, X = R2.
où f (x) =< w , x > +b.
maxw ,b
m
∀ i = 1, .., n yi f (xi ) ≥ m,
Estimation non-paramétrique et Apprentissage statistique 33 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples, modèlesERMSVM
SVM : variables ressorts dans le cas bruit
ssss
s ss s
s s
ss
ss
ccccc c
cc c
ccc c
c
cRξ1
@@
@@I
ξ2
@@
@@I
ξ3
hyperplan SVM
@@I@@R
marge
'
&
$
%
On rajoute des variables ressorts ξ :
Cas linéaire bruit, X = R2.
o f (x) =< w , x > +b.
(∗)
maxw ,b
(m − C∑n
i=1 ξi )
yi fw ,b(xi ) ≥ 1− ξi , ξi ≥ 0,
Estimation non-paramétrique et Apprentissage statistique 34 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples, modèlesERMSVM
Problème non linéaire
ss sssssss s sssss cccccc
ccccccccc ccc ccc
cPas d'hyperplan qui sépare...
⇒ méthode à noyau
Estimation non-paramétrique et Apprentissage statistique 35 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples, modèlesERMSVM
Le "Kernel trick"Du linéaire au non-linéaire avec Φ : X → Φ(X )
maxv :0≤vi≤C
LD = maxv :0≤vi≤C
n∑i=1
vi −1
2
n∑i=1
n∑j=1
vivjYiYj < Xi ,Xj >
.
maxv :0≤vi≤C
LD = maxv :0≤vi≤C
n∑i=1
vi −1
2
n∑i=1
n∑j=1
vivjYiYjK (Xi ,Xj)
.
Dénition Un noyau est une application K : X × X → R telle que :
K (x , y) =< Φ(x),Φ(y) >Φ(X ) .
Estimation non-paramétrique et Apprentissage statistique 36 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples, modèlesERMSVM
Le "Kernel trick"Du linéaire au non-linéaire avec Φ : X → Φ(X )
maxv :0≤vi≤C
LD = maxv :0≤vi≤C
n∑i=1
vi −1
2
n∑i=1
n∑j=1
vivjYiYj < Xi ,Xj >
.
maxv :0≤vi≤C
LD = maxv :0≤vi≤C
n∑i=1
vi −1
2
n∑i=1
n∑j=1
vivjYiYjK (Xi ,Xj)
.
Dénition Un noyau est une application K : X × X → R telle que :
K (x , y) =< Φ(x),Φ(y) >Φ(X ) .
Estimation non-paramétrique et Apprentissage statistique 36 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples, modèlesERMSVM
Espace de Hilbert à noyau reproduisant (EHNR)
Dénitions
I On appelle noyau une application K : X 2 → R symétrique
dénie-positive.
I L'EHNR HK est un espace de Hilbert de fonction f : X → Rvériant :
I K (x , ·) ∈ HK , ∀x ∈ X ,I < f ,K (x , ·) >K= f (x), ∀f ∈ HK .
K est appelé le noyau reproduisant de HK .
Exemples pour X = Rd :
I noyau gaussien K (x , y) = exp(−σ2‖x − y‖2).
I noyau Laplace K (x , y) = exp(−σ‖x − y‖).
Estimation non-paramétrique et Apprentissage statistique 37 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples, modèlesERMSVM
L'algorithme des SVM
L'algorithme SVM peut s'écrire :
minf ∈HK
[1
n
n∑i=1
(1− Yi f (Xi ))+ + α‖f ‖2HK
],
où
I l(y , f (x)) = (1− yf (x))+ est la perte SVM,
I α est un paramètre de régularisation,
I HK est un espace de Hilbert à noyau reproduisant.
Théorème de représentation fSVM(x) =∑n
i=1 v∗i YiK (Xi , x).
Estimation non-paramétrique et Apprentissage statistique 38 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples, modèlesERMSVM
Vitesses de convergence des SVM
On veut choisir α pour obtenir des vitesses de convergence du type :
ER(fSVM , f∗) ≤ Cn−β.
On procède en deux étapes :
I Obtenir une inégalité oracle :
ER(fSVM , f∗) ≤ C inf
f ∈HK
[R(f , f ∗) + α‖f ‖2H
]+ δ(n).
I Contrôler l'erreur d'approximation :
a(α) := inff ∈HK
[R(f , f ∗) + α‖f ‖2H
].
Estimation non-paramétrique et Apprentissage statistique 39 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples, modèlesERMSVM
Vitesses de convergence non-adaptative
Soit π une probabilité sur Rd × −1, 1 telle que :
I π a un paramètre de marge q ∈ [0,+∞] ;
I f ∗ ∈ Bs2∞(Rd ) pour s > 0.
On considère la minimisation SVM avec noyau Sobolev Kr , r > d .
Si on choisit α tel que
α = n− r(r−s)(q+1)
s(r(q+2)−d)+d(r−s)(q+1) ,
alors il existe C > 0 telle que :
ER(fn, f∗) ≤ Cn
− rs(q+1)s(r(q+2)−d)+d(r−s)(q+1) .
Estimation non-paramétrique et Apprentissage statistique 40 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples, modèlesERMSVM
Choix de α : méthode adaptative
Principe de la méthode d'aggrégation :
I On sépare les observations Dn = (D1n1,D2
n2).
I On construit avec D1n1
une famille de classieurs SVM
fα1 , . . . , fαM où α1, . . . αM = Λ est une grille.
I On calcule avec D2n2
une suite de poids wk , pour
k ∈ 1 . . .M.I On construit notre agrégat fn tel que
fn =M∑k=1
wk fαk .
Estimation non-paramétrique et Apprentissage statistique 41 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples, modèlesERMSVM
Expérimentations
On a implémenté notre agrégat dans 2 cas :
I Cas Sobolev : fn issu de l'approche décrite précédemment.
Noyau utilisé : Kσ(x , y) = exp (−σ‖x − y‖).I Cas gaussien : fn issu des résultats de Steinwart et Scovel
(2007). Noyau utilisé : Kσ(x , y) = exp(−σ‖x − y‖2
).
Estimation non-paramétrique et Apprentissage statistique 42 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples, modèlesERMSVM
Données de classication
Dataset d n p realizations
Banana 2 400 4900 100
Titanic 3 150 2051 100
Thyroid 5 140 75 100
Diabetis 8 468 300 100
Breast-cancer 9 200 77 100
Flare-solar 9 666 400 100
Heart 13 170 100 100
Image 18 1300 1010 20
Waveform 21 400 4600 100
"Dataset"=(D1n ,T
1p ), (D2
n ,T2p ), . . . , (D100
n ,T 100p ).
Estimation non-paramétrique et Apprentissage statistique 43 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples, modèlesERMSVM
Résultats expérimentaux
Dataset Laplace Aggregate Gaussian Aggregate
Banana 11.31± 0.57 11.43±0.84Titanic 22.77±1.13 22.57±0.79Thyroid 5.45±2.68 6.31±2.97Diabetis 28.34±2.27 27.80±2.06
Breast-cancer 32.74±5.16 32.13±4.77Flare-solar 35.69±1.93 34.87±1.82Heart 22.12±3.98 22.62±3.77Image 3.95±0.74 5.66±0.74
Waveform 14.12±0.72 15.04±0.79
Estimation non-paramétrique et Apprentissage statistique 44 / 45
Statistique non-paramétriqueApprentissage statistique
Exemples, modèlesERMSVM
Résultats expérimentaux
Dataset Laplace Aggregate Gaussian Aggregate Rästch et al. (2001)
Banana 11.31± 0.57 11.43±0.84 11.53±0.66Titanic 22.77±1.13 22.57±0.79 22.42±1.02Thyroid 5.45±2.68 6.31±2.97 4.80±2.19Diabetis 28.34±2.27 27.80±2.06 23.53±1.76
Breast-cancer 32.74±5.16 32.13±4.77 26.04±4.74Flare-solar 35.69±1.93 34.87±1.82 32.43±1.82Heart 22.12±3.98 22.62±3.77 15.95±3.26Image 3.95±0.74 5.66±0.74 2.96±0.6
Waveform 14.12±0.72 15.04±0.79 9.88±0.83
Estimation non-paramétrique et Apprentissage statistique 45 / 45
Recommended