Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Sébastien Loustau, Université d'Angers

25 Février 2010, Université de La Rochelle

Estimation non-paramétrique et Apprentissage statistique 1 / 45

De la statistique paramétrique...

La statistique paramétrique remonte à Fisher, 1920 : estimation

d'un nombre ni de paramètres θ ⊂ Rk .

Limites de l'approche :

1. modèles simplistes ne fournissant qu'une approximation de la

réalité,

2. résultats très souvent asymptotiques.

La réalité est souvent plus complexe, le nombre d'observations

limité, et les inconnues des fonctions possédant certaines propriétés

de régularité.

... à la statistique non-paramétrique

La statistique non-paramétrique s'intéresse à l'estimation, à partir

d'un nombre ni d'observations, d'une fonction inconnue f ∈ Θ, où

Θ est un espace fonctionnel assez large.

Ces 30 dernières années, la théorie de l'estimation

non-paramétrique s'est développée autour des thèmes suivants :

1. Méthodes de constructions d'estimateurs,

2. Propriétés statistiques de ces estimateurs,

3. Optimalité de ces estimateurs,

4. Estimation adaptative.

Plan de l'exposé

1. Statistique non-paramétriqueI Modèles statistiquesI Estimateurs, risque, régularisationI Vitesses de convergenceI Adaptation, inégalités oracles

2. Apprentissage statistiqueI Modèles d'apprentissageI Algorithmes d'apprentissageI Vitesses de convergenceI Adaptation

Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle

Modèle non-paramétrique : l'estimation d'une densité

On dispose d'observations Xi , i = 1, . . . n i.i.d. de loi inconnue Pfde densité f telle que :

I f ∈ f (x , θ), θ ∈ Θ où Θ ⊂ Rk et f (x , θ) connue →estimation paramétrique de θ.

I f ∈ F , où F espace fonctionnel → estimation

non-paramétrique de f .

Construction d'un estimateur : l'estimateur à noyau (Rosenblatt,

1956).

D'après Glivenko-Cantelli, on a (uniformément en x) :

Fn(x) =1

n∑i=1

1I(Xi ≤ x)p.s.−→ F (x) = P(X ≤ x).

Or, pour h assez petit,

f (x) = F ′(x) ≈ F (x + h)− F (x − h)

et donc l'estimateur à noyau de Rosenblatt fn est déni par :

fn(x) =Fn(x + h)− Fn(x − h)

n∑i=1

21I(−h < x − Xi ≤ h).

ou plus généralement (Parzen, 1962) :

fn(x) =1

n∑i=1

K0(x − Xi

où K0 est un noyau (rectangulaire, gaussien, ...), et h est appelée la

fenêtre.

Autres modèles classiques

I Régression non-paramétrique : on dispose d'observations

(Xi ,Yi ), i = 1, . . . n i.i.d. telle que :

Yi = f (Xi ) + εi ,

où les variables εi vérient Eεi = 0, et f ∈ F est inconnue.

I Modèle du bruit blanc gaussien : on observe une trajectoire

Y (t), t ∈ [0, 1] du processus Y déni par :

dY (t) = f (t)dt + εdW (t), t ∈ [0, 1],

où W est le processus de Wiener standard sur [0, 1], f une

fonction inconnue.

I Problème inverse statistique : Af (t)dt au lieu f (t)dt, Acompact est connu.

Décomposition en valeurs singulières de A

Pour A : H → K compact, on considère (ϕk)k∈N∗ b.o.n. de H de

fonctions propres de A∗A et on note (b2k)k∈N∗ ses valeurs propres

correspondantes. On peut construire (ψk)k∈N∗ b.o.n. de K et on a :

Aϕk = bkψk et A∗ψk = bkϕk .

La suite (bk)k∈N∗ est appelé suite des valeurs singulières de A et on

a clairement bk → 0.

Il nous reste à projeter Y dans la base (ψk)k∈N∗ et on obtient :

Modèle de suites gaussiennes

yk :=< Y , ψk >= bkθk + εξk , k ∈ N∗,

avec :

I (yk) suite d'observations,

I bk → 0 connus (cas direct bk ≡ 1),

I (θk) = (< f , ϕk >) coecients de f à estimer,

I (ξk) suite i.i.d. de variables aléatoires N (0, 1),

I ε > 0 niveau de bruit.

But : estimer la suite (θk)k≥1 à l'aide des observations (yk)k≥1.

Estimateur, risque

Idée naturelle pour estimer θk : θk = ykb−1k puisque pour tout k ,

Eθk = θk .Pour θ estimateur de θ, on considère le risque quadratique suivant :

R(θ, θ) = Eθ‖θ − θ‖2 = Eθ∑k≥1

(θk − θk)2.

On obtient pour notre estimateur :

R(θ, θ) = ε2∑k≥1

b−2k = +∞!!

Conclusion : on ne peut pas estimer tous les paramètres θk .

Estimateurs linéaires

Pour contrôler le risque, on peut introduire la famille des

estimateurs linéaires :

θ(λ) = (θk = λkykb−1k )k∈N∗ : λk ∈ [0, 1], k = 1 . . ..

On obtient alors :

R(θ(λ), θ) =∑k≥1

(λk − 1)2θ2k + ε2∑k≥1

λ2kb−2k

= b(λ)2 + σ2(λ).

Il faut choisir (λk)k≥1 qui réalise le compromis biais-variance.

Exemple : régularisation par projection

Considérons la famille d'estimateurs par projection ( ou spectral

cut-o) θ(N), N ≥ 1 dénie par :

θk(N) = 1I(k ≤ N)ykb−1k , k = 1, . . .

Le risque quadratique de θ(N) s'écrit :

R(θ,N) =∑k>N

θ2k + ε2N∑k=1

b−2k = b(N)2 + σ2(N).

⇒ Choix de N ?

Solution non-adaptative (cas légèrement mal-posé)

Hypothèse de régularité sur la suite θ :

θ ∈ Θ(s,Q) = θ ∈ l2(N) :∑

k2sθ2k ≤ Q.

Alors on obtient, en supposant bk ∼ k−β :

R(θ,N) =∑k>N

θ2k + ε2N∑k=1

b−2k ≤ QN−2s + N2β+1ε2.

En prenant Ns ∼ ε−2

2s+2β+1 , on obtient :

R(θ,Ns) ≤ Qε4s

2s+2β+1 .

On dit que θ(Ns) atteint la vitesse de convergence ε4s

2s+2β+1 .

Le compromis biais-variance en estimation de densité

De la même manière, si on considère fn vu précédemment :

E(fn(x0)− f (x0))2 = (Efn(x0)− f (x0))2 + E(fn(x0)− Efn(x0))2

:= b2(x0) + σ2(x0),

appelée biais et variance de l'estimateur fn au point x0.

En supposant que f ∈ Σ(s, L), et en prenant un noyau d'ordre

l = [s], on obtient :

E(fn(x0)− f (x0))2 ≤ C1h2s +

E(fn(x0)− f (x0))2 ≤ Cn−2s

2s+1 , pour h ∼ n−1

2s+1 .

d'où l'importance de calibrer la fenêtre h de l'estimateur.

Le compromis biais-variance en estimation de densité

De la même manière, si on considère fn vu précédemment :

E(fn(x0)− f (x0))2 = (Efn(x0)− f (x0))2 + E(fn(x0)− Efn(x0))2

:= b2(x0) + σ2(x0),

appelée biais et variance de l'estimateur fn au point x0.

En supposant que f ∈ Σ(s, L), et en prenant un noyau d'ordre

l = [s], on obtient :

E(fn(x0)− f (x0))2 ≤ C1h2s +

E(fn(x0)− f (x0))2 ≤ Cn−2s

2s+1 , pour h ∼ n−1

2s+1 .

d'où l'importance de calibrer la fenêtre h de l'estimateur.

Illustration

Vitesse minimax

Le risque minimax sur Θ(s) est dénie par

r(Θ(s)) = inff

supf ∈Θ(s)

R(f , f ),

et on dira que f atteint la vitesse minimax sur Θ(s) s'il existe une

constante C ≥ 1 telle que :

supf ∈Θ(s)

R(f , f ) ≤ Cr(Θ(s)).

Dans notre cadre, on a :

r(Θ(s,Q)) ≈ ε4s

2s+2β+1 et r(Σ(s, L)) ≈ n−2s

2s+1 ,

et ainsi θ(Ns) et fn atteignent la vitesse minimax.

Approche minimax

I Le meilleur estimateur au sens minimax est celui dont le risque

maximal sur Θ(s) est le plus petit.

I Approche pessimiste et qui dépend de connaissances préalables

sur la fonction à estimer.

Ici, θ(Ns) dépend de s, régularité de la fonction à estimer. On dit

que cet estimateur est non-adaptatif.

Vitesse minimax adaptative : Vitesse atteinte quelquesoit la

régularité de f .

L'approche oracle

Etant donnée une famille d'estimateurs fλ, λ ∈ Λ de f , on dénit

l'oracle fλ∗ par :

R(f , fλ∗) = infλ∈Λ

R(f , fλ).

fλ∗ n'est pas un estimateur (dépend de f inconnue) !

On cherche un estimateur f = fλ vériant une inégalité oracle, i.e. :

R(f , fλ) ≤ Cε infλ∈Λ

R(f , fλ) + rε,

où Cε ≥ 1 (proche de 1) et rε négligeable.

Oracle vs Minimax

Deux approches diérentes :

I minimax : on cherche la meilleure vitesse, étant donné

f ∈ Θ(s).

I oracle : étant donné une famille d'estimateurs,on cherche le

meilleur estimateur.

Ainsi :

I minimax : garantit une certaine performance (mais sous une

hypothèse de régularité sur f ) ;

I oracle : dépend de la famille d'estimateurs (mais aucune

hypothèse sur f ).

L'approche oracle pour choisir N

Etant donnée θ(N), N ≥ 1, on cherche N qui s'approche de

N∗ = argminN

R(θ,N).

On dira que θ(N) satisfait une inégalité oracle exacte lorsque :

R(θ(N), θ) ≤ (1 + ρε)R(θ,N∗) + rε,

avec ρε → 0 lorsque ε→ 0 et rε terme résiduel.

Exemple : la méthode du risque sans biais (URE)On va estimer le risque R(θ,N) par un estimateur sans biais

U(y ,N) en utilisant les observations yk = bkθk + εξk , k = 1, . . ..Puis on minimise sur N ≥ 1 l'estimateur du risque.

U(y ,N) =∑k>N

b−2k (y2k − ε2) + ε2N∑k=1

b−2k e.s.b. de R(θ,N),

et on obtient le choix suivant de N :

NURE = argminN

N∑k=1

b−2k y2k + 2ε2N∑k=1

b−2k

On a bien, ∀γ > 0,

R(θ(NURE ), θ) ≤ (1 + γ)R(θ,N∗) + C ∗ε2

Exemples, modèlesERMSVM

Apprentissage : une illustration

Apprentissage statistique

On observe (Xi ,Yi ), i = 1, . . . n ensemble d'apprentissage de loi P

sur X × Y inconnue avec :

I X quelconque,

I Y ⊂ R.

But : on veut "apprendre", à partir des observations, la réponse Y

d'une nouvelle observation X .

Exemples :

I Classication binaire : Y = −1, 1.I Régression : Y = R.

I Statistique fonctionnelle : X espace fonctionnel.

ApplicationsDynamic Reconstruction of Chaotic Systems ⊕Protein Structure

Prediction ⊕Identication of alternative exons using SVM ⊕Breastcancer diagnosis and prognosis ⊕Support Vector Machines Based Modeling

of Seismic Liquefaction PotentialSVM for Geo- and Environmental Sciences

⊕SVM for Protein Fold and Remote Homology Detection ⊕DetectingSteganography in digital images ⊕Breast Cancer Prognosis : Chemotherapy

Eect on Survival Rate ⊕Text Categorization ⊕Facial expression classication

⊕Application of The Kernel Method to the Inverse Geosounding Problem ⊕SupportVector Machine Classication of Microarray Gene Expression Data ⊕Intervals UsingLeast Squares Support Vector Machines ⊕Support Vector Machines For Texture

Classication ⊕SVM application in E-learning ⊕Support vector machines-based generalized

predictive control ⊕Isolated Handwritten Jawi Characters Categorization Using Support Vector

Machines (SVM). ⊕Image Clustering ⊕ewsRec, a SVM-driven Personal Recommendation System for

News Websites ⊕Equbits Foresight ⊕Speaker/speech recognition ⊕Student in AI ⊕Analysis and

Applications of Support Vector Forecasting Model Based on Chaos Theory⊕Image classication⊕Object

Detection⊕Intrusion DetectionEstimation non-paramétrique et Apprentissage statistique 24 / 45

Le modèle de classication binaire

I On observe (X1,Y1), . . . (Xn,Yn) ∈ X × Y i.i.d. de loi π, où :

• X = Rd ,

• Y = −1,+1, classe correspondante.

I But : X → Y ? avec f : Rd → −1,+1 classieur.I On dénit le risque de f par R(f ) = P(f (X ) 6= Y ) et on a :

f ∗ = argminR(f ) = sign(2η − 1),

où η(x) = P(Y = 1|X = x).

I On veut contrôler l'excès de risque R(f , f ∗) = R(f )− R(f ∗).

Exemple

Idée naturelle : Minimisation du risque empiriqueOn considère C ensemble de classieurs.

P(f (X ) 6= Y )-f ∗Cminimise

estime

∑ni=1 1I(f (Xi ) 6= Yi )fERM -

minimise

Si f ∗ ∈ C, on a :

EπnR(fERM , f∗) −→

n→+∞0.

estime

∑ni=1 1I(f (Xi ) 6= Yi )

fERM -minimise

Si f ∗ ∈ C, on a :

n→+∞0.

estime

minimise

Si f ∗ ∈ C, on a :

n→+∞0.

estime

minimise

Si f ∗ ∈ C, on a :

n→+∞0.

estime

minimise

Si f ∗ ∈ C, on a :

n→+∞0.

Vitesses des ERM

Si f ∗ ∈ C, on a aussi des vitesses de convergence :

I ER(fERM , f∗) ≤ Cn−

12 lorsque la dimension de Vapnik de f ∗

est nie (Vapnik et Chervonenkis 1982)

I Vitesse rapide lorsque R(f ∗) = 0 : ER(fERM , f∗) ≤ Cn−1.

I Plus récemment, vitesse minimax n− κ

2κ+ρ−1 avec :I 0 < ρ < 1 est la complexité de C.I κ ≥ 1 paramétre de marge, i.e. :

P(|2η(x)− 1| ≤ t) ≤ ct1

κ−1 , pour t → 0.

A-t'on f ∗ ∈ C ? ?

Vitesses des ERM

Si f ∗ ∈ C, on a aussi des vitesses de convergence :

I ER(fERM , f∗) ≤ Cn−

12 lorsque la dimension de Vapnik de f ∗

est nie (Vapnik et Chervonenkis 1982)

I Vitesse rapide lorsque R(f ∗) = 0 : ER(fERM , f∗) ≤ Cn−1.

I Plus récemment, vitesse minimax n− κ

2κ+ρ−1 avec :I 0 < ρ < 1 est la complexité de C.I κ ≥ 1 paramétre de marge, i.e. :

P(|2η(x)− 1| ≤ t) ≤ ct1

κ−1 , pour t → 0.

A-t'on f ∗ ∈ C ? ?

Problème des ERM : le choix de C !

On peut écrire dans le cas général

R(fERM , f∗) =

(R(fERM)− inf

CR(f )

(infCR(f )− R(f ∗)

⇒ La taille de C doit réaliser un compromis :

I C trop grand : l'erreur d'estimation est trop grande.

I C trop petit : l'erreur d'approximation est trop grande.

Le sur-apprentissage

C trop grand ⇒ solution très instable.

ERM pénaliséSi C est susamment riche,

minf ∈C

Rn(f ) = 0⇒ sur− apprentissage.

On tient compte de la complexité de la solution. Par exemple :

minf ∈C

[Rn(f ) + αΩ(f )] ,

où Ω(f ) mesure la complexité de f et α est un paramètre de

régularisation.

Exemple :

I Ω(f ) = ‖f ‖2HK(SVM).

I Ω(f ) = ‖f ‖1 (LASSO).

Le classieur SVM (Support Vector Machines)

classieur SVM

description géométrique

hyperplan optimal

dans un espace à noyau

- - - - - - - - - - - - - - - - - - - - - - -⇓

description statistique

ERM pénalisé

avec perte douce

classieur SVM

hyperplan optimal

- - - - - - - - - - - - - - - - - - - - - - -⇓

ERM pénalisé

avec perte douce

classieur SVM

hyperplan optimal

- - - - - - - - - - - - - - - - - - - - - - -⇓

ERM pénalisé

avec perte douce

Support Vector Machines : cas linéaire

s ss s

ccccc c

hyperplan SVM

@@I@@Rmarge

Hyperplan maximisant la marge :

Cas linéaire sans bruit, X = R2.

où f (x) =< w , x > +b.

maxw ,b

∀ i = 1, .., n yi f (xi ) ≥ m,

SVM : variables ressorts dans le cas bruit

s ss s

ccccc c

hyperplan SVM

@@I@@R

On rajoute des variables ressorts ξ :

Cas linéaire bruit, X = R2.

o f (x) =< w , x > +b.

maxw ,b

(m − C∑n

i=1 ξi )

yi fw ,b(xi ) ≥ 1− ξi , ξi ≥ 0,

Problème non linéaire

ss sssssss s sssss cccccc

ccccccccc ccc ccc

cPas d'hyperplan qui sépare...

⇒ méthode à noyau

Le "Kernel trick"Du linéaire au non-linéaire avec Φ : X → Φ(X )

maxv :0≤vi≤C

LD = maxv :0≤vi≤C

n∑i=1

vi −1

n∑i=1

n∑j=1

vivjYiYj < Xi ,Xj >

maxv :0≤vi≤C

n∑i=1

vi −1

n∑i=1

n∑j=1

vivjYiYjK (Xi ,Xj)

Dénition Un noyau est une application K : X × X → R telle que :

K (x , y) =< Φ(x),Φ(y) >Φ(X ) .

Le "Kernel trick"Du linéaire au non-linéaire avec Φ : X → Φ(X )

maxv :0≤vi≤C

n∑i=1

vi −1

n∑i=1

n∑j=1

vivjYiYj < Xi ,Xj >

maxv :0≤vi≤C

n∑i=1

vi −1

n∑i=1

n∑j=1

vivjYiYjK (Xi ,Xj)

Dénition Un noyau est une application K : X × X → R telle que :

K (x , y) =< Φ(x),Φ(y) >Φ(X ) .

Espace de Hilbert à noyau reproduisant (EHNR)

Dénitions

I On appelle noyau une application K : X 2 → R symétrique

dénie-positive.

I L'EHNR HK est un espace de Hilbert de fonction f : X → Rvériant :

I K (x , ·) ∈ HK , ∀x ∈ X ,I < f ,K (x , ·) >K= f (x), ∀f ∈ HK .

K est appelé le noyau reproduisant de HK .

Exemples pour X = Rd :

I noyau gaussien K (x , y) = exp(−σ2‖x − y‖2).

I noyau Laplace K (x , y) = exp(−σ‖x − y‖).

L'algorithme des SVM

L'algorithme SVM peut s'écrire :

minf ∈HK

n∑i=1

(1− Yi f (Xi ))+ + α‖f ‖2HK

I l(y , f (x)) = (1− yf (x))+ est la perte SVM,

I α est un paramètre de régularisation,

I HK est un espace de Hilbert à noyau reproduisant.

Théorème de représentation fSVM(x) =∑n

i=1 v∗i YiK (Xi , x).

Vitesses de convergence des SVM

On veut choisir α pour obtenir des vitesses de convergence du type :

ER(fSVM , f∗) ≤ Cn−β.

On procède en deux étapes :

I Obtenir une inégalité oracle :

ER(fSVM , f∗) ≤ C inf

f ∈HK

[R(f , f ∗) + α‖f ‖2H

]+ δ(n).

I Contrôler l'erreur d'approximation :

a(α) := inff ∈HK

[R(f , f ∗) + α‖f ‖2H

Vitesses de convergence non-adaptative

Soit π une probabilité sur Rd × −1, 1 telle que :

I π a un paramètre de marge q ∈ [0,+∞] ;

I f ∗ ∈ Bs2∞(Rd ) pour s > 0.

On considère la minimisation SVM avec noyau Sobolev Kr , r > d .

Si on choisit α tel que

α = n− r(r−s)(q+1)

s(r(q+2)−d)+d(r−s)(q+1) ,

alors il existe C > 0 telle que :

ER(fn, f∗) ≤ Cn

− rs(q+1)s(r(q+2)−d)+d(r−s)(q+1) .

Choix de α : méthode adaptative

Principe de la méthode d'aggrégation :

I On sépare les observations Dn = (D1n1,D2

I On construit avec D1n1

une famille de classieurs SVM

fα1 , . . . , fαM où α1, . . . αM = Λ est une grille.

I On calcule avec D2n2

une suite de poids wk , pour

k ∈ 1 . . .M.I On construit notre agrégat fn tel que

fn =M∑k=1

wk fαk .

Expérimentations

On a implémenté notre agrégat dans 2 cas :

I Cas Sobolev : fn issu de l'approche décrite précédemment.

Noyau utilisé : Kσ(x , y) = exp (−σ‖x − y‖).I Cas gaussien : fn issu des résultats de Steinwart et Scovel

(2007). Noyau utilisé : Kσ(x , y) = exp(−σ‖x − y‖2

Données de classication

Dataset d n p realizations

Banana 2 400 4900 100

Titanic 3 150 2051 100

Thyroid 5 140 75 100

Diabetis 8 468 300 100

Breast-cancer 9 200 77 100

Flare-solar 9 666 400 100

Heart 13 170 100 100

Image 18 1300 1010 20

Waveform 21 400 4600 100

"Dataset"=(D1n ,T

1p ), (D2

n ,T2p ), . . . , (D100

n ,T 100p ).

Résultats expérimentaux

Dataset Laplace Aggregate Gaussian Aggregate

Banana 11.31± 0.57 11.43±0.84Titanic 22.77±1.13 22.57±0.79Thyroid 5.45±2.68 6.31±2.97Diabetis 28.34±2.27 27.80±2.06

Breast-cancer 32.74±5.16 32.13±4.77Flare-solar 35.69±1.93 34.87±1.82Heart 22.12±3.98 22.62±3.77Image 3.95±0.74 5.66±0.74

Waveform 14.12±0.72 15.04±0.79

Résultats expérimentaux

Dataset Laplace Aggregate Gaussian Aggregate Rästch et al. (2001)

Banana 11.31± 0.57 11.43±0.84 11.53±0.66Titanic 22.77±1.13 22.57±0.79 22.42±1.02Thyroid 5.45±2.68 6.31±2.97 4.80±2.19Diabetis 28.34±2.27 27.80±2.06 23.53±1.76

Breast-cancer 32.74±5.16 32.13±4.77 26.04±4.74Flare-solar 35.69±1.93 34.87±1.82 32.43±1.82Heart 22.12±3.98 22.62±3.77 15.95±3.26Image 3.95±0.74 5.66±0.74 2.96±0.6

Waveform 14.12±0.72 15.04±0.79 9.88±0.83

Estimation non-paramétrique et Apprentissage statistique

Documents

Apprentissage statistique - Apprentissage non supervisé ...perso.ens-lyon.fr/aurelien.garivier/ · Apprentissage statistique Apprentissage non supervis e, clustering Cours pour non-sp

Apprentissage statistique de modèles de comportement ... · Apprentissage statistique de modèles de comportement multimodal pour les agents conversationnels interactifs Thèse soutenue

Apprentissage statistique en Bio-Informatique ...members.cbio.mines-paristech.fr/~jabecassis/files/ES_Apprentissage... · Apprentissage statistique en Bio-Informatique Régularisation

Master Recherche IAC Apprentissage Statistique ...sebag/Slides/Cours_NN_2012_v2.pdf · Master Recherche IAC Apprentissage Statistique, Optimisation & Applications Anne Auger Balazs

Apprentissage Statistique & Data Mining.pdf

Apprentissage Statistique - univ-rennes2.fr · 2017-04-20 · Plan du cours 1 Statistique, data mining et apprentissage statistique 2 Apprentissage statistique supervisé 3 Algorithmes

Apprentissage statistique - Introduction: intelligence

Apprentissage Statistique, Modélisation, Prévision, Data Mining

Apprentissage statistique pour l'extraction de concepts à

Apprentissage automatiquepageperso.lif.univ-mrs.fr/~liva.ralaivola/teachings20062005/mlsi/general.pdf · Apprentissage statistique formalisation du problème d’apprentissage minimisation

Credit scoring, statistique et apprentissage

Apprentissage Statistique - webia.lip6.frwebia.lip6.fr/...2017-Apprentissage-Statistique-M2.pdf · l'apprentissage statistique, l'agrégation de données hétérogènes, la visualisation

Apprentissage statistique : théorie et application

@let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

B. Matei (LIPN) Apprentissage Statistique - Cours 5 M2EID ...matei/teaching_fichiers/0910/AppStat/p5slides.pdf · B. Matei (LIPN) Apprentissage Statistique - Cours 5 M2EID 2018/2019

Apprentissage statistique - Apprentissage supervisé

Master Recherche IAC TC2: Apprentissage Statistique ...sebag/Slides/M2R_TC2_2_cours.pdf · Master Recherche IAC TC2: Apprentissage Statistique & Optimisation Alexandre Allauzen Anne

Autour De L'Usage des gradients en apprentissage statistique

Apprentissage statistique et modélisation 0D/1D des