53
Cours - SVM. Les SVM : Les SVM : Séparateurs à Vastes Marges Séparateurs à Vastes Marges (Support Vector Machines) (Support Vector Machines) Antoine Cornuéjols IIE & CNRS - Université de Paris-Sud, Orsay [email protected] http://www.lri.fr/~antoine

Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

  • Upload
    mei

  • View
    36

  • Download
    3

Embed Size (px)

DESCRIPTION

Les SVM : Séparateurs à Vastes Marges (Support Vector Machines). Antoine Cornuéjols IIE & CNRS - Université de Paris-Sud, Orsay [email protected] http://www.lri.fr/~antoine. Hyperplans séparateurs. Tâche de classification Cas de la séparation linéaire - PowerPoint PPT Presentation

Citation preview

Page 1: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Cours - SVM.

Les SVM :Les SVM :Séparateurs à Vastes MargesSéparateurs à Vastes Marges

(Support Vector Machines)(Support Vector Machines)

Antoine Cornuéjols

IIE & CNRS - Université de Paris-Sud, Orsay

[email protected] http://www.lri.fr/~antoine

Page 2: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 2

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Hyperplans séparateursHyperplans séparateurs

Tâche de classification Cas de la séparation linéaire

- On cherche h sous forme d’une fonction linéaire : h(x) = w.x + b

- La surface de séparation est donc l’hyperplan :

- Elle est valide si

- L’hyperplan est dit sous forme canonique lorsque

ou encore

w. x + b = 0

∀i ui h(xi ) ≥ 0

mini

w.x + b = 1

∀i ui (w.xi +b) ≥ 1

Page 3: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 3

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Hyperplan de plus vaste margeHyperplan de plus vaste marge

Margemaximale

Hyperplan

optimal

Hyperplanvalide

Page 4: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 4

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Optimisation de la margeOptimisation de la marge

Margemaximale

Hyperplan

optimal

Hyperplanvalide

D(x) = 0

D(x) = +1

D(x) = -1

Vecteursde support

D(x) > 1

D(x) < -1

w

1w

Page 5: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 5

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Optimisation de la marge Optimisation de la marge

La distance d’un point à l’hyperplan est :

L’hyperplan optimal est celui pour lequel la distance aux points les

plus proches (marge) est maximale. Cette distance vaut

Maximiser la marge revient donc à minimiser ||w|| sous contraintes:

2

w

d (x ) = w.x + w0

w

min1

2w

2

∀i ui (w.xi +w0 ) ≥ 1

⎧ ⎨ ⎪

⎩ ⎪

Page 6: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 6

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

SVMs : SVMs : un problème d’optimisation quadratiqueun problème d’optimisation quadratique

Il faut donc déterminer w et w0 minimisant :

(afin de maximiser le pouvoir de généralisation)

sous les contraintes (hyperplan séparateur) :

η(w ) = 1

2w 2

ui (w . xi ) + w0[ ] ≥ 1 , i =1,...,n

EXPRESSIONPRIMAIRE

Page 7: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 7

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Résolution de la forme primaire du problèmeRésolution de la forme primaire du problème

Il faut régler d + 1 paramètres

Possible quand d est assez petit

avec des méthodes d'optimisation quadratique

Impossible quand d est grand (> qqs 103)

d : dimension de l’espace d’entrée

Page 8: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 8

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Transformation du problème d’optimisationTransformation du problème d’optimisation

Méthode des multiplicateurs de Lagrange

Problème dual

L(w, w0 ,α ) = 12

w 2 − α i {(xi .w+w0 )ui −1}i=1

l

∑∀i α i ≥0

⎨ ⎪

⎩ ⎪

maxα

α i −1

2α i α j ui uj (xi .xj )

j=1

l

∑i=1

l

∑i=1

l

∑∀i α i ≥0

α i ui = 0i=1

l

⎪ ⎪ ⎪

⎪ ⎪ ⎪

EXPRESSIONDUALE

Page 9: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 9

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Propriétés de la forme dualePropriétés de la forme duale

La conversion est possible car les fonctions de coût et les

contraintes sont strictement convexes (Th. de Kuhn-Tucker)

La complexité du problème d'optimisation est

m (taille de l'échantillon d'apprentissage) et non d ( taille de l'espace d'entrée X )

Possible d'obtenir des solutions pour des problèmes

impliquant ≈ 105 exemples

Page 10: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 10

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Solution du problème d’optimisationSolution du problème d’optimisation

Propriété1 : seuls les αi correspondant aux points les plus proches sont

non-nuls. On parle de points de supportpoints de support (exemples critiques).

Propriété 2 : seuls interviennent les produits scalaires produits scalaires entre les entre les

observations observations xx dans le problème d’optimisation.

* : estimé

(xS,uS) étant n'importe quel

point de support

D(x) = (w* .x +w0* )

w* = α i* ui xi

i=1

m

w0* = us− αi

* ui (xi .xs)i=1

m

⎪ ⎪

⎪ ⎪

Page 11: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 11

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Problèmes non linéairement séparables dans Problèmes non linéairement séparables dans XX

La majorité des problèmes !!!

Idée :

Si on projette dans un espace de redescription de très grande projette dans un espace de redescription de très grande

dimensiondimension ??

Presque toujours le problème devient linéairement séparable

Mais : Fléau de la dimensionalité

dVC explose !!?

Page 12: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 12

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

SVM et redescriptionSVM et redescription

Espaced'entrées X

Espace des représentations

internes

Espacede sortie

hSéparationlinéaire

Redescriptionnon linéaire

x y

Page 13: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 13

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Petite digression …Petite digression …

… La reconnaissance de chiffres manuscrits par réseaux de neurones (ATT Bell labs, 1993)

1

2

3

4

5

6

7

8

9

0

Matrice 16 x 16 12 détecteursde traits (8 x 8)

12 détecteursde traits (4 x 4)

30 cellules

10 cellulesde sortie

Page 14: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 14

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

La redescription des entrées : illustrationLa redescription des entrées : illustration

Soit un espace d’entrée à 2 dimensions

Tout vecteur x = (x1, x2) peut être redécrit à l’aide de polynômes

d’ordre 6

Nouvel espace de descripteurs à 16 dimensions (fonctions de base):

g1(x1, x2 )=1 g2 (x1,x2 )=x1 g3 (x1,x2 )=x2

g4 (x1,x2 )=x12 g5(x1,x2 )=x2

2 g6 (x1,x2 )=x13

g7 (x1,x2 )=x23 g8(x1,x2 )=x1x2 g9 (x1,x2 )=x1

2x2

g10(x1,x2 )=x1x22 g11(x1,x2 )=x1

3x2 g12 (x1,x2 )=x1x23

g13(x1,x2 )=x13x2

2 g14(x1,x2 )=x12x2

3 g15 (x1,x2 )=x12x2

2

g16(x1,x2 )=x13x2

3

Page 15: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 15

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Le nouveau problème d’optimisationLe nouveau problème d’optimisation

Soit : X -> (X), on peut remplacer partout x par (x)

Si est bien choisie, K(x, x’) = (x).(x’) peut être facile à

calculer et le problème devient :

maxα

α i −1

2α i α j ui uj K (xi ,x j )

j=1

l

∑i=1

l

∑i=1

l

∑∀i 0 ≤α i ≤C

α i ui = 0i=1

l

⎪ ⎪ ⎪

⎪ ⎪ ⎪

Page 16: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 16

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Solution du nouveau problème d’optimisationSolution du nouveau problème d’optimisation

La fonction de décision devient :

Soit dans la forme duale :

D(x) = wj gj(x)j=1

n

∑n : nb de fcts

de base(peut être très grand)

D(x) = α i ui K(xi,x)i=1

mS

∑ + w0mS : nb de points

de support

Page 17: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 17

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Schéma de fonctionnement des SVMsSchéma de fonctionnement des SVMs

K K K K

Σα1 α2 α3

α4

:Sortie

Comparaison :K(xi, x)

Échantillonx1, x2, x3, ...

Vecteur d'entréex

(signΣ α i ui K(xi,x) + w0)

(signΣ α i ui K(xi,x) + w0)

Page 18: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 18

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Les conditions de MercerLes conditions de Mercer

Si on prend une fonction K symétrique, il existe une fonction tq:

ssi, pour toute fonction f telle que :

l’on a :

Si cette condition est vérifiée, on peut appliquer les SVMs

MAIS cela ne dit pas comment construire

K(x , x' ) = (x).(x' ) = gi (x).gi (x' )i=1

m

f (x )2 dx est finie∫

K (x, x' )∫ f(x) f (x' ) dxdx' ≥ 0

Page 19: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 19

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Fonctions noyau usuelles (1/2)Fonctions noyau usuelles (1/2)

Polynomiale :Les polynomes de degré q ont pour fonction noyau associée :

RBF :

Les fcts à base radiale :

ont pour fct noyau associée :

Sigmoïde :Les réseaux de neurones à fcts d'activation :

ont pour fct noyau associée :

K(x,x' ) = (x.x' + 1)q

K(x,x' ) = e−

x−x' 2

2σ2

K(x , x' ) = tanh(ax.x' − b)

h(x) = sign αi exp −x−xi

2

σ 2

⎧ ⎨ ⎩

⎫ ⎬ ⎭ i=1

n

∑⎛

⎝ ⎜

⎠ ⎟

h(x) = sign αi tanhv(x.xi) + a{ } + bi=1

n

∑⎛ ⎝ ⎜ ⎞

Page 20: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 20

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Fonctions noyau usuelles (2/2)Fonctions noyau usuelles (2/2)

Construction à partir de fonctions noyau de base(Propriétés de clôture)

K(x,z) = K1(x,z) + K2(x,z)

K(x,z) = a K1(x,z)

K(x,z) = K1(x,z) . K2(x,z) …

Construction de fonctions noyau dédiées Splines Bm

Expansion de Fourrier Ondelettes ...

Page 21: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 21

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Les fonctions noyauLes fonctions noyau

… encodent :

Une mesure de similarité sur les données

La forme fonctionnelle des fonctions de décision

Le type de régularisation réalisée (ex : les fcts gaussiennes favorisent les solutions régulières)

Le type de covariance dans l’espace des entrées (ex : fcts noyau invariantes par rotation)

Sorte de distribution de probabilité a priori sur l’espace des hypothèses

Page 22: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 22

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Illustration : lIllustration : le cas du e cas du XORXOR

1

1-1

-1

x1

x2

Index i x u

1 (1,1) 1

2 (1,-1) -1

3 (-1,-1) 1

4 (-1,1) -1

Page 23: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 23

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Illustration : lIllustration : le cas du XORe cas du XOR

Fonction noyau polynomiale de d° 2 :

K(x,x') = [1 + (xT . x')]2

soit : K(x,xi ) = 1 + x12xi1

2 + 2 x1x2xi1xi2 + x22xi2

2 + 2x1xi1 + 2x2xi2

correspondant à la projection :

[1, x12, √2 x1x2, x2

2, √2 x1, √2 x2 ] T

Page 24: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 24

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Illustration : lIllustration : le cas du XORe cas du XOR

Ici :

maxα

α i −1

2α i α j ui uj K (xi ,x j )

j=1

l

∑i=1

l

∑i=1

l

∑∀i 0 ≤α i ≤C

α i ui = 0i=1

l

⎪ ⎪ ⎪

⎪ ⎪ ⎪

Q α( ) = α1 + α2 + α3 + α4

− 12

(9α12 − 2α1α2 −2α1α3 +2α1α4

+9α22 +2α2α3 −2α2α4 +9α3

2 −2α3α4 +9α 42)

Page 25: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 25

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Illustration : lIllustration : le cas du XORe cas du XOR

L'optimisation de Q(α) en fonction des multiplicateurs de

Lagrange conduit au système d'équations :

9α1 − α2 − α3 + α4 = 1

α1 − 9α2 − α3 + α4 = 1

α1 − α2 − 9α3 + α4 = 1

α1 − α2 − α3 + 9α4 = 1

⎨ ⎪

⎩ ⎪

La valeur optimale des multiplicateurs de Lagrange est :

α1* = α2

* = α3* = α4

* = 18

Page 26: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 26

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Illustration : lIllustration : le cas du XORe cas du XOR

Les 4 exemples sont donc des exemples critiques ("support vectors")

La valeur optimale de Q(α) est :

Et : soit :

Q*(α) = 14

12

w* = 14

w* = 12

Page 27: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 27

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Les 4 exemples sont donc des exemples critiques ("support

vectors") ( i , αi ≠ 0)

La fonction de décision s’écrit :

Illustration : lIllustration : le cas du XORe cas du XOR

Page 28: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 28

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Illustration : lIllustration : le cas du XORe cas du XOR

En revenant dans l’espace d’origine :

Le vecteur poids optimal est :

w* = 18

1

1

2

1

− 2

− 2

⎜ ⎜ ⎜ ⎜ ⎜

⎟ ⎟ ⎟ ⎟ ⎟

+

1

1

− 2

1

− 2

2

⎜ ⎜ ⎜ ⎜ ⎜

⎟ ⎟ ⎟ ⎟ ⎟

+

1

1

− 2

1

2

− 2

⎜ ⎜ ⎜ ⎜ ⎜

⎟ ⎟ ⎟ ⎟ ⎟

1

1

2

1

2

2

⎜ ⎜ ⎜ ⎜ ⎜

⎟ ⎟ ⎟ ⎟ ⎟

⎪ ⎪

⎪ ⎪

⎪ ⎪

⎪ ⎪

=

0

0

−1 2

0

0

0

⎜ ⎜ ⎜ ⎜ ⎜

⎟ ⎟ ⎟ ⎟ ⎟

w* = 18

−Φ(x1) + Φ(x2) + Φ(x3) − Φ(x4)[ ]

soit :

Page 29: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 29

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Illustration : lIllustration : le cas du XORe cas du XOR

L'hyperplan optimal correspond à :

w*T.Φ(x) = 0, 0, −12

, 0, 0, 0⎛ ⎝

⎞ ⎠

1

x12

2x1x2

x22

2x1

2x2

⎜ ⎜ ⎜ ⎜ ⎜

⎟ ⎟ ⎟ ⎟ ⎟

= −x1x2 = 0

Page 30: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 30

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Illustration : lIllustration : le cas du XORe cas du XOR

Séparatrice dans l'espace d'entrée

D(x) = -x1x2

Séparatrice dans l'espace (X)(espace à 6 dimensions)

2 x1x2 = 0

Page 31: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 31

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Cas du problème non séparable : Cas du problème non séparable : marges doucesmarges douces

On introduit des variables “ressort” qui pénalisent l’erreur commise :

Le problème dual a la même forme à l’exception d’une constante C

maxα

α i −1

2α i α j ui uj (xi .xj )

j=1

l

∑i=1

l

∑i=1

l

∑∀i 0 ≤α i ≤C

α i ui = 0i=1

l

⎪ ⎪ ⎪

⎪ ⎪ ⎪

min1

2w 2 + C ξ i

i=1

l

∑∀i ui (w.xi +w0 ) ≥ 1 −ξi

⎨ ⎪

⎩ ⎪

Page 32: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 32

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

La mise en La mise en pratiquepratique

Il faut choisir :

Le type de fonction noyau K

Sa forme

Ses paramètres

La valeur de la constante C

La sélection rigoureuse de ces paramètres exige une estimation de la dimension de Vapnik-Chervonenkis et l’application de la borne de généralisation

Dans le cas séparable, il est possible de déterminer ces paramètres

Dans le cas non séparable, il faut tester avec des méthodes empiriques pour faire le meilleur choix

Page 33: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 33

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

ExempleExemple

: exemple +

• : exemple -

Dans cercle : points de support

Fct noyau polynomiale de degré 3

Démo :

http://svm.research.bell-labs.com/

http://svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtml

QuickTime™ and aGIF decompressor

are needed to see this picture.

Page 34: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 34

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Effet des paramètres de contrôleEffet des paramètres de contrôle

Apprentissage de deux classes exemples tirés uniformément sur

l'échiquier

SVM à fonctions noyau gaussienne

Ici deux valeurs de En haut : petite valeur

En bas : grande valeur

Les gros points sont des exemples critiques

Plus en haut qu'en bas

Dans les deux cas : Remp = 0

K(x,x' ) = e−

x−x' 2

2σ2

Page 35: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 35

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Les données d'apprentissageLes données d'apprentissage

Page 36: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 36

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Paramètres de contrôle : Paramètres de contrôle : les fonctions noyaules fonctions noyau

http://svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtml

47 exemples (22 +, 25 -)

Exemples critiques : 4 + et 3 -

Ici fonction polynomiale de degré 5 et C = 10000

Page 37: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 37

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Paramètres de contrôle : Paramètres de contrôle : les fonctions noyaules fonctions noyau

47 exemples (22 +, 25 -)

Exemples critiques : 4 + et 3 -Ici fonction polynomiale de degré 2, 5, 8 et C = 10000

Ici fonction Gaussienne de = 2, 5, 10, 20 et C = 10000

(4-, 5+)(8-, 6+)(10-, 11+)

(5-, 4+) (3-, 4+) (5-, 4+)

Page 38: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 38

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Ajout de quelques points ...Ajout de quelques points ...

http://svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtml

47 + 8 exemples (30 +, 25 -)

Exemples critiques : 5 + et 8 -

Ici fonction polynomiale de degré 5 et C = 10000

Page 39: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 39

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Domaines d’application des SVMsDomaines d’application des SVMs

Traitement d’images

Reconnaissance de caractères manuscrits Reconnaissance de scènes naturelles Reconnaissance de visages

Entrées : image bidimensionnelle en couleur ou en niveaux de gris

Sortie : classe (chiffre / personne)

Page 40: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 40

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Domaines d’application des SVMsDomaines d’application des SVMs

Images : 256 * 256 (100 niveaux de gris)

Codées en : 16 * 16 (niveaux de gris) + mêmes par 4 opérateurs différentiels à une dimension (|,-,/,\) = 1280 pixels (5 * 16 * 16)

25 objets pris sous 25, 89 ou 100 points de vue (ens. d’apprentissage)

QuickTime™ et undécompresseur TIFF (non compressé)sont requis pour visionner cette image.

[Thèse B. Schölkopf, 1997]

Page 41: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 41

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Domaines d’application des SVMsDomaines d’application des SVMs

Résultats avec noyaux polynomiaux

QuickTime™ et undécompresseur TIFF (non compressé)sont requis pour visionner cette image.

QuickTime™ et undécompresseur TIFF (non compressé)sont requis pour visionner cette image.

Page 42: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 42

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Application : images couleursApplication : images couleurs

Base d’images Corel Stock Photo Collection 200 catégories 100 images / catégorie

Codage Pixel = vecteur dans espace à trois dimensions (RGB) Image = histogramme (fraction des pixels d’une couleur

donnée)

Invariant / nombreuses opérations

Noyau :

(fonction 2)

Page 43: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 43

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Domaines d’application des SVMsDomaines d’application des SVMs

Catégorisation de textes

Classification d’e-mails Classification de pages web

Entrées : document (texte ou html) Approche « sac de mots » Document = vecteur de mots (lemmatisés pondérés par tf-idf)

Sortie : catégorie (thème, spam/non-spam) Noyau :

Produit scalaire des vecteurs C = (marge dure)

Page 44: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 44

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Domaines d’application des SVMsDomaines d’application des SVMs

Diagnostic médical

Évaluation du risque de cancer Détection d’arythmie cardiaque Évaluation du risque d’accidents cardio-vasculaires à moins de 6

ans

Entrées : état du patient (sexe, age, bilan sanguin, …)

Sortie : Classe : à risque ou non Probabilité d’accident à échéance donnée

Page 45: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 45

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Domaines d’application des SVMsDomaines d’application des SVMs

Dans les deux cas :

Pas d’information de structure

Seulement des informations globales

Page 46: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 46

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Domaines d’application des SVMsDomaines d’application des SVMs

Étude de séquences en bio-informatique

Biologie structurale prédictive (prédiction de structure secondaire du génome)

Identification de régions codantes de l’ADN génomique Phylogénie …

Entrées : chaînes d’acides aminées Sortie :

Structure secondaire Intron / exon Ancêtre

Noyau relationnel : Modèle génératif

(chaînes de Markov : insertion, délétion, remplacement, …)

Page 47: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 47

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Implémentation des SVMsImplémentation des SVMs

Minimisation de fonctions différentiables convexes à plusieurs variables Pas d’optima locaux Mais :

Problèmes de stockage de la matrice noyau (si milliers d’exemples) Long dans ce cas

D’où mise au point de méthodes spécifiques Gradient sophistiqué Méthodes itératives, optimisation par morceaux

Plusieurs packages publics disponibles SVMTorch SVMLight SMO …

Page 48: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 48

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

ExtensionsExtensions

Classification multi-classes

Régression

Détection de « nouveautés »

Analyse en composantes principales par noyaux

Page 49: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 49

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

SVM et régressionSVM et régression

Fonction de perte :

Régression linéaire :

Soit à minimiser :

Généralisation :

x x

xx

x

x

xx

x x0

+

x

−ξ

+−

ξ

Page 50: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 50

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

SVM et apprentissage non superviséSVM et apprentissage non supervisé

Détection de « nouveautés »

w ρ/||w||ξ/||w||

On cherche à séparer au

maximum le nuage de points

de l’origine

Page 51: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 51

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Pourquoi ça marche ?Pourquoi ça marche ?

La marge est liée à la capacité en généralisation

Normalement, la classe des hyperplans de Rd est de dH = d + 1

Mais la classe des hyperplans de marge

est bornée par : dH ≤ Min (R2 c, d) + 1

où R est le rayon de la plus petite sphère englobant l'échantillon

d'apprentissage S

Peut être beaucoup plus petit que la dimension d de l'espace d'entrée X

1w

tq. w2 ≤ c

Page 52: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 52

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

BilanBilan

SVMs très utilisés

Méthode générale

Facile d’emploi

Résultats en général équivalents et souvent meilleurs

Stimulent tout un ensemble de travaux sur des méthodes

à base de noyaux (kernel-based methods)

Limites

Problèmes i.i.d. (données indépendantes et identiquement

distribuées)

Page 53: Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Les SVMs (A. Cornuéjols) 53

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Sources documentairesSources documentaires

Ouvrages / articles Cornuéjols & Miclet (02) : Apprentisage artificiel. Concepts et algorithmes. Eyrolles,

2002.

Cristianini & Shawe-Taylor (00) : Support Vector Machines and other kernel-based learning methods. Cambridge University Press, 2000.

Herbrich (02) : Learning kernel classifiers. MIT Press, 2002.

Schölkopf, Burges & Smola (eds) (98) : Advances in Kernel Methods : Support Vector Learning. MIT Press, 1998.

Schölkopf & Smola (02) : Learning with kernels. MIT Press, 2002.

Smola, Bartlett, Schölkopf & Schuurmans (00) : Advances in large margin classifiers. MIT Press, 2000.

Vapnik (95) : The nature of statistical learning. Springer-Verlag, 1995.

Sites web http://www.kernel-machines.org/ (point d’entrée)

http://www.support-vector.net (point d’entrée)