RECONNAISSANCE DE FORMES

RECONNAISSANCE DE FORMES

IAR-6002

Appproches statistiques de la classification

Introduction Théorème de Bayes Frontières de décisions Caractéristiques multiples Frontière de décision multidimensionnelles Frontières de décision d-dimensionnelle en

notation matricielle Estimation des taux d’erreurs

Introduction

Beaucoup d’applications en reconnaissance de formes (RF) utilisent des techniques de classifi-cation basées sur des modèles statistiques

Ces modèles requièrent l’utilisation de paramè-tres descriptifs devant être estimés à partir des données disponibles

En RF automatique, l’apprentissage supervisé (supervised learning) permet le design d’un classificateur

Introduction

De plus, l’entraînement du classificateur est basé sur un ensemble (training set) de caractéristi-ques descriptives de chaque classe connue per-mettant la création des critères de discrimination

Les critères de discrimination servent par la suite pour classer des observations (sample) dont nous voulons connaître la classe d’apparte-nance

Introduction

Lorsque nous ne connaissons pas la forme des densités de probabilité (pdf) nous devons utiliser des techniques non-paramétriques (nonparametric classification) (ex: estimation de densité)

D’autres méthodes permettent de regrouper des ensembles d’objets (clusters) en fonction de mesures de similarité et ce sans connaissance à priori des classes d’appartenance (unsupervised learning)

Introduction

Avec la classification paramétrique (parametric classification) nous connaissons la forme géné-rale des pdf de chaque classe

Les paramètres des pdf (moyenne et variance) ne sont pas connus

Avant d’utiliser les pdf, il faut d’abord estimer les valeurs de ces paramètres

Introduction

Généralement, le but des procédures de classifi-cation est d’estimer les probabilités qu’une observation (sample) à classer appartienne aux diverses classes

Le classificateur choisi alors la classe la plus vraisemblable

Théorème de Bayes

Un classificateur basé sur le théorème de Bayes choisi la classe d’appartenance la plus vraisem-blable d’une observation à classer

La probabilité d’appartenance à une classe est calculée à partir du théorème de Bayes

La probabilité jointe qu’une observation provienne d’une classe C avec comme valeur caractéristique x est donnée par

)()()()()( xCpxpCxPCPxCp

Théorème de Bayes

Le théorème de Bayes s’écrit alors

)(

)()()(

xP

CxPCPxCp

Théorème de Bayes

Lorsque les classes d’appartenance C1, C2, …..,Ck sont indépendantes au sens statistique (évènements mutuellement exclusifs)

)()(.....)()()( 11 kk CxPCPCxPCPxp

Le théorème de Bayes pour la classe C=Ci devient

)(

)()()(

xP

CxPCPxCp ii

i

Frontières de décision

Nous pouvons aussi faire le design du classifica-teur en créant des régions ceinturées par des frontières

Chaque région représente l’intervalle des valeurs de x associé à chaque classe

Pour une observation x donnée, le classificateur détermine à quelle région Ri appartient l’obser-vation et associe x à la classe correspondant à la région Ri


Le positionnement optimal des frontières permet de subdiviser l’espace des caractéristiques en régions R1, …,Rk de telle façon que le choix de la classe Ci est plus vraisemblable pour les valeurs x dans la région Ri que dans toute autre région


Calculer la frontière de décision entre 2 classes A et B


Pour calculer la frontière de décision entre 2 classes A et B nous supposons au préalable que les pdf sont continues et se chevauchent donnant

)()()()(

)()(

BxpBPAxpAP

xBPxAP


Si les valeurs des caractéristiques x pour chaque classe A et B suivent une loi normale

22 )(2

1)(

2

1

2

1)(

2

1)(

)()()()(

B

B

A

A x

B

x

A

eBPeAP

BxpBPAxpAP


En simplifiant nous obtenons

22 )()/)(ln(2)()/)(ln(2B

BB

A

AA

xBP

xAP

Nous pouvons alors déduire une fonction discriminante de la forme

22 )()/)(ln(2)()/)(ln(2B

BB

A

AA

xBP

xAPD


Les règles de décision (classification) devien-nent– SI D = 0 classer x dans A ou B

– SI D > 0 classer x dans B

– SI D < 0 classer x dans A


La dernière égalité est quadratique selon x et peut avoir 1 racine réelle, 2 racines réelles ou aucune racine

Lorsque les variances sont égales (A=B), l’expression quadratique devient linéaire avec alors une seule racine réelle

Caractéristiques multiples

Lorsque nous supposons l’indépendance des carac-téristiques pour une même classe Cj, la probabilité d’occurrence du vecteur x est déduite par

)(......)(),....(

),....()(),....(

11

111

jdjjd

k

jjdjd

CxPCxPCxxP

CxxPCPxxP


Le théorème de Bayes multidimentionnel donne

k

jjdj

idiidi

k

jjj

iii

CxxPCP

CxPCxPCPxxCP

CxPCP

CxPCPxCP

11

11

1

),....,()(

)(......)()(),....,(

)()(

)()()(


Avec des distributions normales multivariées la probabilité d’occurrence conditionnelle du vecteur x devient

22

1

11 )(2

1)(

2

1

12/

11

.........)2(

1

)(......)(),....(

di

did

i

i xx

diid

idiid

ee

CxPCxPCxxP

Frontières de décision multidimentionnelles

Si nous avons 2 caractéristiques x1 et x2, la frontière de décision optimale entre 2 classes Ci et Cj est donnée par

),()(),()(

),(),(

2121

2121

jjii

ji

CxxpCPCxxpCP

xxCPxxCP


La frontière optimale entre 2 classes normales bivariées en supposant l’indépendance des valeurs des caractéristiques est déduite par

2

1

0

2

1

0

5.0)()(

22

21

22

21

1211

1211

21

Cx

Cx

Cx

Cx

CxCx

CxCx

CPCP


La frontière optimale entre 2 classes normales bivariées en supposant l’indépendance des valeurs des caractéristiques

2

22

2222

21

211

2221

2

12

1222

11

111

1211

)(2

1)(

2

1

2

)(2

1)(

2

1

1

2

1)(

2

1)(

Cx

Cx

Cx

Cx

Cx

Cx

Cx

Cx

xx

CxCx

xx

CxCx

eCP

eCP


Après simplification nous obtenons la frontière donnée par

221 16

3347.1 xx


Sur la frontière

221 16

3347.10 xx

La fonction discriminante est donnée par

221 16

3347.1 xxD


Les règles de décision (classification) devien-nent

– SI D = 0 classer l’observation dans C1 ou C2

– SI D > 0 classer l’observation dans C1

– SI D < 0 classer l’observation dans C2


La frontière optimale entre 2 classes normales bivariées avec des valeurs des caractéristiques corrélées est déduite par

5.0

8,3

70,22

6.0

5,2

85,26

2.0)(,8.0)(

21

21

21

21

21

21

Gxx

GxGx

GxGx

Gxx

GxGx

GxGx

GPGP


La pdf jointe bivariée associée à chaque classe prend la forme

2

)())((2

)()1(2

1

21

2121

2

2

22

21

2211212

1

11

221

12

),(

xxxx

xxxx

x

x

xx

xxxx

x

x

xxe

xxP


Nous pouvons alors déduire les probabilités conditionnelles

),(

),(

21

21

Gxxp

Gxxp

Sachant que sur la frontière

),()(),()( 2121 GxxpGPGxxpGP

En prenant le logarithme naturel de chaque côté

),(ln)(ln),(ln)(ln 2121 GxxpGPGxxpGP


Après simplifications nous obtenons la frontière donnée par

007.500033.9789.41167.3819.5 212221

21 xxxxxx

Classes avec la même variance et corrélation


La fonction discriminante devient dans ce cas

GxxD

GxxD

21

21

,0

,0

Les règles de décision (classification) deviennent

07.500033.9789.41167.3819.5 212221

21 xxxxxxD

Frontières de décision d-dimensionnelle en notation matricielle

Si nous avons k classes et d caractéristiques, nous pouvons représenter les moyennes des caractéristiques de chaque classe Ci par un vecteur de moyennes

id

i

i

1


Les variances et covariances des caractéristi-ques de chaque classe Ci sont représentées par une matrice

21

22212

11221

dd

d

d

i

• Cette matrice est symétrique

• La variance de chaque caracté- ristique est sur la diagonale


Le théorème de Bayes stipule qu’une observa-tion x ou x est un vecteur de caractériatiques est classée dans Ci qui maximise

k

j ii

iii

CxPCPxp

xP

CxPCPxCp

1)()()(

)(

)()()(


Le numérateur de l’expression précédente peut s’écrire

)()(2

1 1

)2(det

)()()(

iiT

i xx

di

iii e

CPCxpCP

En prenant le logarithme et multipliant par -2 nous pou- vont choisir la classe qui minimise

)()(2lndetln)(ln2 1ii

Tiii xxdCP


Nous pouvons alors déduire une distance géné-ralisée

)()(detln)(ln2 12ii

Tiii xxCPD

Pour trouver la frontière entre 2 classes Ci et Cj nous devons trouver l’intersection par

)()(detln)(ln2

)()(detln)(ln21

1

jjT

jij

iiT

iii

xxCP

xxCP


Sachant que

iTi

Ti

T

iiT

i

xxx

xx

111

1

2

)()(

La frontière entre les classes Ci et Cj devient

iiTijj

Tjijij

iijj

ij

TT

PPc

b

A

cxbAxx

11

11

11

detlndetlnln2ln2

22

0


De plus, si les matrices de covariances sont égales pour chaque classe

iTij

Tjij

jiij

T

k

PPc

b

cxb

A

11

111

1

ln2ln2

)(222

0

0.....


L’hyperplan bTx = c est une frontière de décision linéaire qui peut aussi prendre la forme

011 dd xbxb d: nombre de caractéristiques


Une somme pondérée des matrices de covariance (pooled) donne une estimation non biaisée de la vraie covariance lorsqu’elles sont supposées égales pour toutes les classes

k

iiipooled n

kN 1

11

ni: nombre d’observations de Ci

N: nombre total d’observations k: nombre de classesi: Estimation non biaisée de la covariance de Ci


i est estimée à partir des données d’entraînement par

n

ikikjijjk

ddd

d

ddd

d

xxxxn

s

ss

ss

S

1

1

111

1

111

1

1

S est un estimateur non biaisé de


Si nous considérons un cas bidimensionnel avec 3 classes (k=3) avec une probabilité a priori uni-forme de 1/3

0.50.4

0.40.7,

5.3

0.6:

0.50.2

0.20.2,

5.7

5.8:

0.50.2

0.20.2,

0.9

0.4:

022

111

000

C

C

C


Les pdf de P(Ci)p(x|Ci) de chaque classe


Les fonctions discriminantes (Bayes rules) sont


Les frontières de décisions sont


Diagramme de dispersion de 1000 observa-tions


Autre exemple de classification d-dimensionnelle

IRR

G

B


Autre exemple de classification d-dimensionnelle

1: Végétation2: Rivière3: Haie4: Tributaire5: Étang


Autre exemple de classification d-dimensionnelle (résultat)

Zones importantes:

Sols nusVégétationEau

Estimation des taux d’erreurs (model-based)

La probabilité d’erreur de classification des obser-vations de la classe Ci correspond à la probabilité que x soit hors de la région d’appartenance Ri de Ci et est donnée par

iRx

ii dxCxpCEP )()(


Les probabilités d’erreur de classification de chaque classe Ci


La probabilité d’erreur totale est déduite à partir de la probabilité de bonne classification

ii

i

Rx

i

k

ii

Rx

i

k

ii

Rxi

k

iii

k

ii

dxCxpCPdxCxpCPCPEP

CxPCPCCPCPCP

)()()()(1)'(1)(

)()()'()()'(

11

11


Pour l’exemple précédent, la frontière de décision est placée à x=45. Alors si x>45 x est classé dans B sinon dans A. La probabilité d’erreur est

45

45

45

45

)()()()()(

)()()()(1)(

dxBxpBPdxBxpAPEP

dxBxpBPdxAxpAPEP

Estimation des taux d’erreurs (comptage simple)

Comptage du nombre d’erreurs de classification du classificateur à partir d’un échantillons d’objets test de classification connue

L’échantillon test doit être différent de celui utilisé pour construire le classificateur

La probabilité d’erreur est estimée par

n

kEP )(ˆ

k: nombre d’erreurs de classificationn: nombre d’observations


La probabilité d’erreur estimée ne sera générale-ment pas égale à la vraie probabilité d’erreur

La probabilité que k erreurs de classification surviennent dans n observations est donnée par la distribution binomiale

)(

!)!(

!

)(1)()(

EnP

kkn

n

k

n

EPEPk

nkP knk


Si P(E) était connue, P(k) peut être calculée pour chaque valeur de k et nous pouvons alors déduire un intervalle de confiance dans lequel k tombe avec une probabilité donnée (95 %)

Si P(E) = 0.2, et n = 10, alors k = 2 en moyenne, mais k peut prendre d’autres valeurs proches de 2

Nous cherchons alors l’intervalle dans lequel k tombe 95 % du temps


Si l’intervalle est symétrique, alors 5 % des probabilités sont à l’extérieur de l’intervalle (2.5 5 de chaque côté de nP(E)

Si P(E)=0.2, les probabilités d’avoir k = 0..10 sont approximativement 0.11, 0.27, 0.30, 0.2, 0.09, 0.03, 0.0, 0.0, 0.0, 0.0, 0.0

L’intervalle [0,4] n’est pas symétrique mais comporte 97 % des probabilités

Alors nous pouvons prévoir, que k sera dans l’in-tervalle [0,4] plus que 95 % du temps (P(E) = 0.2)


Cependant, P(E) est inconnue, nous ne connaissons que k et n

Cherchons alors un intervalle de confiance pour P(E), celui contenant la vraie valeur de P(E) 95 % du temps étant donné k et n

Si n=10 et k=2, par essai et erreur nous pouvons déduire que si P(E)=0.5561, P(k<=2) = 2.5 %


P(k<=2) est donné par

025.00003.00037.00210.0)2(

)0()1()2()2(

kP

kPkPkPkP

Si P(E) > 0.5561, P(k<=2) < 0.025 alors k=2 est hors de l’intervallepour un classificateur avec P(E) > 0.5561

Si P(E) <= 0.0252, P(k>=2) <= 0.025

Alors l’intervalle [0.0252,0.5561] est un intervalle de confiance de 95 % pour P(E)

Documents

RECONNAISSANCE DE FORMES