Upload
carney
View
78
Download
0
Embed Size (px)
DESCRIPTION
RECONNAISSANCE DE FORMES. IAR-6002. Appproches statistiques de la classification. Introduction Théorème de Bayes Frontières de décisions Caractéristiques multiples Frontière de décision multidimensionnelles Frontières de décision d-dimensionnelle en notation matricielle - PowerPoint PPT Presentation
Citation preview
RECONNAISSANCE DE FORMES
IAR-6002
Appproches statistiques de la classification
Introduction Théorème de Bayes Frontières de décisions Caractéristiques multiples Frontière de décision multidimensionnelles Frontières de décision d-dimensionnelle en
notation matricielle Estimation des taux d’erreurs
Introduction
Beaucoup d’applications en reconnaissance de formes (RF) utilisent des techniques de classifi-cation basées sur des modèles statistiques
Ces modèles requièrent l’utilisation de paramè-tres descriptifs devant être estimés à partir des données disponibles
En RF automatique, l’apprentissage supervisé (supervised learning) permet le design d’un classificateur
Introduction
De plus, l’entraînement du classificateur est basé sur un ensemble (training set) de caractéristi-ques descriptives de chaque classe connue per-mettant la création des critères de discrimination
Les critères de discrimination servent par la suite pour classer des observations (sample) dont nous voulons connaître la classe d’apparte-nance
Introduction
Lorsque nous ne connaissons pas la forme des densités de probabilité (pdf) nous devons utiliser des techniques non-paramétriques (nonparametric classification) (ex: estimation de densité)
D’autres méthodes permettent de regrouper des ensembles d’objets (clusters) en fonction de mesures de similarité et ce sans connaissance à priori des classes d’appartenance (unsupervised learning)
Introduction
Avec la classification paramétrique (parametric classification) nous connaissons la forme géné-rale des pdf de chaque classe
Les paramètres des pdf (moyenne et variance) ne sont pas connus
Avant d’utiliser les pdf, il faut d’abord estimer les valeurs de ces paramètres
Introduction
Généralement, le but des procédures de classifi-cation est d’estimer les probabilités qu’une observation (sample) à classer appartienne aux diverses classes
Le classificateur choisi alors la classe la plus vraisemblable
Théorème de Bayes
Un classificateur basé sur le théorème de Bayes choisi la classe d’appartenance la plus vraisem-blable d’une observation à classer
La probabilité d’appartenance à une classe est calculée à partir du théorème de Bayes
La probabilité jointe qu’une observation provienne d’une classe C avec comme valeur caractéristique x est donnée par
)()()()()( xCpxpCxPCPxCp
Théorème de Bayes
Le théorème de Bayes s’écrit alors
)(
)()()(
xP
CxPCPxCp
Théorème de Bayes
Lorsque les classes d’appartenance C1, C2, …..,Ck sont indépendantes au sens statistique (évènements mutuellement exclusifs)
)()(.....)()()( 11 kk CxPCPCxPCPxp
Le théorème de Bayes pour la classe C=Ci devient
)(
)()()(
xP
CxPCPxCp ii
i
Frontières de décision
Nous pouvons aussi faire le design du classifica-teur en créant des régions ceinturées par des frontières
Chaque région représente l’intervalle des valeurs de x associé à chaque classe
Pour une observation x donnée, le classificateur détermine à quelle région Ri appartient l’obser-vation et associe x à la classe correspondant à la région Ri
Frontières de décision
Le positionnement optimal des frontières permet de subdiviser l’espace des caractéristiques en régions R1, …,Rk de telle façon que le choix de la classe Ci est plus vraisemblable pour les valeurs x dans la région Ri que dans toute autre région
Frontières de décision
Calculer la frontière de décision entre 2 classes A et B
Frontières de décision
Pour calculer la frontière de décision entre 2 classes A et B nous supposons au préalable que les pdf sont continues et se chevauchent donnant
)()()()(
)()(
BxpBPAxpAP
xBPxAP
Frontières de décision
Si les valeurs des caractéristiques x pour chaque classe A et B suivent une loi normale
22 )(2
1)(
2
1
2
1)(
2
1)(
)()()()(
B
B
A
A x
B
x
A
eBPeAP
BxpBPAxpAP
Frontières de décision
En simplifiant nous obtenons
22 )()/)(ln(2)()/)(ln(2B
BB
A
AA
xBP
xAP
Nous pouvons alors déduire une fonction discri- minante de la forme
22 )()/)(ln(2)()/)(ln(2B
BB
A
AA
xBP
xAPD
Frontières de décision
Les règles de décision (classification) devien-nent– SI D = 0 classer x dans A ou B
– SI D > 0 classer x dans B
– SI D < 0 classer x dans A
Frontières de décision
La dernière égalité est quadratique selon x et peut avoir 1 racine réelle, 2 racines réelles ou aucune racine
Lorsque les variances sont égales (A=B), l’expression quadratique devient linéaire avec alors une seule racine réelle
Caractéristiques multiples
Lorsque nous supposons l’indépendance des carac-téristiques pour une même classe Cj, la probabilité d’occurrence du vecteur x est déduite par
)(......)(),....(
),....()(),....(
11
111
jdjjd
k
jjdjd
CxPCxPCxxP
CxxPCPxxP
Caractéristiques multiples
Le théorème de Bayes multidimentionnel donne
k
jjdj
idiidi
k
jjj
iii
CxxPCP
CxPCxPCPxxCP
CxPCP
CxPCPxCP
11
11
1
),....,()(
)(......)()(),....,(
)()(
)()()(
Caractéristiques multiples
Avec des distributions normales multivariées la probabilité d’occurrence conditionnelle du vecteur x devient
22
1
11 )(2
1)(
2
1
12/
11
.........)2(
1
)(......)(),....(
di
did
i
i xx
diid
idiid
ee
CxPCxPCxxP
Frontières de décision multidimentionnelles
Si nous avons 2 caractéristiques x1 et x2, la frontière de décision optimale entre 2 classes Ci et Cj est donnée par
),()(),()(
),(),(
2121
2121
jjii
ji
CxxpCPCxxpCP
xxCPxxCP
Frontières de décision multidimentionnelles
La frontière optimale entre 2 classes normales bivariées en supposant l’indépendance des valeurs des caractéristiques est déduite par
2
1
0
2
1
0
5.0)()(
22
21
22
21
1211
1211
21
Cx
Cx
Cx
Cx
CxCx
CxCx
CPCP
Frontières de décision multidimentionnelles
La frontière optimale entre 2 classes normales bivariées en supposant l’indépendance des valeurs des caractéristiques
2
22
2222
21
211
2221
2
12
1222
11
111
1211
)(2
1)(
2
1
2
)(2
1)(
2
1
1
2
1)(
2
1)(
Cx
Cx
Cx
Cx
Cx
Cx
Cx
Cx
xx
CxCx
xx
CxCx
eCP
eCP
Frontières de décision multidimentionnelles
Après simplification nous obtenons la frontière donnée par
221 16
3347.1 xx
Frontières de décision multidimentionnelles
Sur la frontière
221 16
3347.10 xx
La fonction discriminante est donnée par
221 16
3347.1 xxD
Frontières de décision multidimentionnelles
Les règles de décision (classification) devien-nent
– SI D = 0 classer l’observation dans C1 ou C2
– SI D > 0 classer l’observation dans C1
– SI D < 0 classer l’observation dans C2
Frontières de décision multidimentionnelles
La frontière optimale entre 2 classes normales bivariées avec des valeurs des caractéristiques corrélées est déduite par
5.0
8,3
70,22
6.0
5,2
85,26
2.0)(,8.0)(
21
21
21
21
21
21
Gxx
GxGx
GxGx
Gxx
GxGx
GxGx
GPGP
Frontières de décision multidimentionnelles
La pdf jointe bivariée associée à chaque classe prend la forme
2
)())((2
)()1(2
1
21
2121
2
2
22
21
2211212
1
11
221
12
),(
xxxx
xxxx
x
x
xx
xxxx
x
x
xxe
xxP
Frontières de décision multidimentionnelles
Nous pouvons alors déduire les probabilités conditionnelles
),(
),(
21
21
Gxxp
Gxxp
Sachant que sur la frontière
),()(),()( 2121 GxxpGPGxxpGP
En prenant le logarithme naturel de chaque côté
),(ln)(ln),(ln)(ln 2121 GxxpGPGxxpGP
Frontières de décision multidimentionnelles
Après simplifications nous obtenons la frontière donnée par
007.500033.9789.41167.3819.5 212221
21 xxxxxx
Classes avec la même variance et corrélation
Frontières de décision multidimentionnelles
La fonction discriminante devient dans ce cas
GxxD
GxxD
21
21
,0
,0
Les règles de décision (classification) deviennent
07.500033.9789.41167.3819.5 212221
21 xxxxxxD
Frontières de décision d-dimensionnelle en notation matricielle
Si nous avons k classes et d caractéristiques, nous pouvons représenter les moyennes des caractéristiques de chaque classe Ci par un vecteur de moyennes
id
i
i
1
Frontières de décision d-dimensionnelle en notation matricielle
Les variances et covariances des caractéristi-ques de chaque classe Ci sont représentées par une matrice
21
22212
11221
dd
d
d
i
• Cette matrice est symétrique
• La variance de chaque caracté- ristique est sur la diagonale
Frontières de décision d-dimensionnelle en notation matricielle
Le théorème de Bayes stipule qu’une observa-tion x ou x est un vecteur de caractériatiques est classée dans Ci qui maximise
k
j ii
iii
CxPCPxp
xP
CxPCPxCp
1)()()(
)(
)()()(
Frontières de décision d-dimensionnelle en notation matricielle
Le numérateur de l’expression précédente peut s’écrire
)()(2
1 1
)2(det
)()()(
iiT
i xx
di
iii e
CPCxpCP
En prenant le logarithme et multipliant par -2 nous pou- vont choisir la classe qui minimise
)()(2lndetln)(ln2 1ii
Tiii xxdCP
Frontières de décision d-dimensionnelle en notation matricielle
Nous pouvons alors déduire une distance géné-ralisée
)()(detln)(ln2 12ii
Tiii xxCPD
Pour trouver la frontière entre 2 classes Ci et Cj nous devons trouver l’intersection par
)()(detln)(ln2
)()(detln)(ln21
1
jjT
jij
iiT
iii
xxCP
xxCP
Frontières de décision d-dimensionnelle en notation matricielle
Sachant que
iTi
Ti
T
iiT
i
xxx
xx
111
1
2
)()(
La frontière entre les classes Ci et Cj devient
iiTijj
Tjijij
iijj
ij
TT
PPc
b
A
cxbAxx
11
11
11
detlndetlnln2ln2
22
0
Frontières de décision d-dimensionnelle en notation matricielle
De plus, si les matrices de covariances sont égales pour chaque classe
iTij
Tjij
jiij
T
k
PPc
b
cxb
A
11
111
1
ln2ln2
)(222
0
0.....
Frontières de décision d-dimensionnelle en notation matricielle
L’hyperplan bTx = c est une frontière de décision linéaire qui peut aussi prendre la forme
011 dd xbxb d: nombre de caractéristiques
Frontières de décision d-dimensionnelle en notation matricielle
Une somme pondérée des matrices de covariance (pooled) donne une estimation non biaisée de la vraie covariance lorsqu’elles sont supposées égales pour toutes les classes
k
iiipooled n
kN 1
11
ni: nombre d’observations de Ci
N: nombre total d’observations k: nombre de classesi: Estimation non biaisée de la covariance de Ci
Frontières de décision d-dimensionnelle en notation matricielle
i est estimée à partir des données d’entraînement par
n
ikikjijjk
ddd
d
ddd
d
xxxxn
s
ss
ss
S
1
1
111
1
111
1
1
S est un estimateur non biaisé de
Frontières de décision d-dimensionnelle en notation matricielle
Si nous considérons un cas bidimensionnel avec 3 classes (k=3) avec une probabilité a priori uni-forme de 1/3
0.50.4
0.40.7,
5.3
0.6:
0.50.2
0.20.2,
5.7
5.8:
0.50.2
0.20.2,
0.9
0.4:
022
111
000
C
C
C
Frontières de décision d-dimensionnelle en notation matricielle
Les pdf de P(Ci)p(x|Ci) de chaque classe
Frontières de décision d-dimensionnelle en notation matricielle
Les fonctions discriminantes (Bayes rules) sont
Frontières de décision d-dimensionnelle en notation matricielle
Les frontières de décisions sont
Frontières de décision d-dimensionnelle en notation matricielle
Diagramme de dispersion de 1000 observa-tions
Frontières de décision d-dimensionnelle en notation matricielle
Autre exemple de classification d-dimensionnelle
IRR
G
B
Frontières de décision d-dimensionnelle en notation matricielle
Autre exemple de classification d-dimensionnelle
1: Végétation2: Rivière3: Haie4: Tributaire5: Étang
Frontières de décision d-dimensionnelle en notation matricielle
Autre exemple de classification d-dimensionnelle (résultat)
Zones importantes:
Sols nusVégétationEau
Estimation des taux d’erreurs (model-based)
La probabilité d’erreur de classification des obser-vations de la classe Ci correspond à la probabilité que x soit hors de la région d’appartenance Ri de Ci et est donnée par
iRx
ii dxCxpCEP )()(
Estimation des taux d’erreurs (model-based)
Les probabilités d’erreur de classification de chaque classe Ci
Estimation des taux d’erreurs (model-based)
La probabilité d’erreur totale est déduite à partir de la probabilité de bonne classification
ii
i
Rx
i
k
ii
Rx
i
k
ii
Rxi
k
iii
k
ii
dxCxpCPdxCxpCPCPEP
CxPCPCCPCPCP
)()()()(1)'(1)(
)()()'()()'(
11
11
Estimation des taux d’erreurs (model-based)
Pour l’exemple précédent, la frontière de décision est placée à x=45. Alors si x>45 x est classé dans B sinon dans A. La probabilité d’erreur est
45
45
45
45
)()()()()(
)()()()(1)(
dxBxpBPdxBxpAPEP
dxBxpBPdxAxpAPEP
Estimation des taux d’erreurs (comptage simple)
Comptage du nombre d’erreurs de classification du classificateur à partir d’un échantillons d’objets test de classification connue
L’échantillon test doit être différent de celui utilisé pour construire le classificateur
La probabilité d’erreur est estimée par
n
kEP )(ˆ
k: nombre d’erreurs de classificationn: nombre d’observations
Estimation des taux d’erreurs (comptage simple)
La probabilité d’erreur estimée ne sera générale-ment pas égale à la vraie probabilité d’erreur
La probabilité que k erreurs de classification surviennent dans n observations est donnée par la distribution binomiale
)(
!)!(
!
)(1)()(
EnP
kkn
n
k
n
EPEPk
nkP knk
Estimation des taux d’erreurs (comptage simple)
Si P(E) était connue, P(k) peut être calculée pour chaque valeur de k et nous pouvons alors déduire un intervalle de confiance dans lequel k tombe avec une probabilité donnée (95 %)
Si P(E) = 0.2, et n = 10, alors k = 2 en moyenne, mais k peut prendre d’autres valeurs proches de 2
Nous cherchons alors l’intervalle dans lequel k tombe 95 % du temps
Estimation des taux d’erreurs (comptage simple)
Si l’intervalle est symétrique, alors 5 % des probabilités sont à l’extérieur de l’intervalle (2.5 5 de chaque côté de nP(E)
Si P(E)=0.2, les probabilités d’avoir k = 0..10 sont approximativement 0.11, 0.27, 0.30, 0.2, 0.09, 0.03, 0.0, 0.0, 0.0, 0.0, 0.0
L’intervalle [0,4] n’est pas symétrique mais comporte 97 % des probabilités
Alors nous pouvons prévoir, que k sera dans l’in-tervalle [0,4] plus que 95 % du temps (P(E) = 0.2)
Estimation des taux d’erreurs (comptage simple)
Cependant, P(E) est inconnue, nous ne connaissons que k et n
Cherchons alors un intervalle de confiance pour P(E), celui contenant la vraie valeur de P(E) 95 % du temps étant donné k et n
Si n=10 et k=2, par essai et erreur nous pouvons déduire que si P(E)=0.5561, P(k<=2) = 2.5 %
Estimation des taux d’erreurs (comptage simple)
P(k<=2) est donné par
025.00003.00037.00210.0)2(
)0()1()2()2(
kP
kPkPkPkP
Si P(E) > 0.5561, P(k<=2) < 0.025 alors k=2 est hors de l’intervallepour un classificateur avec P(E) > 0.5561
Si P(E) <= 0.0252, P(k>=2) <= 0.025
Alors l’intervalle [0.0252,0.5561] est un intervalle de confiance de 95 % pour P(E)