58
Information mutuelle et divergence : estimation, codage et classification Bernard Colin, Maryl` ene Troup´ e et Jean Vaillant esum´ e Utilisant les notions de divergence entre mesures de probabilit´ e et d’in- formation mutuelle entre variables al´ eatoires, on consid` ere, essentiellement dans le cas continu, un crit` ere de minimisation de perte d’information afin de r´ esoudre de fa¸con optimale, le probl` eme de la r´ eduction des donn´ ees sous forme de classes. On consid` ere ´ egalement, suivant ce mˆ eme principe, le probl` eme de l’agr´ egation des observations et de la classification. Mots-cl´ es : Divergence, information mutuelle, fonctionnelle statis- tique, codage optimal, classification. Abstract Using divergence and mutual information concepts, one consider, in the continuous case, a criterion based on the minimization of information loss in order to solve the problem of data reduction by making classes. With this same principle in mind, one consider also some others classification methods. Keywords : Divergence, mutual information, statistical functionnals, optimal coding, classification. 1

Information mutuelle et divergence: estimation, codage et classification

Embed Size (px)

Citation preview

Information mutuelle et divergence :

estimation, codage et classification

Bernard Colin, Marylene Troupeet

Jean Vaillant

Resume

Utilisant les notions de divergence entre mesures de probabilite et d’in-formation mutuelle entre variables aleatoires, on considere, essentiellementdans le cas continu, un critere de minimisation de perte d’information afinde resoudre de facon optimale, le probleme de la reduction des donneessous forme de classes. On considere egalement, suivant ce meme principe,le probleme de l’agregation des observations et de la classification.

Mots-cles : Divergence, information mutuelle, fonctionnelle statis-tique, codage optimal, classification.

Abstract

Using divergence and mutual information concepts, one consider, in thecontinuous case, a criterion based on the minimization of information lossin order to solve the problem of data reduction by making classes. Withthis same principle in mind, one consider also some others classificationmethods.

Keywords : Divergence, mutual information, statistical functionnals,optimal coding, classification.

1

Table des matieres

1 Introduction 5

2 Resultats generaux 52.1 Divergence generalisee . . . . . . . . . . . . . . . . . . . . . . . . 52.2 Information mutuelle . . . . . . . . . . . . . . . . . . . . . . . . . 72.3 Fonctionnelle d’information mutuelle . . . . . . . . . . . . . . . . 9

3 Reconstitution de l’information mutuelle 113.1 Cadre general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.2 Existence d’une partition optimale . . . . . . . . . . . . . . . . . 14

4 Estimation 154.1 Estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154.2 Proprietes des estimateurs dans le cas de donnees classees . . . . 17

4.2.1 Generalites . . . . . . . . . . . . . . . . . . . . . . . . . . 174.2.2 Esperance . . . . . . . . . . . . . . . . . . . . . . . . . . . 214.2.3 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214.2.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

4.3 Proprietes des estimateurs dans le cas parametrique . . . . . . . 254.3.1 Generalites . . . . . . . . . . . . . . . . . . . . . . . . . . 254.3.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4.4 Proprietes des estimateurs dans le cas des donnees brutes . . . . 28

5 Codage optimal 305.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305.2 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

6 Classification 326.1 Generalites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326.2 Position du probleme . . . . . . . . . . . . . . . . . . . . . . . . . 34

6.2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . 346.2.2 Divergence generalisee . . . . . . . . . . . . . . . . . . . . 356.2.3 Construction d’un indice de dissimilarite . . . . . . . . . . 35

6.3 Classification hierarchique . . . . . . . . . . . . . . . . . . . . . . 38

7 Analyse de l’information mutuelle 417.1 Cadre general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417.2 Equations de decomposition de l’information mutuelle . . . . . . 43

7.2.1 Decomposition de l’information mutuelle totale sous laforme d’une somme d’entropies . . . . . . . . . . . . . . . 44

7.2.2 Decomposition de l’information mutuelle totale sous laforme d’une somme d’informations mutuelles . . . . . . . 45

7.3 Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

8 Notion de composantes essentielles d’un vecteur aleatoire 49

2

9 Conclusion 53

3

Remerciements

Le present rapport est le resultat de recherches entreprises au Departementde Mathematiques et d’Informatique de l’Universite des Antilles-Guyane dePointe-a-Pitre, dans le cadre d’un conge sabbatique de septembre a decembre2003.

Qu’il me soit permis ici de remercier, tres sincerement, tous les membresdu Departement, tant les professeurs que le personnel administratif, qui m’ontreserve un accueil des plus chaleureux et sans l’aide de qui ce travail n’auraitpu etre mene a bien.

Mes remerciements s’addressent plus particulierement a Marylene Troupe eta Jean Vaillant qui ont bien voulu m’inviter dans leur laboratoire dans le cadrede ce conge sabbatique et qui ont mis a ma disposition toutes les ressourcesnecessaires, afin que ce projet de recherche puisse s’effectuer dans les meilleuresconditions possibles.

Qu’il me soit permis egalement d’exprimer ici, mes tres vifs remerciements etma sincere gratitude a l’endroit de mes collegues de bureau, qui m’ont fait l’hon-neur de bien vouloir m’accueillir parmi eux. Ce fut pour moi un grand privilegede partager avec ces derniers et ce tout au long de mon sejour, des moments desplus enrichissants, tant sur le plan professionnel, que sur le plan humain. QueMessieurs J.C. Mado, P. Poullet, P. Nuiro et J. Vaillant veuillent bien trouverici l’expression de ma tres sincere amitie et de ma profonde reconnaissance.

Bernard Colin

Sherbrooke Octobre 2004

4

1 Introduction

Depuis quelques annees deja, on dispose dans de nombreux domaines devastes ensembles de donnees (par exemple les entrepots de donnees que l’onexploite dans le but d’en extraire des connaissances), contenant une informa-tion de masse considerable et dont le traitement constitue, a l’heure actuelle,une importante branche des statistiques. Si, traditionnellement, les modeles uti-lises permettent par le biais d’une approche geometrique de bien apprehenderla realite multidimensionnelle des donnees, peu d’entre eux exploitent a l’aided’outils tels que l’entropie, la divergence, la divergence generalisee et l’informa-tion mutuelle, l’information empirique portant sur les dependances stochastiquesentre les variables.

Ainsi les modeles de classification, par exemple, mettent l’accent principale-ment sur des criteres de natures metriques et ne recourent que peu, ou pas, ades criteres utilisant la notion d’information mutuelle. Il en va de meme pourles modeles d’analyse discriminante et pour le codage de variables aleatoires,technique utilisee, par exemple, dans les cas ou l’on doit prendre simultanementen compte un ensemble de variables aleatoires tant qualitatives que quantita-tives. Plus precisement, dans le but de rendre homogene l’ensemble des variablesconsiderees, le codage consiste habituellement a associer a chaque variable quan-titative, et ce independamment les unes des autres, un ensemble d’elements, oumodalites, forme de classes disjointes de valeurs.

On peut alors se demander si une telle operation, une fois effectuee, traitel’information disponible, de maniere optimale. En particulier, le fait que lesvariables ne soient pas, dans la tres grande majorite des cas, independantes,constitue une information qui pourrait conduire, entre autres, a la creation, nonpas de classes pour chacune des variables prises individuellement, mais de classessur l’ensemble des variables prises simultanement.

Dans le cadre de ce rapport de recherche, nous nous proposons, apres avoirintroduit la notion d’information mutuelle entre variables aleatoires et en avoirdonne les principales proprietes, d’aborder les themes suivants :

– Estimation de l’information mutuelle.– Codage optimal de variables aleatoires.– Classification.– Decomposition de l’information mutuelle.

2 Resultats generaux

2.1 Divergence generalisee

Les resultats qui apparaissent dans ce paragraphe sont exposes en detaildans, entre autres, Csiszar [12], [13] et [14], Ali et Silvey [4] ainsi que dans Zakaiet Ziv [46] et ne sont presentes uniquement ici qu’a titre de rappel.

5

Soit ϕ(t) une fonction convexe quelconque de R+\ 0 dans R. Afin deresoudre certaines formes indeterminees, on adopte habituellement les conven-tions d’usage suivantes :

ϕ(0) = limt→0+ ϕ(t)0ϕ( 0

0 ) = 00ϕ(a

0 ) = limδ→0+ δϕ(aδ ) = a limδ→0+ δϕ( 1

δ ) a > 0

Le lemme ci-dessous, dont nous ferons usage par la suite, est du a Csiszar [12] :

Soit (X , F , µ) un espace mesure quelconque (on supposera toutefois que lesmesures sont finies ou σ-finies) et soient α et β deux fonctions mesurables nonnegatives definies sur (X , F , µ) alors :

∫IAβϕ

β

)dµ

est definie pour tous les elements A ∈ X sur lesquels α et β sont integrables.

De plus si pour un tel element∫IAβdµ est strictement positif et si ϕ(t) est

strictement convexe en :

t0 =∫IAαdµ∫IAβdµ

on a : ∫IAβϕ

β

)dµ ≥

(∫IAβdµ

(∫IAαdµ∫IAβdµ

)> −∞

l’egalite n’ayant par ailleurs lieu que si et seulement si α = t0β µ− p.p sur A.

Afin d’alleger l’ecriture, nous supposerons dans la suite que les egalites sontprises au sens de “presque-partout” sans que l’on ait besoin de le mentionner anouveau.

Soient alors µ1et µ2 deux mesures de probabilite definies sur (X ,F) ettelles que µi ¿ µ pour i = 1,2. On appelle ϕ-divergence ou encore divergencegeneralisee entre µ1et µ2 l’expression definie par :

Iϕ (µ1,µ2) =∫

ϕ

(dµ1

dµ2

)dµ2

=∫

ϕ

(f1

f2

)f2dµ ou fi =

dµi

dµpour i = 1,2

Le lemme precedent assure de l’existence de Iϕ (µ1,µ2) et montre que Iϕ (µ1,µ2) ≥ϕ (1), l’egalite n’ayant lieu que si et seulement si µ1 = µ2 pour autant que ϕsoit strictement convexe en t0 = 1. Il est clair par ailleurs que Iϕ (µ1,µ2) nedepend pas du choix de µ et que l’on peut egalement, dans le cas des modeles

6

homogenes (ce qui est tres frequemment verifie dans la pratique) ecrire cetteexpression sous la forme :

Iϕ (µ1,µ2) =∫

dµ2

dµ1

ϕ

(dµ1

dµ2

)dµ1

=∫

f2

f1ϕ

(f1

f2

)f1dµ

Le tableau suivant presente, suivant le choix de la fonction ϕ, les principalesmesures de divergence ainsi que leur appellation :

ϕ(x) NomxLogx−Logx

(x− 1)LogxKullback et Leibler

|x− 1| Distance en variationxαsgn (α− 1) avec: 0 < α 6= 1 Divergence d’ordre α au sens de Renyi

(√

x− 1)2 Hellinger1− xα 0 < α < 1 Chernoff

(x− 1)2 χ2∣∣1− x1/m

∣∣m m > 0 Jeffreys1−min(x,1) Wald

(Pour plus de details a ce sujet, on pourra consulter, entre autres, Goel [23],Adhikari et Joshi [3], Aczel et Daroczy [2], Rao [35] ainsi que Renyi [36]). Saufpour la divergence d’ordre α, on note que ϕ(1) = 0.

2.2 Information mutuelle

Soit (Ω, F , P) un espace probabilise et soient X1, X2,..., Xk, k variablesaleatoires definies sur (Ω, F , P) et a valeurs dans les espaces mesures (Xi, Fi, λi)i = 1, 2,..., k. Designons par µX1,X2,...,Xk

et par ⊗i=ki=1µXi

les mesures de pro-babilite definies sur l’espace produit

(×i=ki=1Xi,⊗i=k

i=1 Fi,⊗i=ki=1 λi

)et representant

respectivement les mesures de probabilite conjointe et produit des mesures deprobabilite marginales, des variables X1,X2,...,Xk et que l’on supposera absolu-ment continues par rapport a la mesure produit λ = ⊗i=k

i=1λi.

On appelle alors ϕ-information mutuelle ou plus simplement informationmutuelle entre les variables X1, X2,..., Xk, la quantite definie par :

Iϕ (X1,X2,...,Xk) = Iϕ

(µX1,X2,...,Xk

,⊗i=k

i=1 µXi

)

=∫

ϕ

dµX1,X2,...,Xk

d(⊗i=k

i=1 µXi

) d

(⊗i=ki=1 µXi

)

=∫

ϕ

(f∏i=k

i=1 fi

)(∏i=ki=1 fi

)dλ

7

ou, avec les notations habituelles, f et∏i=k

i=1 fi designent respectivement lesdensites des mesures de probabilite µX1,X2,...,Xk

et ⊗i=ki=1µXi

par rapport a lamesure produit λ = ⊗i=k

i=1λi. Dans la pratique, l’espace Xi est, pour tout i, soitla droite reelle R munie de la mesure de Lebesgue, soit un espace discret munide la mesure de comptage. Mentionnons quelques proprietes de l’informationmutuelle dont on trouvera les demonstrations dans, par exemple, Pinsker [34],Mc Eliece [29], Csiszar [12], Gavurin [21] :

– Si ϕ(1) ≥ 0, alors Iϕ (X1,X2,...,Xk) ≥ 0 l’egalite n’ayant lieu que si etseulement si les variables aleatoires X1, X2,..., Xk sont independantes.

– Iϕ (X1,X2,...,Xk) ≥ Iϕ (X1,X2,...,Xk−1) l’egalite n’ayant lieu que si etseulement si la variable Xk est independante des variables X1, X2,...,Xk−1.

– Iϕ (X1,X2,...,Xk) est convexe par rapport a µX1,X2,...,Xk.

– Si pour tout j = 1, 2,..., k les fonctions gj de(×i=k

i=1Xi,⊗i=ki=1 Fi

)dans

(Yj ,Gj) sont mesurables, on a alors, en posant Yj = gj (X1,X2,...,Xk) :

Iϕ (Y1,Y2,...,Yk) ≤ Iϕ (X1,X2,...,Xk)

Cette derniere propriete, plus connue sous le nom general de “data-processingtheorem”, montre que toute transformation portant sur les variables ini-tiales, entraıne, en general, une perte d’information.

– Iϕ ((X1,X2,...,Xk−1) ,Xk) = EµXk

(Iϕ

(µX1,X2,...,Xk−1|Xk

, µX1,X2,...,Xk−1

))

ou, avec les notations habituelles, µX1,X2,...,Xk−1|Xkdesigne la mesure de

probabilite correspondante a la loi conditionnelle de X1,X2,...,Xk−1 etantdonne Xk et ou EµXk represente l’esperance par rapport a la mesure deprobabilite µXk

.

– Iϕ (X1,X2,...,Xk−1,Xk) = EµXk

(Iϕ

(µX1,X2,...,Xk−1|Xk

, ⊗i=k−1i=1 µXi

)).

Mentionnons que l’on trouvera, dans le cas de l’information mutuelle au sensde Kullback-Leibler, de recentes applications en neurophysiologie et en ingenieriedes communications dans respectivement Gruner[24] et Abarbanel, Masuda, Ra-binovich et Tumer[1].

8

2.3 Fonctionnelle d’information mutuelle

Les mesures marginales µX1, µX2

,..., µXketant deduites de la mesure conjointe

µX1,X2,...,Xk, il s’ensuit que l’information mutuelle entre les variables X1, X2,...,

Xk est une fonctionnelle J(µX1,X2,...,Xk) de la mesure de probabilite µX1,X2,...,Xk

que nous noterons desormais, pour des raisons de commodite d’ecriture, par µX

ou X designe le vecteur (X1,X2,...,Xk). On a alors :

J(µX) =∫ ∏i=k

i=1 fi (xi)ϕ

(f (x1,x2,...,xk)∏i=k

i=1 fi (xi)

)dλ

avec

fi (xi) =∫∏j 6=i

Xj

f (x1,x2,...,xi,...xk) d

(⊗

j 6=iλj

)pour i = 1, 2,..., k

De cette consideration decoule le fait que l’information mutuelle peut se conce-voir comme un parametre Θ associe a la loi µX et dont on pourrait penser quel’estimateur “naturel” serait donne par :

θ = J(µnX)

ou µnX designe la mesure de probabilite empirique, associee a un echantillon X1,

X2,..., Xn de taille n issu de la loi µX , definie par :

µnX =

1n

∑r=nr=1 δXr

et ou δXr represente la masse de Dirac en Xr = (Xr1 ,Xr

2 ,...,Xrk) pour r = 1,

2,..., n. Dans le cas de mesures de probabilite discretes absolument continues parrapport a une mesure de comptage, on peut verifier sans peine que l’informationmutuelle Iϕ (X1, X2,..., Xk) est donnee, a l’aide de notations evidentes, par :

∑(j1,j2,...,jk)

(∏i=k

i=1 p (xiji)ϕ

(p (x1j1 ,x2j2 ,...,xkjk

)∏i=ki=1 p (xiji)

))

ce qui, dans le cas de la loi µnX conduit a :

1nk−1

ϕ(nk−1

)

Il est clair qu’une telle expression ne presente, dans le cas continu, aucuninteret en raison du fait que toutes les lois marginales empiriques etant, presquesurement, des lois uniformes, on ne mesure uniquement dans ce cas que la di-vergence entre les mesures de probabilite :

µnX =

1n

∑r=nr=1 δXr et

⊗i=ki=1

(1n

∑r=nr=1 δXr

i

)

9

ce qui ne permet pas, bien entendu, d’obtenir une estimation satisfaisante duparametre J(µX).

Toutefois, dans le cas discret, si la taille de l’echantillon est grande (ce quiest le cas en particulier des vastes banques de donnees) on peut obtenir desestimations des lois marginales a partir de tableaux de contingence croisantl’ensemble des variables et en deduire une estimation θ de Θ = J(µX). Si lafonctionnelle J se “comporte bien” au voisinage de µX alors J(µn

X) sera un bonestimateur de J(µX) puisque l’on sait que µn

X converge vers µX lorsque n tendvers l’infini.

Plus precisement si, dans le cas general, P designe un espace de mesures deprobabilite definies sur un espace (Ω, F) donne et si J(·) designe une fonction-nelle definie sur P, la derivee de Gateaux de J au point P dans la direction Qest donnee par :

d1J(P,Q− P) = limt→0+

J (P+ t (Q− P))− J(P)t

ou 0 ≤ t ≤ 1

=d

dtJ(P+ t (Q− P)) |t=0+

si bien entendu cette limite existe.

Plus generalement, la derivee d’ordre l de Gateaux, au point P dans la di-rection Q, a pour expression :

dlJ(P,Q− P) =dl

dtlJ(P+ t (Q− P)) |t=0+

Si l’on suppose de plus que la fonction γ (t) = J (P+ t (Q− P)) admet undeveloppement en serie de Taylor au voisinage de 0, il vient (voir Serfling [39]) :

J(Q)− J(P) =l=m∑l=1

1l!

dlJ(P,Q− P) +1

(m + 1)!dm+1

dtm+1J(P+ t (Q− P)) |t∗

ou 0 ≤ t∗ ≤ 1. Dans le cas ou la mesure de probabilite Q est la mesure empiriquePn associee a un echantillon deduit de P, l’expression ci-dessus permet de deduirele comportement asymptotique de J (Pn) de l’etude de celui du reste Rm,n donnepar :

Rm,n = J(Pn)− J(P)−l=m∑l=1

1l!

dlJ(P,Pn − P)

= J(Pn)− J(P)− Vm,n

On montre alors que (voir par exemple von Mises [45], Serfling [39]) si le premierterme non nul du developpement de Taylor de la fonctionnelle J est le termelineaire (ce qui est verifie dans notre cas), on a :

√n (J(Pn)− J(P)) L→ N

(0,σ2

J,P)

10

ou σ2J,P est une constante positive qui ne depend que de J et de P, ce qui

entraıne que l’information mutuelle empirique J(Pn) converge en probabilitevers l’information mutuelle J(P). De plus on a :

limn→∞

√n (J(Pn)− J(P))

σJ,P (2LogLogn)1/2= 1 presque surement

Dans le cas continu J(Pn) ne conduira a une estimation de J(P) que si l’onconsidere une partition de l’espace ×i=k

i=1Xi afin que J(Pn) puisse s’interpreteren termes d’information mutuelle empirique entre les variables X1,X2,...,Xk.

3 Reconstitution de l’information mutuelle

3.1 Cadre general

Les considerations qui suivent s’inspirent des resultats obtenus par Dobrushin[18]dans le cadre de la notion d’entropie (ϕ (t) = tLogt). Soit µX une mesure de pro-babilite definie sur (X , F) ou X = ×i=k

i=1Xi = Rk (autrement dit X1 = X2 =... = Xk = R), absolument continue par rapport a la mesure de Lebesgue etdont on supposera, dans un premier temps, que le support S est de la forme :

S =×i=ki=1 [ai,bi]

et soit pour tout i = 1, 2,..., k :

ai = xi0 < xi1 < ... < xini = bi

une partition Pi,ni =γiji

= [xiji−1,xiji [ : ji = 1,2,...,ni − 1, γini= [xini−1,xini ]

de [ai,bi], en ni elements.

Designons alors par P , la partition du support de µX engendree par la fa-mille des produits de la forme : ×i=k

i=1γiji. Autrement dit la partition P , designee

quelques fois par l’appellation de “partition produit”, est donnee par :

P := ×i=ki=1Pi,ni =

n1⋃

j1=1

n2⋃

j2=1

...

nk⋃

jk=1

(×i=ki=1γiji

)

Considerons alors pour tout i = 1, 2,..., k la variable aleatoire etagee ξPi , definie

sur [ai,bi], a valeurs dans 1, 2,..., ni (indices des classes) et dont la mesure deprobabilite µξP

iest donnee par :

µξPi

=µX

(γiji

× (×r=kr 6=i=1 [ar,br]

)): ji = 1, 2,..., ni

On sait alors, en vertu du “data-processing theorem”, (voir egalement Colin[10], Tibeiro [42]), que l’on a :

Iϕ (X1,X2,...,Xk) ≥ Iϕ

(ξP1 ,ξP

2 ,...,ξPk

)

11

pour toute partition P1,n1 ,P2,n2 ,...,Pk,nkde [a1,b1] , [a2,b2] ,..., [ak,bk] et ou la

mesure de probabilite conjointe µξP1 ,ξP

2 ,...,ξPk

du vecteur aleatoire(ξP1 ,ξP

2 ,...,ξPk

)

est donnee par :

µξP1 ,ξP

2 ,...,ξPk

=µX

(×i=ki=1γiji

)pour tout j1,j2,...,jk

La perte absolue d’information mutuelle, due a la transformation consideree, estalors representee par : Iϕ (X1,X2,...,Xk) − Iϕ

(ξP1 ,ξP

2 ,...,ξPk

)alors que la perte

relative s’exprime sous la forme :

Iϕ (X1,X2,...,Xk)− Iϕ

(ξP1 ,ξP

2 ,...,ξPk

)

Iϕ (X1,X2,...,Xk)

Supposons alors que l’on considere les entiers n1, n2,..., nk fixes, c’est-a-dire,supposons que l’on ait fait choix, pour chacune des variables, du nombre declasses permettant de les resumer. Pour tout i = 1, 2,..., k, designons par Pni

i lafamille des partitions de [ai,bi] en ni intervalles disjoints

(γiji

)pour tout ji = 1,

2,..., ni et notons par P la famille des partitions du support de µX donnee par :

P := ×i=ki=1Pni

i =×i=k

i=1Pi,ni : Pi,ni ∈ Pnii ∀ i = 1,2,...,k

Un element P de P peut alors etre identifie a un vecteur de RΣi=ki=1 (ni−1) de

composantes :

(x11,x12,...,x1n1−1, x21,x22,...x2n2−1,..., xk1,xk2,...,xknk−1)

sous les contraintes :

ai < xi1 < ... < xini−1 < bi pour tout i = 1, 2,..., k

Il est clair par ailleurs que si l’on fusionne au moins deux classes contiguesde l’une quelconque des variables (en posant par exemple pour un i quelconquexi,ji = xi,ji+1), nous arrivons, en suivant la meme demarche que precedemment,a la meme conclusion que ci-dessus, a savoir que le bilan de l’operation de fusionde classes se traduit par une perte de l’information mutuelle disponible avantfusion. Plus precisement, l’information mutuelle est une fonction croissante parrapport au filtre des partitions (finies ou denombrables) du support de µX (onpourra consulter a ce sujet Ghurye [22], Cencov [9]). Considerant comme mesurePn la mesure donnee par :

Pn =µX

(×i=ki=1γiji

)pour tout j1, j2,..., jk

les resultats du paragraphe precedent permettent d’affirmer que, sous des condi-tions tres generales, (voir egalement Serfling [39]) on a : Iϕ

(ξP1 ,ξP

2 ,...,ξPk

)p→

Iϕ (X1,X2,...,Xk) lorsque, pour tout i = 1, 2,..., k, ni →∞.

12

Cette methode d’approximation de l’information mutuelle, fait appel a unepartition du support de la mesure de probabilite µX engendree par le produitde partitions des supports de chacune des variables. Mentionnons que l’on peututiliser, a cette fin, d’autres partitions comme par exemple dans Darbellay [15]ou l’algorithme utilise conduit, a l’aide d’un critere d’independance locale, a unepartition de Rk sous forme de paves.

Dans le cas ou le support S de la mesure µX n’est pas borne, on peut faireappel a la representation sous forme de copule de sa densite (voir par exemplea ce sujet Frechet [20], Sklar [41]) afin de se ramener au cas precedent.

En effet, designant par Fi la fonction de repartition de la variable aleatoireXi pour i = 1, 2,..., k, la transformation definie par :

Ui = Fi (Xi) ∀ i = 1, 2,..., k

est, dans le present cadre, une transformation bijective de S dans [0,1]k quipreserve l’information mutuelle entre les variables X1, X2,..., Xk et les variablesU1, U2,..., Uk comme on le verifie aisement ci-dessous.

Supposons, sans perte de generalite, que S = Rk et considerons le change-ment de variables :

u = g(x) = gi (x)i=1,2,...,k

de Rk dans [0,1]k donne par :

ui = gi (x1,x2,...,xk) = Fi (xi)

Posant :

G = (γi,j = ∂ui∂xj) = diag (f1(x1),f2(x2),...,fk(xk))

il vient :det G =

∏i=ki=1 fi (xi)

On a alors :

Iϕ (X1,X2,...,Xk) =∫

Rk

ϕ

(f (x1,x2,...,xk)∏i=k

i=1 fi (xi)

) (∏i=ki=1 fi (xi)

)dx1dx2...dxk

=∫

[0,1]kϕ

(f

(F−1

1 (u1) ,F−12 (u2) ,...,F−1

k (uk))

∏i=ki=1 fi

(F−1

i (ui))

(∏i=ki=1 fi

(F−1

i (ui)))

det G−1∣∣g−1(u)

du1du2...duk

et comme : (∏i=ki=1 fi

(F−1

i (ui)))

det G−1∣∣g−1(u)

= 1

13

on obtient :

Iϕ (X1,X2,...,Xk) =∫

[0,1]kϕ (c (u1,u2,...,uk)) du1du2...duk

ou c (u1,u2,...,uk) n’est autre que la densite de probabilite de la copule associeea µX puisque l’on a :

c (u) = f(g−1 (u)

)detG−1

∣∣g−1(u)

=f

(F−1

1 (u1) ,F−12 (u2) ,...,F−1

k (uk))

∏i=ki=1 fi

(F−1

i (ui))

Comme par ailleurs Ui v U[0,1] pour tout i = 1, 2,..., k, alors la densite ci (ui)de Ui a pour expression :

ci (ui) = I[0,1] (ui) pour tout i = 1,2,...,k

et il s’ensuit que :∫

[0,1]kϕ (c (u1,u2,...,uk)) du1du2...duk

peut s’ecrire sous la forme :

[0,1]kϕ

(c (u1,u2,...,uk)∏i=k

i=1 ci (ui)

) (∏i=ki=1 ci (ui)

)du1du2...duk

qui n’est autre que l’information mutuelle Iϕ (U1,U2,...,Uk) entre les variablesaleatoires U1, U2,..., Uk.

Cette invariance justifie, “a posteriori”, le fait que nous ayons considerel’information mutuelle comme une fonctionnelle de la loi conjointe seulement.

3.2 Existence d’une partition optimale

Les nombres n1, n2,..., nk etant donnes et la famille P qui en decoule etantprecisee, le probleme d’optimisation que l’on desire resoudre se presente sous laforme :

supP∈P

(ξP1 ,ξP

2 ,...,ξPk

)

On peut sans perte de generalite et en vertu de la remarque faite a la fin duparagraphe precedent, considerer que la fonction Iϕ

(ξP1 ,ξP

2 ,...,ξPk

)des variables

xiji pour i = 1, 2,..., k et ji = 1, 2,..., ni−1 est definie sur un ensemble compactde RΣi=k

i=1 (ni−1) de la forme :S = ×i=k

i=1Si,ni

14

ou Si,ni est, pour tout i = 1, 2,..., k, le sous-ensemble de Rni−1 defini par :

ai = xi0 ≤ xi1 ≤ xi2 ≤ ... ≤ xini−1 ≤ xini = bi

Il s’ensuit donc que Iϕ

(ξP1 ,ξP

2 ,...,ξPk

)etant une fonction continue par rapport

aux variables xiji(∀ i = 1, 2,..., k et ∀ ji = 1, 2,..., ni − 1), il existe au moins

un element P de P tel que :

(ξP1 ,ξP

2 ,...,ξPk

)= max

P∈PIϕ

(ξP1 ,ξP

2 ,...,ξPk

)

ce qui nous assure de l’existence, pour n1, n2,..., nk donnes, d’au moins unepartition du support de µX conservant le maximum d’information mutuelle entreles variables X1, X2,..., Xk. Par ailleurs, en vertu de la remarque concernantla fusion de classes contigues, il est clair que le point de S qui represente P

appartient aS.

4 Estimation

4.1 Estimateurs

Dans la pratique, on ne dispose pas en general de la loi du vecteur aleatoireX, mais seulement d’un nombre n d’observations de ce dernier. Plusieurs caspeuvent alors se presenter :

1) Cas des donnees brutes. On ne connaıt que la mesure empirique µnX =

1n

∑r=nr=1 δ (Xr) ou Xr ∈ Rk pour tout r = 1, 2,..., n (ou encore la fonction de

repartition empirique Fn (x) = 1n

∑r=nr=1 I]−∞,x] (Xr) ∀x ∈ Rk). Ce cas peut, en

premiere approximation, se ramener apres quelques transformations a l’un desdeux cas suivants. Nous en donnerons un apercu a la fin du present paragraphe.

2) Cas des donnees classees. On ne connaıt que l’ensemble des classesγiji

des variables aleatoires (Xi), pour i = 1, 2,..., k, ainsi que le nombre

d’observations par “cellule”(une cellule etant, par definition, le produit cartesiende k classes et si ni designe le nombre de classes par variable pour i = 1, 2,...,k, alors il y a exactement

∏i=ki=1 ni cellules que nous noterons : ×i=k

i=1γijiou pour

tout i on a : ji = 1, 2,..., ni). C’est le cas, entre autres, des sondages, desenquetes, des recensements ou les classes sont predeterminees et ou les donneesbrutes sont affectees simplement aux diverses classes.

3) Cas parametrique. Outre la mesure empirique, on sait ou l’on formulel’hypothese, dans un cadre parametrique, que le vecteur aleatoire X suit une loid’un type donne (par exemple une loi normale, une loi exponentielle, une loi dePareto...) dont la densite f (x,θ) depend d’un parametre θ ∈ Θ ⊂ Rm inconnu.

Le cas 2) conduit davantage, dans le cadre continu, a une approximation del’information mutuelle qu’a une estimation proprement dite de celle-ci. De fait

15

si les classes sont fixes, on dispose seulement d’une approximation “discrete”Iϕ

(ξP1 ,ξP

2 ,...,ξPk

)de Iϕ (X1,X2,...,Xk) a l’aide de la partition du support de

µX engendree par le produit des classes.Cependant, si l’on se situe dans le cadre d’un vecteur aleatoire discret dont

la loi, deduite de celle de X, est donnee par :µX

(×i=ki=1γiji

)= p

(γ1j1 ,γ2j2 ,...,γkjk

): ji = 1, 2,..., ni

et dont les lois marginales ont pour expressions :

∑jr : r 6=i

µX

(×r=kr=1γrjr

)= p

(γiji

)

: i = 1, 2,..., k et ji = 1, 2,..., ni

on peut proposer comme estimateur de :

(ξP1 ,ξP

2 ,...,ξPk

)=

∑(j1,j2,...,jk)

(∏i=k

i=1 p(γiji

(p

(γ1j1 ,γ2j2 ,...,γkjk

)∏i=k

i=1 p(γiji

)))

l’expression definie par :

(ξP1 ,ξP

2 ,...,ξPk

)=

∑(j1,j2,...,jk)

(∏i=k

i=1 p(γiji

(p

(γ1j1 ,γ2j2 ,...,γkjk

)∏i=k

i=1 p(γiji

)))

ou p(γ1j1 ,γ2j2 ,...,γkjk

)et p

(γiji

)designent respectivement les frequences rela-

tives empiriques des cellules ×i=ki=1γiji

et des classes γijipour tout i = 1, 2,..., k

et pour tout ji = 1, 2,..., ni.

Dans le cas 3), il semble naturel de choisir comme estimateur de l’informationmutuelle, celle deduite de f

(x,θ

)ou θ est un estimateur de θ . Autrement dit

on choisit comme estimateur de Iϕ (X1,X2,...,Xk), la variable aleatoire definiepar :

Iϕ (X1,X2,...,Xk) =∫

Rk

ϕ

f

(x1,x2,...,xk,θ

)

∏i=ki=1 fi

(xi,θ

)

(∏i=ki=1 fi

(xi,θ

))dx1dx2...dxk

ou encore :

Iϕ (U1,U2,...,Uk) =∫

[0,1]kϕ (c (u1,u2,...,uk,η)) du1du2...duk

dans le cas ou l’on choisit de representer µX sous la forme d’une copule et ou η

designe le parametre η(θ)

associe a la copule.

Enfin dans le cas 1) on peut, soit construire de maniere iterative une “parti-tion produit” ou un “pavage” (voir Darbellay[15]) du support de µX , soit, afin

16

de se ramener au troisieme cas, utiliser un estimateur de la densite obtenu al’aide, par exemple, de la methode des noyaux que l’on presente brievement ci-dessous et dont on trouvera un expose complet et detaille dans Bosq et Lecoutre[8].

Un noyau positif K est une application de Rk dans R+, bornee et d’integrale1 par rapport a la mesure de Lebesgue. On dira de plus qu’il est un noyau deParzen−Rosenblatt si :

lim‖x‖→∞

‖x‖kK (x) = 0

L’estimateur fn (x) de f (x) associe au noyau K est defini alors par :

fn (x) =1

nhkn

r=n∑r=1

K

(x−Xr

hn

)∀ x ∈ Rk

ou hn est un nombre reel positif dependant de n (largeur de la fenetre). Si l’onpose :

Khn (z) =1hk

n

K

(z

hn

)z ∈ Rk

alors fn n’est autre que le resultat du produit de convolution entre µnX et Khn (z)

c’est-a-dire :fn (x) = (Khn ∗ µn

X) (x)

Mentionnons que l’on peut egalement, afin d’estimer la densite f (x), utiliserla methode des plus proches voisins, ou celle de projection ou encore celle desondelettes (voir a ce sujet Bosq et Lecoutre[8]ainsi que Devroye et Lugosi[16])

4.2 Proprietes des estimateurs dans le cas de donneesclassees

4.2.1 Generalites

Le premier cas pouvant etre traite en partie dans le cadre des deux sui-vants, considerons dans un premier temps l’estimateur propose dans le cas 2) etdesignons par X le vecteur aleatoire discret dont la loi, deduite de celle de X,est donnee par :

µX

(×i=ki=1γiji

). Posons alors par commodite d’ecriture :

(X

)=

∑(j1,j2,...,jk)

(∏i=k

i=1 p(γiji

(p

(γ1j1 ,γ2j2 ,...,γkjk

)∏i=k

i=1 p(γiji

)))

=∑

(j1,j2,...,jk)

(∏i=k

i=1 p(γiji

(p

(×i=ki=1γiji

)∏i=k

i=1 p(γiji

)))

17

Or on sait que les estimateurs p(γ1j1 ,γ2j2 ,...,γkjk

)= p

(×i=ki=1γiji

)et p

(γiji

)

sont des estimateurs sans biais et efficaces de p(γ1j1 ,γ2j2 ,...,γkjk

)= p

(×i=ki=1γiji

)

et de p(γiji

)pour tout ji = 1, 2,..., ni et pour tout i = 1, 2,..., k et que de

plus ces derniers convergent en probabilite et en loi vers les valeurs theoriquescorrespondantes. Designons par n

(×i=ki=1γiji

)le nombre d’observations apparte-

nant a la cellule ×i=ki=1γiji

et par n(γiji

)le nombre d’observations appartenant

a la classe γiji. Il vient :

p(×i=k

i=1γiji

)= n

(×i=ki=1γiji

)n et p

(γiji

)=

(n

(γiji

)n

)

avec :n

(γiji

)=

jr : r 6=in

(×r=kr=1γrjr

)

D’ou :

(X

)=

∑(j1,j2,...,jk)

(∏i=k

i=1

(n

(γiji

)n

(n

(×i=ki=1γiji

)n

∏i=ki=1

(n

(γiji

)n

)))

Puisque :

n(×i=k

i=1γiji

)

n

p→ p(×i=k

i=1γiji

)et que :

n(γiji

)

n

p→ p(γiji

) ∀ i, ji

lorsque n → ∞, il s’ensuit, en vertu de la continuite de la fonction ϕ et dutheoreme de Slutsky que :

n(×i=k

i=1γiji

)n

∏i=ki=1

(n

(γiji

)n

) p→ p(×i=k

i=1γiji

)∏i=k

i=1 p(γiji

) ∀ i, ji

(voir Serfling[39]), que :

ϕ

(n

(×i=ki=1γi,ji

)n

∏i=ki=1

(n

(γi,ji

)n

))

p→ ϕ

(p

(×i=ki=1γi,ji

)∏i=k

i=1 p(γi,ji

))

∀ i, ji

et qu’en consequence on a :

(X

)p→ Iϕ

(X

).

Dans le cas particulier ou la fonction ϕ est donnee par : ϕ (t) = tLogt, l’estima-teur Iϕ

(X

)s’exprime sous la forme :

(X

)=

∑(j1,j2,...,jk)

((n

(×i=ki=1γiji

)n

)Log

(n

(×i=ki=1γiji

)n

∏i=ki=1

(n

(γiji

)n

)))

ou encore :

(X

)=

1n

∑(j1,j2,...,jk)

(n

(×i=ki=1γiji

)Log

(n

(×i=ki=1γiji

)∏i=k

i=1 n(γiji

)))

+ (k − 1)Logn

18

qui n’est autre, dans le cas de deux variables, que l’estimateur propose parDarbellay[15]. On notera egalement que si l’on prend ϕ (t) = (t− 1)2 on obtient :

(X

)=

∑(j1,j2,...,jk)

(n

(×i=ki=1γiji

)n−∏i=k

i=1

(n

(γiji

)n

))2

∏i=ki=1

(n

(γiji

)n

)

qui correspond au “χ2 de contingence” dans le cas d’un tableau k−dimensionnel.

L’estimateur Iϕ

(X

)ayant une forme relativement complexe, il n’est pas

possible, en general, de determiner de maniere exacte son esperance et sa va-riance. Cependant en utilisant un developpement limite de Iϕ

(X

)au voisinage

des valeurs p(×i=k

i=1γiji

)on peut obtenir des approximations de E

(Iϕ

(X

))et

de V ar(Iϕ

(X

)). L’expression :

(X

)=

∑(j1,j2,...,jk)

(∏i=k

i=1 p(γiji

(p

(×i=ki=1γiji

)∏i=k

i=1 p(γiji

)))

etant une fonction continue des s =∏i=k

i=1 ni variables p(×i=k

i=1γiji

)telles que :

(j1,j2,...,jk)

p(×i=k

i=1γiji

)= 1 ,

notons respectivement par p et p les vecteurs de Rs definis par vec(p

(×i=ki=1γiji

))

et par vec(p

(×i=ki=1γiji

)). On a alors :

E (p) = p

et :E

((p− p) t (p− p)

)=

1n

(diag (p)− p tp

)=

1n

Σ

ou diag (p) designe la matrice diagonale de format s × s et dont les elementsnon nuls sont les composantes du vecteur p. De plus, en vertu de la versionmultidimensionnelle du theoreme central limite, on a :

√n (p− p) L→ N (0,Σ))

ou encore :

p à AN

(p,

1n

Σ)

ou le symbole à AN designe l’expression : asymptotiquement normal.Notant par g (p) la fonction de Rs dans R donnee par :

g (p) =∑

(j1,j2,...,jk)

(∏i=k

i=1 p(γiji

(p

(×i=ki=1γiji

)∏i=k

i=1 p(γiji

)))

19

on obtient, au voisinage de p, a l’aide de la version multidimensionnelle dutheoreme de Taylor et en supposant que les conditions de differentiabilite re-quises portant sur g soient remplies, le developpement limite de g (p), jusqu’al’ordre m− 1, suivant :

g (p)− g (p) =m−1∑

k=1

1k!

s∑r1=1

s∑r2=1

. . .

s∑rk=1

∂kg (u1,u2,...,us)∂ur1∂ur2 . . . ∂urk

∣∣∣∣u=p

k∏

j=1

(prj

− prj

)

+1m!

s∑r1=1

s∑r2=1

. . .

s∑rn=1

∂ng (u1,u2,...,us)∂ur1∂ur2 . . . ∂urn

∣∣∣∣u=z

m∏

j=1

(prj

− prj

)

ou z est de la forme: z = p + t (p− p) t ∈ ]0,1[.

Le developpement limite a l’ordre 2 s’exprime alors sous la forme :

g (p) = g (p) + t Gradg|p (p− p) +12!

t (p− p) D(2)g∣∣∣p(p− p)

+13!

s∑r1=1

s∑r2=1

s∑r3=1

∂3g (u1,u2,...,us)∂ur1∂ur2∂ur3

∣∣∣∣u=z

3∏

j=1

(prj − prj

)

ou Gradg|p et D(2)g∣∣p

designent respectivement le gradient et la matrice hes-sienne de la fonction g, evalues en u = p.

Notant que g (p) = Iϕ

(X

), il decoule de la convergence en loi de p que (voir

par exemple Serfling[39]) :

g (p) Ã AN

(g (p) ,

1n

t Gradg|p Σ Gradg|p)

c’est-a-dire :√

n(Iϕ

(X

)− Iϕ

(X

)) L→ N(0, t Gradg|p Σ Gradg|p

)

qui est une forme plus explicite du resultat general presente en 2.3).

Enfin notons que si l’on effectue une partition des classes initiales, l’ap-proximation de Iϕ (X) a l’aide de Iϕ

(X

)est plus precise. Cependant dans la

pratique, il n’est pas toujours possible de proceder a cette operation de sorteque Iϕ

(X

)demeure une approximation de Iϕ (X) , mais constitue neanmoins

un estimateur de l’information mutuelle pour la mesure de probabilite definiepar :

µX

(×i=ki=1γiji

)

20

4.2.2 Esperance

En prenant l’esperance des deux membres du developpement limite a l’ordre2 precedent, on a :

E(Iϕ

(X

))= Iϕ

(X

)+

12!E

(t (p− p) D(2)g

∣∣∣p(p− p)

)

+13!

s∑r1=1

s∑r2=1

s∑r3=1

∂3g (u1,u2,...,us)∂ur1∂ur2∂ur3

∣∣∣∣u=z

E

3∏

j=1

(prj − prj

)

avec :∣∣∣∣E(Iϕ

(X

))− Iϕ

(X

)− 1

2!E

(t (p− p) D(2)g

∣∣∣p(p− p)

)∣∣∣∣ = o ‖p− p‖3

Il s’ensuit que les approximations d’ordre 1 et 2 de E(Iϕ

(X

))sont donnees

respectivement par :Iϕ

(X

)

et par :

(X

)+

12!E

(t (p− p) D(2)g

∣∣∣p(p− p)

)

ou E(

t (p− p) D(2)g∣∣p(p− p)

)est donne par :

1n

∑(i,j)

∂2g

∂p2ij

pij (1− pij)− 1n

∑(i,j)

∑(i′,j′ 6=i,j)

∂2g

∂pij∂pi′j′pijpi′j′

4.2.3 Variance

Afin de trouver une approximation de la variance de g (p) = Iϕ

(X

), considerons

la quantite g (p)− E (g (p)). Il vient :

g (p)− E (g (p)) = t Gradg|p (p− p) +12!

t

(p− p) D(2)g∣∣∣p(p− p)

− 12!E

(t (p− p) D(2)g

∣∣∣p(p− p)

)

+13!

s∑r1=1

s∑r2=1

s∑r3=1

∂3g (u1,u2,...,us)∂ur1∂ur2∂ur3

∣∣∣∣u=z

3∏

j=1

(prj − prj

)

− 13!

s∑r1=1

s∑r2=1

s∑r3=1

∂3g (u1,u2,...,us)∂ur1∂ur2∂ur3

∣∣∣∣u=z

E

3∏

j=1

(prj − prj

)

et donc :∣∣∣∣∣∣

g (p)− E (g (p))− t Gradg|p (p− p)− 12!

t

(p− p) D(2)g∣∣p(p− p)

+ 12!E

(t (p− p) D(2)g

∣∣p(p− p)

)∣∣∣∣∣∣

21

est un o(‖p− p‖3

). En elevant au carre les deux membres de l’egalite ci-dessus,

on obtient comme expression de (g (p)− E (g (p)))2 :

14

[t (p− p) D(2)g

∣∣∣p(p− p)− E

(t (p− p) D(2)g

∣∣∣p(p− p)

)]2

+ t Gradg|p (p− p)[

t (p− p) D(2)g∣∣∣p(p− p)

]

− t Gradg|p (p− p)[E

(t (p− p) D(2)g

∣∣∣p(p− p)

)]

+(

t Gradg|p (p− p))2

+ h (p)

ou h (p) est une fonction ne comportant que des puissances superieures ou egalesa 3. En prenant l’esperance des deux membres de l’egalite ci-dessus, en isolantles termes de puissances inferieures ou egales a 2 des autres et en tenant comptedu fait que E (p− p) = 0, on a :

V ar (g (p)) = E[

t Gradg|p (p− p) t (p− p) Gradg|p]

−14

[E

(t (p− p) D(2)g

∣∣∣p(p− p)

)]2

+ E (h′ (p))

ou E (h′ (p)) ne fait intervenir que des moments centres d’ordres superieurs ouegaux a 3.

Ainsi l’approximation d’ordre 1 de V ar (g (p)) est donnee par :

E[

t Gradg|p (p− p) t (p− p) Gradg|p]

=1n

tGradg∣∣pΣ Gradg|p

c’est-a-dire :

1n

∑(i,j)

(∂g

∂pij

)2

pij (1− pij)− 1n

∑(i,j)

∑(i,j′ 6=i,j)

∂g

∂pij

∂g

∂pi′j′pijpi′j′

Quant a l’approximation d’ordre 2, cette derniere a pour expression :

1n

tGradg∣∣pΣ Gradg|p −

14

[E

(t (p− p) D(2)g

∣∣∣p(p− p)

)]2

4.2.4 Exemple

Considerons, afin de simplifier les calculs, le cas de deux variables X1 et X2

possedant respectivement n1 et n2 valeurs ou modalites et considerons egalementpour fonction ϕ la fonction donnee par ϕ = tLogt. Il vient, a l’aide des notationsusuelles :

(X

)=

∑j1,j2

(p

(γ1j1 ,γ2j2

)Log

(p

(γ1j1 ,γ2j2

)

p(γ1j1

)p

(γ2j2

)))

=∑i,j

(pijLog

(pij

pipj

)): i = 1, 2,..., n1 , j = 1, 2,..., n2

22

ou :pi =

∑j

pij ; pj =∑i

pij

La fonction g (p) definie sur Rn1n2 est donc donnee par :

g (p) =∑i,j

(pijLog

(pij

pipj

))

sous la condition : ∑i,j

pij = 1

On a alors, en considerant le developpement limite d’ordre 1 :

g (p) = g (p) + t Gradg|p (p− p) + o ‖p− p‖2

Or :

∂pij

(pijLog

pij

pipj

)=

∂pij

pijLog

pij(∑j pij

)(∑

i pij)

=∂

∂pij

(pijLog (pij)− pijLog

(∑j

pij

)− pijLog

(∑i

pij

))

= Log (pij) + 1− Log (pi)− Log (pj)− pij

pi− pij

pj

D’ou :

t Gradg|p (p− p) =∑i,j

(Log

pij

pipj+ 1− pij

pi− pij

pj

)(pij − pij)

=∑i,j

(Log

pij

pipj− pij

pi− pij

pj

)(pij − pij)

Ainsi on obtient comme valeur approchee de g (p) :

g (p) =∑i,j

pijLogpij

pipj+

∑i,j

(Log

pij

pipj− pij

pi− pij

pj

)(pij − pij) + o ‖p− p‖2

=∑i,j

pijLogpij

pipj−∑

i,j

(pij

pi+

pij

pj

)(pij − pij) + o ‖p− p‖2

Cette approximation est, au terme median pres, celle obtenue par Moddemeijer[30].

On retrouve alors sans peine sous cette forme que :

E (g (p)) = E(ItLogt

(X

))=

∑i,j

pijLogpij

pipj+ o ‖p− p‖2

= ItLogt (X1,X2) + o ‖p− p‖2

23

En ce qui concerne l’approximation d’ordre 1 de la variance de Iϕ

(X

)il vient :

V ar (g (p)) =1n

tGradg∣∣pΣ Gradg|p + o ‖p− p‖4

ou Σ = (diag (p)− p tp).

Rappelant que p = vec (pij) ∈ Rn1n2 , on obtient comme approximationd’ordre 1 de V ar (g (p)) :

1n

∑i,j

(Log

pij

pipj− pij

pi− pij

pj

)2

pij (1− pij)

− 1n

∑(i,j)

∑(i,j′ 6=i,j)

(Log

pij

pipj− pij

pi− pij

pj

)(Log

pi′j′

pi′pj′− p

i′j′

pi′− pi′j′

pj′

)pijpi′j′

+o ‖p− p‖4

En consequence, on peut prendre comme estimateur V ar (g (p)) de V ar (g (p)),l’expression definie par :

1n

∑i,j

(Log

pij

pipj− 1

n

pij

pi− pij

pj

)2

pij (1− pij)

− 1n

∑(i,j)

∑(i,j′ 6=i,j)

(Log

pij

pipj− pij

pi− pij

pj

)(Log

pi′j′

pi′ pj′− p

i′j′

pi′− pi′j′

pj′

)pij pi′j′

Quant a l’approximation d’ordre 2 donnee par :

1n

tGradg∣∣pΣ Gradg|p −

14

[E

(t (p− p) D(2)g

∣∣∣p(p− p)

)]2

il vient, en vertu du fait que :

∂pi′j′

(∂

∂pij

(pijLog

pij

pipj

))= 0 ∀ (i,j) , (i′,j′) : (i,j) 6= (i′,j′)

et que :

∂2

∂p2ij

(pijLog

pij

pipj

)=

1pij

− 2(

1pi

+1pj

)+ pij

(1p2

i

+1p2

j

),

E(

t (p− p) D(2)g∣∣∣p(p− p)

)=

1n

∑(i,j)

∂2

∂p2ij

(pijLog

pij

pipj

)pij (1− pij)

On obtient donc ainsi une expression de l’approximation d’ordre 2 de V ar (g (p))relativement aisee a calculer.

24

4.3 Proprietes des estimateurs dans le cas parametrique

4.3.1 Generalites

Dans ce cas, on suppose que le vecteur aleatoire X suit une loi d’un typedonne dont la densite f (x,θ) depend d’un parametre inconnu θ ∈ Θ ⊆ Rm.

L’information mutuelle :

Iϕ (X,θ) =∫

Rk

ϕ

(f (x1,x2,...,xk,θ)∏i=k

i=1 fi (xi,θ)

) (∏i=ki=1 fi (xi,θ)

)dx1dx2...dxk

est alors une fonction g (θ) = g (θ1,θ2,...,θm) de Rm dans R. Designons par θ unestimateur de θ et soit :

(X,θ

)=

Rk

ϕ

f

(x1,x2,...,xk,θ

)

∏i=ki=1 fi

(xi,θ

)

(∏i=ki=1 fi

(xi,θ

))dx1dx2...dxk

l’estimateur de l’information mutuelle correspondant.

Il est clair que les proprietes de l’estimateur Iϕ

(X,θ

)sont etroitement liees

a celles de l’estimateur θ de θ en raison du fait que, en general, Iϕ (X,θ) estune fonction continue de θ. Ainsi si θ est un estimateur du maximum de vrai-semblance de θ, on sait (voir Lehmann [26], Serfling[39]) qu’il existe, sous desconditions peu restrictives, une suite

(θn

)de solutions du systeme d’equations

de vraisemblance qui converge presque surement vers θ et que pour une tellesuite on a : √

n(θn − θ

) L→ N(0,I−1X )

ou IX designe la matrice d’information de Fisher de X relativement a Θ. Ils’ensuit, sous des conditions assez generales de regularite portant sur la fonc-tion g (θ),(voir Serfling[39]) que Iϕ

(X,θ

)est un estimateur du maximum de

vraisemblance de Iϕ (X,θ) et que :

√n

(Iϕ

(X,θn

)− Iϕ (X,θ)

) L→ N(0, tGradg∣∣θI−1

X Gradg|θ)

pour autant que Gradg|θ soit different de zero.

25

4.3.2 Exemples

1) Considerons la fonction ϕ (t) = tLogt. On a dans ce cas :

Iϕ (X,θ) =∫

Rk

ϕ

(f (x,θ)∏i=k

i=1 fi (xi,θ)

)(∏i=ki=1 fi (xi,θ)

)dx1dx2...dxk

=∫

Rk

f (x,θ) Log

(f (x,θ)∏i=k

i=1 fi (xi,θ)

)dx1dx2...dxk

=∫

Rk

f (x,θ) Log (f (x,θ)) dx1dx2...dxk

−i=k∑i=1

Rfi (xi,θ)Log (fi (xi,θ)) dxi

ou encore :

Iϕ (X,θ) = E (Log (f (X,θ)))−i=k∑i=1

E (Log (fi (Xi,θ)))

Dans le cas d’une loi normale multidimensionnelle N (µ,Σ) de Rk, il vient, al’aide des notations habituelles :

Iϕ (X,Σ) = −12Log

((2π)k detΣ

)− 1

2E

(t (X − µ)Σ−1 (X − µ)

)

+Log

(i=k∏i=1

√2πeσXi

)

=k

2+

12Log

(∏i=ki=1 σ2

Xi

detΣ

)− 1

2E

(t (X − µ) Σ−1 (X − µ)

)

=12Log

(∏i=ki=1 σ2

Xi

detΣ

)

et par consequent l’estimateur Iϕ

(X,θ

)de l’information mutuelle a pour ex-

pression :

(X,Σ

)=

12Log

(i=k∏i=1

σ2Xi

(det Σ

)−1)

ou Σ designe l’estimateur du maximum de vraisemblance de Σ. De plus puisqueΣ

p→ Σ il decoule de l’egalite precedente que :

(X,Σ

)p→ Iϕ (X,Σ)

Dans le cas particulier ou la matrice Σ est de la forme : Σ = (1− ρ) I+ρJ(matrice d’equicorrelation) avec ρ > 0 (sinon il suffit de prendre ρ′ = |ρ|) ilvient :

detΣ = (1− ρ)k−1 (1 + ρ (k − 1)) ρ 6= 1 , − (k − 1)−1

26

(voir Mardia, Kent et Bibby[27]) et donc :

Iϕ (X,ρ) = −12Log

((1− ρ)k−1 (1 + ρ (k − 1))

)

On remarquera que : Iϕ (X,0) = 0 et limρ→1

Iϕ (X,ρ) = ∞.

Ainsi si ρ designe l’estimateur du maximum de vraisemblance de ρ nousaurons comme estimateur de l’information mutuelle :

−12Log

((1− ρ)k−1 (1 + ρ (k − 1))

)

Or :√

n (ρ− ρ) L→ N

(0,

(1− ρ2

)2

1 + ρ2

)

(voir Lehmann[26]) et par consequent il vient, tenant compte du fait que :

∂ρIϕ (X,ρ) =

ρk (k − 1)2 (1− ρ) (1 + ρ (k − 1))

√n

(Iϕ (X,ρ)− Iϕ (X,ρ)

) L→ N

(0,

14

ρ2k2 (k − 1)2 (1 + ρ)2

(1 + ρ (k − 1))2 (1 + ρ2)

)

2) Considerons, comme autre exemple, la loi de Gumbel bidimensionnelleGm (α) de parametre α, dont la fonction de repartition est donnee par :

FX1,X2 (x1,x2) =(1− e−x1

) (1− e−x2

) (1 + αe−x1−x2

)x1,x2 ≥ 0 ; −1 ≤ α ≤ 1

La copule associee (U1,U2) admet pour fonction de repartition :

FU1,U2 (u1,u2) = u1u2 (1 + α (1− u1) (1− u2))

et pour densite de probabilite :

fU1,U2 (u1,u2) = 1 + α (1− 2u1) (1− 2u2) I[0,1]2 (u1,u2)

Si l’on choisit la fonction ϕ (t) = (t− 1)2, il vient :

Iϕ (X,α) = Iϕ (U,α) = α2

∫ 1

0

∫ 1

0

(1− 2u1)2 (1− 2u2)

2du1du2 =

α2

9

Par ailleurs un simple calcul montre que : α = 4ρX1,X2(alors que : α = 3ρU1,U2

).

Ainsi si ρ designe l’estimateur usuel de ρX1,X2nous aurons comme estimateur

de l’information mutuelle :

Iϕ (X,α) =(

43ρ

)2

27

Or l’on sait (voir Serfling[39]), en designant par n le nombre d’observations duvecteur X, que : √

n (ρ− ρ) L→ N(0,taΣa

)

ou a est un vecteur ne faisant intervenir que les moments d’ordres 1 et 2 de laloi de X = (X1,X2) et ou Σ est la matrice de variance-covariance du vecteur :

(X1, X2,

1n

∑i=ni=1 X2

1i,1n

∑i=ni=1 X2

2i,1n

∑i=ni=1 X1iX2i

)

Il decoule alors de cette propriete que :

√n

(Iϕ (X,α)− 16

9ρ2

)L→ N

(0,

649

ρ2(taΣa

))

et que :

Iϕ (X,α)p→ 16

9ρ2

4.4 Proprietes des estimateurs dans le cas des donneesbrutes

Ce dernier cas, plus complexe que les precedents, s’avere cependant assezfrequent dans la pratique. La principale difficulte, hormis les aspects numeriques,reside dans l’estimation de la mesure de probabilite µX dont les observations oules donnees sont issues.

En effet, ne connaissant que la mesure empirique µnX = 1

n

∑r=nr=1 δ (Xr) ou

Xr ∈ Rk pour tout r = 1, 2,..., n, on peut proceder, a l’aide de simples comp-tages, a l’estimation de la mesure des elements d’une partition du domaine duvecteur aleatoire X et se ramener ainsi au cas de donnees classees. Cependantcette approche souffre d’un inconvenient serieux a savoir le choix arbitraire deselements de la partition du domaine de X puisque il n’est pas possible, dans cecontexte, de determiner une partition optimale de ce dernier! On peut egalementutiliser soit un estimateur a noyau, soit un estimateur a pas fixe, de la densitede µX .

Mais ici une autre difficulte surgit puisque, en dehors a nouveau d’une partd’arbitraire dans le choix du noyau ou du pas, se pose alors le calcul de l’in-formation mutuelle a l’aide de l’expression d’une densite de forme tres souventfort complexe et obligeant le recours a des techniques d’integration numeriques.Bien que d’un usage relativement peu aise, cette derniere approche, en raisondes proprietes asymptotiques des estimateurs de densite, semble neanmoins lamieux adaptee au probleme pose.

Nous rappelons ci-dessous quelques proprietes concernant ces estimateurs(pour un expose detaille sur le sujet, on pourra consulter l’ouvrage de Bosq etLecoutre[8]). Dans le cas d’un estimateur a noyau de la densite f (x) de µX ,on sait qu’un noyau (le plus souvent positif) K est une application de Rk dans

28

R+, bornee et d’integrale 1 par rapport a la mesure de Lebesgue. L’estimateurfn (x) de f (x) associe au noyau K est alors defini par :

fn (x) =1

nhkn

r=n∑r=1

K

(x−Xr

hn

)= (Khn

∗ µnX) (x) ∀ x ∈ Rk

ou hn est un nombre reel positif dependant de n (largeur de la fenetre).

Posant :

Khn (z) =1hk

n

K

(z

hn

)z ∈ Rk

on remarque que fn n’est autre que le resultat du produit de convolution entreµn

X et Khn(z). On dira de plus qu’il est un noyau de Parzen−Rosenblatt si :

lim‖x‖→∞

‖x‖kK (x) = 0

Parmi les noyaux usuels de ce type citons, entre autres, les suivants :

K (x) = I[−1/2, 1/2]k (x) : Noyau a fenetre mobile

K (x) =12kI[−1, 1]k (x) : Noyau cubique

K (x) = V −1k I

B(x) ou B est la boule unite de Rk de volume Vk :

Noyau spherique

K (x) =1

(2π)k/2 (detΣ)1/2e−

12

txΣ−1x : Noyau normal

K (x) = C(1− ‖x‖2 /r2

)I[0,r] (‖x‖) ou C > 0 est une constante de normalisation :

Noyau d’Epanechnikov

En particulier en ce qui concerne le dernier noyau, celui-ci presente d’interessantesproprietes d’optimalite asymptotique suivant le critere de “l’erreur quadratiqueintegree” dont l’expression est donnee par :

∫E (fn (x)− f (x))2 dx

En ce qui concerne les proprietes de convergence de fn (x) vers f (x) ainsi quepour les choix pratiques de K et de hn on pourra consulter Bosq et Lecoutre[8].Comme mentionne precedemment, il existe d’autres estimateurs de la densitecomme les estimateurs a pas fixes, ceux deduits de la methode des plus prochesvoisins ou encore ceux associes a l’estimation de la densite par projection. Ilexiste une abondante litterature sur ces sujets et les proprietes, dans ce contexte,de convergence de Iϕ

(X

)vers Iϕ (X) necessiterait a elles seules une etude a

part tant sur le plan theorique que sur le plan empirique (choix des noyaux,des largeurs de fenetres, simulations,...). Nous nous proposons dans un prochaintravail d’etudier plus particulierement ces differents aspects.

29

5 Codage optimal

5.1 Principe

Supposons que, pour les besoins d’une analyse statistique, l’on doive creer,sur un ensemble d’individus, des classes de tailles et des classes de poids. Habi-tuellement on procede en choisissant pour chaque variable et ce independammentl’une de l’autre, un ensemble de classes dont la determination du nombre et dela largeur est, le plus souvent, affaire d’habitude et de pratique (par exemple desclasses de largeur 5cm pour les tailles et de largeur 5kg pour les poids). Plutotque de proceder a ce codage de facon plus ou moins arbitraire, on pourraitplutot, en exploitant la connaissance a priori de l’information mutuelle entre lesvariables “taille” et “poids”, proceder a un codage simultane de ces dernieresafin de conserver le maximum de l’information disponible avant codage. Cetteapproche conduira en general a des classes de largeurs inegales pour chacunedes variables.

Plus precisement soit, en se placant dans le cadre continu, X = (X1,X2,...,Xk)un vecteur aleatoire defini sur le domaine D = ×i=k

i=1Di ou Di ⊆ R designe le do-maine de la variable Xi pour tout i = 1, 2,..., k et dont la mesure de probabiliteµX est connue ou estimee a l’aide de methodes usuelles. Supposons que l’on fixepour chacune des composantes Xi de X, le nombres ni de classes a construireet que l’on fasse par ailleurs choix d’une fonction ϕ.

Le principe du codage optimal consiste alors, en utilisant les resultats du pa-ragraphe 3, a determiner une partition P de D = ×i=k

i=1Di en∏i=k

i=1 ni elementsde sorte que la perte d’informatiom mutuelle consecutive a l’operation de co-dage, soit la plus petite possible. On sait qu’une telle partition existe et qu’elleest obtenue comme solution d’un probleme d’optimisation sous contraintes, aΣi=k

i=1ni − k variables. Il va de soit que le recours a un logiciel tel, par exempleque Maple, est indispensable dans ce contexte.

5.2 Exemple

L’exemple qui suit est emprunte a Tibeiro [42] et illustre les propos ci-dessus.Sur l’ensemble [0,1]2, on considere la mesure de probabilite dont la densite,

par rapport a la mesure de Lebesgue, est donnee par :

f (x,y) = (x + y) I[0,1]×[0,1] (x,y)

et l’on prend pour fonction ϕ (t) celle qui correspond a la metrique du χ2, c’est-a-dire ϕ (t) = (t− 1)2. Un calcul elementaire montre alors que I(t−1)2 (X,Y ) =9× 10−3. Ayant fait choix des valeurs n1 = n2 = 3 on trouve a l’aide du logicielMaple une partition optimale de [0,1]2 en 9 elements telle qu’illustree par lafigure ci-apres.

En raison de la symetrie de la loi du vecteur (X,Y ) les variables aleatoiresξP1 ,ξP

2 sont identiques et les calculs montrent que la loi conjointe µξP1 ,ξP

2est

30

Fig. 1 – Partition optimale P de [0,1]2 en 9 elements

donnee par :

µξP1 ,ξP

2=

ξP1 ξP

2 [0, 0,2211[ [0,2211, 0,54[ [0,54, 1][0, 0,2211[ 0,0108 0,0346 0,0895

[0,2211, 0,54[ 0,0346 0,0774 0,1687[0,54, 1] 0,0895 0,1687 0,3258

que les lois marginales sont donnees par :

µξP1

= µξP2

= (0,1349 , 0,2807 , 0,584)

et que : I(t−1)2

(ξP1 ,ξP

2

)= 7 × 10−3, soit 77% de l’information mutuelle ini-

tiale entre les variables X et Y . Une partition optimale de [0,1]2 en 4 elementsdonnerait :

µξP1 ,ξP

2=

ξP1 ξP

2 [0, 0,361[ [0,361, 1[[0, 0,361[ 0,05 0,205[0,361, 1[ 0,205 0,54

µξP1

= µξP2

= (0,255 , 0,745)

avec : I(t−1)2

(ξP1 ,ξP

2

)= 5 × 10−3, soit 55% de l’information mutuelle initiale.

Bien entendu, si l’on choisit une autre fonction ϕ on obtiendra une partitionoptimale de [0,1]2 differente de la precedente.

31

Lorsque les observations portent sur des variables aleatoires discretes (dansla pratique les valeurs de ces variables seront le plus souvent entieres), la re-cherche des classes optimales s’avere plus compliquee que dans le cas precedent.puisque l’on ne peut dans ce contexte, utiliser les techniques habituelles del’analyse. On doit alors, soit utiliser des methodes d’optimisation en nombresentiers (methodes s’averant en general fort complexes), soit recourir, comme ilest d’usage de le faire dans la pratique, a des approximations ou a des heuris-tiques. On pourra consulter a ce sujet Beasley [7].

Cet exemple traite egalement du cas ou le vecteur aleatoire X est a supportnon borne, puisque, dans le cadre retenu nous pouvons, grace a la representationde µX sous forme de copule, nous ramener a un codage sur le cube [0,1]k par lebiais de la transformation :

Ui = Fi (Xi) ∀ i = 1, 2,..., k

Ayant alors determine le codage optimal pour le vecteur U = (U1,U2,...,Uk), ilsuffira d’utiliser la transformation inverse :

Xi = F−1i (Ui) ∀ i = 1, 2,..., k

afin de determiner les bornes des classes pour les variables initiales puisque latransformation inverse conserve egalement l’information mutuelle.

6 Classification

6.1 Generalites

Les notions d’information mutuelle et de divergence, peuvent conduire a descriteres et des algorithmes de classification permettant de tirer profit de l’in-formation de masse disponible dans les grands ensembles de donnees. Dans lecas, par exemple, ou les donnees sont assimilables a des tableaux de contin-gence (a n variables), il est possible d’utiliser l’aspect probabiliste de ce type dedonnees afin de rendre compte de la proximite de deux ou plusieurs observations.

Supposons, a titre d’illustration, que l’on dispose dans un ensemble de donneesmedicales, d’une correspondance ternaire croisant les modalites des variablescauses de deces, categories socio-professionnelles et activites physiques. Si l’ons’interesse plus particulierement aux causes de deces, on peut vouloir, pour di-verses raisons, regrouper les causes en fonction de leurs liens avec les categoriessocio-professionnelles et les activites physiques. Si l’on desire proceder a uneclassification hierarchique des causes, il semble alors naturel, dans ce contexte,d’adopter comme strategie d’agregation (apres avoir fait choix d’une definitionde representant par classe comme par exemple le profil qui rend la classe la plushomogene possible), celle qui consiste a regrouper les causes dont les profilspresentent la plus petite divergence possible (ou, ce qui revient au meme, lescauses pour lesquelles les informations mutuelles conditionnelles entre les deux

32

autres variables sont les plus semblables).Enfin parmi les fonctions ϕ que l’on peut choisir, certaines correspondent

a des metriques (distance en variation, distance de Hellinger, distance du χ2)alors que d’autres non ; dans ce dernier cas, on pourrait vouloir choisir, pourdiverses raisons, une version symetrique de la divergence a l’aide, non pas de lafonction ϕ directement, mais de la fonction ϕ en considerant l’expression :

ϕ (t) = ϕ (t) + tϕ

(1t

)

Considerons a titre d’exemple, deux ensembles de variables aleatoires quel-conques X = (X1,X2,...,Xp) et Y = (Y1,Y2,...,Yq) de densite conjointe f (x,y)et soient :

ui =(X(i),Y(i)

)i = 1,2,...,n

n observations du couple (X,Y ). Les donnees peuvent alors se presenter sousla forme de deux tableaux juxtaposes X et Y pouvant etre, eventuellement, denatures tres diverses. Ainsi X peut etre associe a des mesures ou a des notesalors que Y peut etre associe a des comptages ou a des effectifs.

X YX1 X2 ... Xi ... Xp Y1 Y2 ... Yj ... Yq

u1 x11 x21 xi1 xp1 y11 y21 yj1 yq1

u2 x12 x22 xi2 xp2 y12 y22 yj2 yq2

...uk x1k x2k xik xpk y1k y2k yjk yqk

...un x1n x2n xin xpn y1n y2n yjn yqn

Dans ce cas, les methodes d’analyses usuelles ne peuvent s’appliquer tellesquelles car dans le present contexte, le “profil” par exemple de la ieme ob-servation ui, ne peut pas, en raison meme de l’heterogeneıte des mesures, seconcevoir raisonnablement en considerant comme element de normalisation, letotal de la ligne i. A titre d’exemple, considerons un processus ponctuel marquepossedant r etats e1, e2,..., er et supposons que l’on dispose de n realisationsde ce processus, pour lesquelles on note les temps de sejour t1, t2,..., tr danschaque etat ainsi que le nombre de changements d’etats, soit d’ordre un soitd’ordre deux.

Le tableau de donnees sera donc dans ce cas obtenu comme la juxtapositionde deux tableaux X et Y, l’un X associe aux temps de sejour, l’autre Y associeau comptage des changements d’etats d’ordre un ou deux. Dans ce cas X serade format n× r, alors que Y sera de format n× r (r − 1) (ordre 1) ou de formatn× r (r − 1)2 (ordre 2).

En revanche, en considerant independamment l’un et l’autre les tableaux Xet Y, il est possible de definir de maniere usuelle le profil de la ligne i, assimilable

33

a des mesures de probabilite (l’une dans Rp et l’autre dans Rq), donne a l’aidede notations evidentes par :

(xijxi· ; j = 1, 2,..., p , yikyi· ; k = 1, 2,..., q)Ainsi, chaque observation peut etre vue comme une mesure de probabilite em-pirique sur (Rp × Rq , BRp⊗BRq ) pour laquelle les tableaux X et Y permettentd’estimer les mesures de probabilite marginales. Cependant, cette facon depresenter les donnees, ne permet pas d’obtenir une estimation de la loi conjointedu couple (X,Y ) et donc ne permet pas d’exploiter a des fins d’analyses, l’in-formation mutuelle entre les variables X et Y .

6.2 Position du probleme

6.2.1 Introduction

Disposant d’un tableau de donnees tel que decrit ci-dessus, on desire, parexemple dans le cas ou les conditions de realisations d’un processus sont mo-difiees (cas d’un processus biologique dont les conditions experimentales sontmodifiees), effectuer une classification hierarchique des observations afin deverifier si les conditions qui ont ete modifiees, ont une influence reelle surl’evolution du processus (difference significative entre les temps de sejours ounombre de changements d’etats significativement differents).

A cette fin, on peut penser a definir un indice de similarite entre les obs-servations (ou un indice de dissimilarite) et proceder, suivant les techniqueshabituelles a la construction de la hierarchie. Cependant, l’heterogeneıte desdeux ensembles de variables, complique singulierement la situation. En effet, s’ilsemble aise dans ce cas d’interpreter le fait que deux observations soient tressemblables (temps de sejours et nombre de changements d’etats peu differents),il semble beaucoup plus delicat d’interpreter le fait que deux observations soienttres dissemblables dans la mesure ou l’indice considere de la dissimilarite ne per-met pas en general d’isoler la part de celle due aux variables X de celle due auxvariables Y. La question est donc de savoir comment construire un indice, qu’ilsoit de similarite ou de dissimilarite, sans que l’un des ensembles X ou Y yprenne part de facon preponderante et ce au detriment de l’autre.

Il semblerait que la reponse a cette question n’accorde que peu d’interet auxindices construits a l’aide des metriques usuelles en raison principalement de leurgrande sensibilite aux variations d’echelles. En revanche, l’aspect probabilistemis en evidence par les profils xijxi· et yikyi· pour i = 1, 2,..., n ,j = 1, 2,..., p et k = 1, 2,..., q permet de presenter les donnees sous une formehomogene a partir de laquelle il est possible de construire un indice de similarite(ou de dissimilarite) soit en faisant appel de nouveau a diverses metriques (χ2,Hellinger, distance en variation, distance de Minkowski...) soit, si l’on desires’affranchir entierement de l’aspect metrique, en faisant appel a la notion dedivergence generalisee dont on rappelle ci-dessous, dans le cas fini, la definitionainsi que quelques proprietes (voir egalement le paragraphe 2).

34

6.2.2 Divergence generalisee

Soit (I, P (I)) un ensemble mesurable tel que Card (I) = r et soient Pet Q deux mesures de probabilite definies sur P (I) et absolument continuesl’une par rapport a l’autre. Etant donnee une fonction ϕ convexe de R+\ 0dans R satisfaisant aux conditions enoncees dans le paragraphe 2, on appelledivergence generalisee (ou ϕ−divergence) entre les mesures de probabilite P etQ, la quantite definie par :

Dϕ (P,Q) =r∑

i=1

ϕ

(pi

qi

)qi = EQ

(dPdQ

)]

On sait par ailleurs que Dϕ (P,Q) ≥ ϕ (1) l’egalite n’ayant lieu que si et seule-ment si P = Q en autant que ϕ soit strictement convexe en t = 1.

Il est clair, en general, que Dϕ (P,Q) 6= Dϕ (Q,P). Il existe alors une versionsymetrisee de la divergence associee a la fonction ϕ donnee par :

ϕ (t) = ϕ (t) + tϕ

(1t

)

Il vient alors :

Dϕ (P,Q) =r∑

i=1

(pi

qi

)+

pi

qiϕ

(qi

pi

)]qi

=r∑

i=1

ϕ

(pi

qi

)qi +

r∑i=1

ϕ

(qi

pi

)pi

= EQ[ϕ

(dPdQ

)]+ EP

(dQdP

)]

Si l’on desire, pour des raisons de normalisation ou de comparaison, conserverl’inegalite Dϕ (P,Q) ≥ ϕ (1) on doit choisir ϕ tel que :

ϕ (t) = λϕ (t) + (1− λ) tϕ

(1t

)

ou λ ∈ ]0,1[.On notera alors, si besoin est, la divergence associee a cette fonction par :

Dϕ,λ (P,Q). Il est clair que Dϕ (P,Q) = Dϕ (Q,P) mais que Dϕ,λ (P,Q) = Dϕ,λ (Q,P)que si et seulement si λ = 1

2 et qui dans ce cas, generalise la notion de rayond’information tel qu’introduit par Sibson (voir Sibson[40] ainsi que Jardine etSibson[25])

6.2.3 Construction d’un indice de dissimilarite

Considerons a nouveau un tableau de donnees tel qu’introduit precedemmentet obtenu par la juxtaposition des tableaux associes respectivement a X et Y .Notons par µi et λi les mesures de probabilite empiriques associees a la ieme

35

observation et de supports Sp et Sq ou Sp et Sq designent les simplexes de Rp

et de Rq.Ainsi, toute observation i (i = 1, 2,..., n) peut etre consideree comme un

element (µi,λi) appartenant a Sp×Sq ⊆ Rp×Rq et l’indice de dissimilarite doitprendre en compte simultanement les mesures de probabilite µi et λi. Afin demesurer l’ecart entre deux mesures de probabilite, nous avons vu dans ce quiprecede que nous pouvons envisager comme indice de dissimilarite (ou de simi-larite au besoin en posant, si d designe l’indice de dissimilarite : s = (1 + d)−1),la divergence (version symetrisee ou non) entre les mesures considerees. Le faitque la divergence ne soit pas naturellement symetrique, double du fait que laversion symetrique ne soit pas d’un emploi particulierement aise, nous amene aproposer l’approche suivante.

Considerons trois mesures de probabilite P = pi, Q = qi et R = ridefinies sur le meme espace (I, P (I)) ou R designe une mesure de reference(par exemple la mesure de probabilite uniforme dans le cas fini) telle que P¿ Ret que Q¿ R. On definit alors l’ecart ∆ϕ,R (P,Q) entre P et Q par rapport a Rpar :

∆ϕ,R (P,Q) = |Dϕ (P,R)−Dϕ (Q,R)|

=∣∣∣∣∑i

ϕ

(pi

ri

)ri −

∑i

ϕ

(qi

ri

)ri

∣∣∣∣

=∣∣∣∣∑i

(pi

ri

)− ϕ

(qi

ri

))ri

∣∣∣∣

Ainsi on a :∆ϕ,R (P,Q) = ∆ϕ,R (Q,P)

De fait, R n’a meme pas besoin d’etre une mesure de probabilite puisque ilsuffit que celle-ci soit finie ou σ−finie pour que les relations precedentes soientvalides. En particulier si R est une mesure de comptage sur I, alors :

Dϕ (P,R) =∑i

ϕ (pi) ; Dϕ (Q,R) =∑i

ϕ (qi)

ce qui, dans le cas ou l’on choisit pour fonction ϕ (t) la fonction tLogt conduita :

∆ϕ,R (P,Q) =∣∣∣∣∑i

piLog (pi)−∑i

qiLog (qi)∣∣∣∣

soit encore, en notant par X et Y les variables aleatoires de lois respectives Pet Q et par H (X) et H (Y ) leur entropie correspondante :

∆ϕ,R (P,Q) = ∆ϕ,R (X,Y ) = |H (X)−H (Y )|

36

Si R est une mesure de probabilite quelconque, nous aurons plus generalementdans ce cas :

∆ϕ,R (P,Q) =∣∣∣∣H (X)−H (Y ) +

∑i

(pi − qi)Log (ri)∣∣∣∣

Par ailleurs, si l’on designe par M = mi une autre mesure de probabilite (ab-solument continue par rapport a R), il vient :

∆ϕ,R (P,Q) =∣∣∣∣∑i

ϕ

(pi

ri

)ri −

∑i

ϕ

(mi

ri

)ri +

∑i

ϕ

(mi

ri

)ri −

∑i

ϕ

(qi

ri

)ri

∣∣∣∣

≤∣∣∣∣∑i

(pi

ri

)− ϕ

(mi

ri

))ri

∣∣∣∣ +∣∣∣∣∑i

(mi

ri

)− ϕ

(qi

ri

))ri

∣∣∣∣≤ ∆ϕ,R (P,M) + ∆ϕ,R (M,Q)

Ainsi la quantite ∆ϕ,R (·,·) possede les proprietes d’une semi-distance ou encore,d’un ecart, a savoir : la symetrie, l’inegalite triangulaire et la semi-positivite. SiP = Q, il est clair que ∆ϕ,R (P,Q) = 0. Par contre si ∆ϕ,R (P,Q) = 0 on ne peuten conclure necessairement que P = Q.

Si l’on considere maintenant le cas continu, designons par P,Q et R troismesures de probabilite (bien que cela ne soit pas absolument necessaire dans lecas de la mesure R) telles que P ¿ R et Q ¿ R. Il vient, en utilisant la memedemarche que ci-dessus :

∆ϕ,R (P,Q) =∣∣∣∣∫ (

ϕ

(dPdR

)− ϕ

(dQdR

))dR

∣∣∣∣

On obtient alors les memes proprietes que dans le cas discret.

On peut egalement definir un ecart ( au sens L1) entre les mesures de pro-babilite P et Q relativement a la mesure de reference R, a l’aide de l’expressionδ1

ϕ,R (P,Q) definie par :

δ1ϕ,R (P,Q) =

∫ ∣∣∣∣ϕ(

dPdR

)− ϕ

(dQdR

)∣∣∣∣ dR

Nous aurons alors :

– i) δ1ϕ,R (P,Q) = δ1

ϕ,R (Q,P) (Symetrie)

– ii) δ1ϕ,R (P,Q) ≥ 0 (Positivite)

– iii) δ1ϕ,R (P,Q) ≤ δ1

ϕ,R (P,M)+ δ1ϕ,R (M,Q) pour toute autre mesure de pro-

babilite M (inegalite du triangle)

– iv) Si P = Q alors : δ1ϕ,R (P,Q) = 0

37

– v) Si δ1ϕ,R (P,Q) = 0 alors : ϕ

(dPdR

)= ϕ

(dQdR

)R− p.s. ce qui entraıne que :

Dϕ (P,R) = Dϕ (Q,R)

ce qui, pour certaines fonctions ϕ (en particulier pour les fonctions ϕmonotones), a pour consequence que P = Q R− p.s.

Dans le cas discret, il suffit bien entendu de remplacer le signe d’integrationpar le signe de sommation.

De meme l’ecart (au sens L2) entre les mesures de probabilite P et Q relati-vement a la mesure de reference R sera donne par :

δ2ϕ,R (P,Q) =

[∫ (

ϕ

(dPdR

)− ϕ

(dQdR

))2

dR

]1/2

Enfin on peut egalement considerer comme ecart (parmi d’autres) celui definipar :

δ∞ϕ,R (P,Q) = ess sup∣∣∣∣ϕ

(dPdR

)− ϕ

(dQdR

)∣∣∣∣Dans la pratique, on choisira le plus souvent comme mesure de reference, lamesure de comptage dans le cas discret et la mesure de Lebesgue dans le cascontinu, ce qui avec les notations usuelles mettant en evidence les densites res-pectives f et g de P et Q par rapport a R donnera :

δ1ϕ (f,g) =

∑i

|ϕ (fi)− ϕ (gi)| ; δ∞ϕ (f,g) = supi|ϕ (fi)− ϕ (gi)|

δ2ϕ (f,g) =

[∑i

(ϕ (fi)− ϕ (gi))2

]1/2

δ1ϕ (f,g) =

∫ |ϕ (f)− ϕ (g)| dµ ; δ∞ϕ (f,g) = ess sup |ϕ (f)− ϕ (g)|

δ2ϕ (f,g) =

[∫(ϕ (f)− ϕ (g))2 dµ

]1/2

6.3 Classification hierarchique

Nous nous contenterons, dans ce paragraphe, de donner les elements de baseconduisant a la construction d’une hierarchie d’objets assimilables a des mesuresde probabilite et ce a l’aide des outils de la theorie de l’information presentes ci-dessus. En effet, ce sujet est si vaste qu’il meriterait a lui seul un developpementcomplet et detaille comportant, en plus de la theorie, l’etude des strategiesd’agregation ainsi que la construction d’algorithmes de classifications indiceesou non. Il est dans notre intention d’aborder l’ensemble de ces questions lorsd’un prochain rapport de recherche.

Considerons alors deux elements (µi,νi) et (µi′ ,νi′) i,i′ ∈ I = 1,2,...,n,appartenant a Sp × Sq ⊆ Rp × Rq et supposons que l’on ait fait choix de deux

38

indices de dissimilarite δ1 et δ2 definis respectivement sur Sp et Sq. Il est alorsfacile de definir sur I × I un indice de dissimilarite prenant en compte tousles caracteres (qu’ils soient quantitatifs ou qualititatifs). De facon generale, sik designe le nombre de caracteres C1,C2,...,Ck, de poids respectifs λ1, λ2,..., λk

(λj > 0 pour j = 1, 2,..., k) et si δ1, δ2,..., δk designent les indices de dissimilariteassocies a C1, C2,..., Ck, on pose :

∀ (i,i′) ∈ I × I δ(i,i′) =

[j=k∑j=1

λj (δj (i,i′))r

]1/r

r ≥ 1

Cet indice agrege, de la famille des indices de Minkowski, permet de conservercertaines proprietes des indices δj (par exemple, si les indices sont des ecartsou des distances il en est de meme de δ). Le choix des poids λj pour j = 1,2,..., k depend des objectifs poursuivis. Ainsi, si l’on desire que les caracteresaient la meme importance dans le calcul des dissimilarites entre elements de I,on choisira comme poids λj ( j = 1, 2,..., k), ceux donnes par les relations :

λj =γ∑

i

∑i′ pipi′ (δj (i,i′))r j = 1, 2,..., k

ou pi designe le poids affecte a l’observation i (pi > 0 ;∑

i pi = 1) et ou γdesigne un nombre positif (coefficient de normalisation par exemple). Dans cecas, la moyenne sur tous les couples d’observations de la quantite λj (δj (i,i′))r,qui n’est autre que la contribution du caractere Cj a la dissimilarite agregee δr,est la meme pour tous les caracteres.

Ayant alors fait choix d’un indice d’agregation des classes (lien minimum,lien maximum, lien moyen, centres mobiles, minimisation d’un critere...), onprocede de facon habituelle suivant la strategie adoptee. Si cette derniere estde nature “divise”, on obtiendra une classification hierarchique descendante,alors que si elle est de nature “agglomerative”, on obtiendra une classificationhierarchique ascendante.

Notons que dans le present contexte, il est possible de considerer des strategiesd’agregation pour lesquelles a chaque pas on substitue a une classe d’elements,un element unique jouant le role de barycentre de la classe. A cet effet, il est pos-sible de definir la notion de barycentre de la facon suivante. Considerons deuxmesures de probabilite P et Q definies sur le meme espace et soit λP+ (1− λ)Qun point du “segment” d’extremites P et Q (0 ≤ λ ≤ 1). (de facon plus generale,si les mesures de probabilite appartiennent a une variete donnee il faudraitconsiderer la geodesique reliant les points P et Q). On definit alors le barycentreentre P etQ comme etant la mesure de probabilite R de la forme λ∗P+(1− λ∗)Qou le parametre λ∗ est donne par :

λ∗ = Argminλ

[Dϕ (P,λP+ (1− λ)Q) + Dϕ (Q,λP+(1− λ)Q)]

39

Par exemple si ϕ (t) = −Logt, nous aurons, dans le cas discret :

Dϕ (P,λP+(1− λ)Q) =∑i

Log

(λpi + (1− λ) qi

pi

)(λpi + (1− λ) qi)

Dϕ (Q,λP+(1− λ)Q) =∑i

Log

(λpi + (1− λ) qi

qi

)(λpi + (1− λ) qi)

ce qui donne :d

dλ[Dϕ (P,λP+(1− λ)Q) + Dϕ (Q,λP+(1− λ)Q)]

=∑i

[Log

(λpi + (1− λ) qi√

piqi

)](pi − qi)

quand a la derivee seconde nous aurons :

d2

dλ2 [Dϕ (P,λP+(1− λ)Q) + Dϕ (Q,λP+(1− λ)Q)]

=∑i

((pi − qi)

2

(λpi + (1− λ) qi)√

piqi

)

Cette expression etant strictement positive (sauf si P = Q), nous sommes as-sures de l’existence d’une valeur unique λ∗ de λ qui, dans le cas present, devraetre determine a l’aide de methodes numeriques. On notera que si P = Q, lebarycentre est confondu bien entendu avec P. Par ailleurs pour λ = 1 la deriveepar raport a λ a pour expression :

∑i

[Log

(√pi

qi

)](pi − qi)

alors que pour λ = 0 cette meme derivee est egale a :∑i

[Log

(√qi

pi

)](pi − qi) = −∑

i

[Log

(√pi

qi

)](pi − qi)

Ainsi les derivees aux extremites du segment PQ sont de signes opposes etla solution λ∗P+ (1− λ∗)Q appartient bien au segment considere.

Enfin, si les mesures de probabilite P et Q sont affectees des poids ou massesm1 et m2 (m1 > 0 ; m2 > 0) alors le barycentre de P et Q correspondra a lavaleur λ∗ de λ telle que :

λ∗ = Argminλ

[m1Dϕ (P,λP+ (1− λ)Q) + m2Dϕ (Q,λP+(1− λ)Q)]

De meme si nous considerons la fonction ϕ (t) = t2 (ou encore ϕ (t) = t2−1),nous aurons, toujours dans le cas discret :

Dϕ (P,λP+ (1− λ)Q) =∑i

p2i

λpi + (1− λ) qi

Dϕ (Q,λP+ (1− λ)Q) =∑i

q2i

λpi + (1− λ) qi.

40

D’ou :d

∑i

p2i + q2

i

λpi + (1− λ) qi=

∑i

(p2

i + q2i

)(qi − pi)

(λpi + (1− λ) qi)2

et :d2

dλ2

∑i

p2i + q2

i

λpi + (1− λ) qi=

∑i

2(p2

i + q2i

)(qi − pi)

2

(λpi + (1− λ) qi)3 ≥ 0

A nouveau, la determination de la valeur λ∗ necessitera le recours a des methodesnumeriques. Notons que le passage au cas continu est immediat et que lesresultats sont identiques.

Enfin, il est clair que les calculs precedents relatifs a la determination dubarycentre sont egalement valides dans le cas de lois multidimensionnelles et,dans ce cadre, l’utilisation d’un critere d’agregation de classes utilisant la notiond’information mutuelle semble etre une alternative au critere de divergence,particulierement interessante a explorer. Nous aborderons cet aspect, ainsi queles traitements numeriques qui en decoulent, lors d’une prochaine etude.

7 Analyse de l’information mutuelle

7.1 Cadre general

On considere une variable aleatoire Y qui depend d’un certain nombre de va-riables X1, X2,..., Xn, appelees frequemment covariables et que l’on supposera,de meme que Y , toutes continues. Afin de faciliter la presentation, nous nousrestreindrons au cas de deux covariables X1 et X2. Notons par f (y,x1,x2) la den-site de probabilite du vecteur aleatoire (Y,X1,X2) et par fY (y) et fX1,X2 (x1,x2)les densites marginales de Y et du couple (X1,X2).

Ayant fait choix d’une fonction ϕ, l’information mutuelle entre Y et lescovariables (X1,X2) est alors donnee par :

Iϕ (Y, (X1,X2)) =∫

ϕ

[f (y,x1,x2)

fY (y) fX1,X2 (x1,x2)

]fY (y) fX1,X2 (x1,x2) dx1dx2dy

Designant par µY,X1,X2, µY et µX1,X2

les mesures de probabilite (par rapporta une mesure de reference) associees respectivement aux densites f (y,x1,x2),fY (y) et fX1,X2 (x1,x2) l’information mutuelle entre Y et (X1,X2) peut s’expri-mer egalement sous la forme :

Iϕ (Y, (X1,X2)) =∫

ϕ

[dµY,X1,X2

dµY ⊗ dµX1,X2

]dµY ⊗ dµX1,X2

= EµY

[EµX1,X2

(dµY,X1,X2

dµY ⊗ dµX1,X2

))]

= EµX1,X2

[EµY

(dµY |X1,X2

dµY

))]

41

De la meme facon on peut egalement ecrire :

Iϕ (Y, (X1,X2)) = EµY

[EµX1,X2 ϕ

(dµX1,X2|YdµX1,X2

)]

On se propose alors d’etudier l’influence des variables X1, X2 et du couple(X1,X2) sur la variable Y en utilisant une approche prenant en compte, non pasune surface de reponse du type y = h (x1,x2), mais plutot les liens probabilistesentre les variables X1, X2 le couple (X1,X2) et Y .

Afin d’illustrer la demarche proposee, considerons l’exemple suivant. Sur unensemble d’individus, on dispose de mesures concernant les variables suivantes :

X1 : Taille ; X2 : Poids ; Y : Endurance a un effort physique

ou encore :

X1 : Taille ; X2 : Poids ; Y : habilete a executer certaines taches

A priori, on peut penser qu’a tailles egales, l’endurance a un type d’effortphysique ou encore l’habilete a accomplir certaines taches puisse etre fonctiondu poids. De meme, a poids egaux, il est possible que l’endurance ou l’habiletesoit fonction de la taille. Ainsi, comme dans le cadre de l’analyse de la variance,on peut concevoir que le lien probabiliste entre Y et X1, X2 puisse etre du a desliens entre Y et X1, Y et X2 et entre Y et (X1,X2), lesquels pouvant s’exprimera l’aide des informations mutuelles suivantes :

Iϕ (Y,X1,X2) ; Iϕ (Y, (X1,X2)) ; Iϕ (Y,X1) ; Iϕ (Y,X2) et Iϕ (X1,X2)

Il est clair que si les variables X1 et X2 sont independantes en probabilite on a :

Iϕ (X1,X2) = 0 et Iϕ (Y,X1,X2) = Iϕ (Y, (X1,X2))

Pour des commodites d’ecriture, posons Z = (Y,X1,X2) et X = (X1,X2). on aalors :

Iϕ (Z) = Iϕ

(µZ ; µY ⊗ µX1

⊗ µX2

)

Iϕ (Y,X) = Iϕ (µZ ; µY ⊗ µX)Iϕ (Y,X1) = Iϕ

(µY,X1

; µY ⊗ µX1

)

Iϕ (Y,X2) = Iϕ

(µY,X2

; µY ⊗ µX2

)

Iϕ (X1,X2) = Iϕ

(µX1,X2

; µX1⊗ µX2

)

En vertu de l’inegalite de Jensen, il vient :∫

ϕ

(f (y,x1,x2)

fY (y) fX1 (x1) fX2 (x2)

)fX2 (x2) dx2 = EµX2 [ϕ (h (z))] ≥ ϕ [EµX2 (h (z))]

42

or :

EµX2 (h (z)) =f (y,x1)

fY (y) fX1 (x1)

D’ou :

Iϕ (Z) = EµY ⊗µX1

[∫ϕ

(f (y,x1,x2)

fY (y) fX1 (x1) fX2 (x2)

)fX2 (x2) dx2

]≥ Iϕ (Y,X1)

De meme on a :

Iϕ (Z) ≥ Iϕ (Y,X2)Iϕ (Z) ≥ Iϕ (X)

Enfin il vient egalement :

Iϕ (Y,X) = EµY ⊗µX1,X2

(f (y,x)

fY (y) fX (x)

)]

= EµY ⊗µX2

[EµX1|X2

(f (y,x)

fY (y) fX2 (x2) fX1|X2 (x1 | x2)

)]]

ce qui, a nouveau en vertu de l’inegalite de Jensen, conduit a :

Iϕ (Y,X) ≥ sup (Iϕ (Y,X1) ,Iϕ (Y,X2))

Ces diverses inegalites suggerent, en termes d’informations mutuelles, que les in-fluences des variables X1, X2 et du couple (X1,X2) sur la variable dependante Ypeuvent s’exprimer a l’aide des differences Iϕ (Z)−Iϕ (Y,X1), Iϕ (Z)−Iϕ (Y,X2)et Iϕ (Z)− Iϕ (X).

En effet, il decoule de la condition d’egalite de l’inegalite de Jensen dansle cas des fonctions ϕ strictement convexes, que les differences seront d’autantplus petites que les covariables se rapprocheront de l’independance en probabi-lite avec Y . Autrement dit, si la variable X2 est independante en probabilite de(Y,X1) alors Iϕ (Z)−Iϕ (Y,X1) = 0 et si la variable X1 est independante en pro-babilite de (Y,X2) on aura Iϕ (Z)−Iϕ (Y,X2) = 0. Cependant ces deux cas n’en-traıneront pas necessairement que Iϕ (Z) − Iϕ (X) = 0 puisque X = (X1,X2)peut ne pas etre independant en probabilite de Y . En l’absence d’un choix parti-culier d’une fonction ϕ il n’est guere possible de depasser pour l’instant le cadrede ces generalites. Aussi, dans le but d’obtenir une relation semblable a celleque l’on retrouve en analyse de la variance, (equation d’analyse de la variance),nous considererons pour la suite, la fonction ϕ (t) = tLogt.

7.2 Equations de decomposition de l’information mutuelle

Suivant l’objectif poursuivi et en fonction des tests que l’on entend conduire,il est possible de mettre en evidence plusieurs decompositions de l’informationmutuelle entre les variables considerees. Nous presenterons ci-dessous deux tellesdecompositions.

43

7.2.1 Decomposition de l’information mutuelle totale sous la formed’une somme d’entropies

L’information mutuelle entre les variables Y,X1 et X2 s’exprime alors sousla forme :

I (Z) = I (Y,X1,X2) =∫

Log

[f (y,x1,x2)

fY (y) fX1 (x1) fX2 (x2)

]f (y,x1,x2) dydx1dx2

= H (Y ) + H (X1) + H (X2)−H (Y,X1,X2)

ou H (·) designe l’entropie habituelle associee a une mesure de probabilite.De meme il vient :

I (Y,X) =∫

Log

[f (y,x1,x2)

fY (y) fX1,X2 (x1,x2)

]f (y,x1,x2) dydx1dx2

= H (Y ) + H (X1,X2)−H (Y,X1,X2)

ce qui, en vertu de la premiere egalite, donne :

I (Y,X) = I (Z)−H (X1)−H (X2) + H (X1,X2)

ou encore :

I (Z) = I (Y,X) + H (X1) + H (X2)−H (X1,X2)= I (Y,X) + I (X1,X2)

On peut donc dire dans le cas present que l’information mutuelle totale I (Z)est la somme d’une information mutuelle globale I (Y,X) et d’une informationmutuelle residuelle entre les covariables I (X1,X2). De plus nous avons :

I (Y,X) =∫

Log

[f (y,x1,x2)

fY (y) fX1,X2 (x1,x2)

]f (y,x1,x2) dydx1dx2

=∫

[−Log (fY (y)) + Log (f (y | x1,x2))] f (y,x1,x2) dydx1dx2

= H (Y ) +∫ [∫

Log (f (y | x1,x2)) f (y | x1,x2) dy

]fX1,X2 (x1,x2) dx1dx2

= H (Y )− EµX (H (Y | x))= H (Y )−H (Y | X)

On obtient donc les decompositions equivalentes de l’information mutuelle totalesuivantes :

I (Z) = I (Y,X) + H (X1) + H (X2)−H (X1,X2)= H (Y ) + H (X1) + H (X2)−H (Y | X)−H (X1,X2)

Si les variables X1 et X2 sont independantes en probabilite, on a, en raison dufait que I (X1,X2) = 0 :

I (Z) = I (Y,X)

44

ce qui montre que l’interaction ne se manifeste qu’a travers le lien entre lavariable Y et le couple de covariables X = (X1,X2). Par ailleurs si le couple(X1,X2) est independant en probabilite de Y il s’ensuit que I (Y,X) = 0 et doncil vient dans ce cas :

I (Z) = I (X1,X2)

Dans le cas de trois covariables X = (X1,X2,X3) nous aurions, en suivant lameme demarche que ci-dessus :

I (Z) = I (Y,X) +i=3∑i=1

H (Xi)−H (X)

= H (Y ) +i=3∑i=1

H (Xi)−H (Y | X)−H (X)

A l’aide de l’expression de H (X) = H (X1,X2,X3) donnee par :

H (X1,X2,X3) = −∫

Log [f (x1,x2,x3)] f (x1,x2,x3) dx1dx2dx3

on voit qu’il est possible de faire apparaıtre les interactions entre les covariablesen utilisant les decompositions equivalentes de H (X1,X2,X3) suivantes :

H (X1,X2,X3) = H (X1,X2 | X3) + H (X3)= H (X1,X3 | X2) + H (X2)= H (X2,X3 | X1) + H (X1)

Remarque : Dans la pratique on dispose frequemment, pour des raisons di-verses, les donnees sous forme de classes ou de modalites (par exemple desclasses de tailles et des classes de poids) sur lesquelles on mesure une variabledependante Y . On notera alors a ce propos que l’egalite I (Z) = I (Y,X) +I (X1,X2) met clairement en evidence le fait que si l’on desire effectuer un codagedes variables aleatoires X1 et X2, il est important, en regard de l’informationmutuelle totale, de tenir compte lors de cette operation de l’information mutuelleentre les covariables (on trouvera une illustration de cette technique de codagedans Colin, Vaillant et Troupe [11]). Les differentes hypotheses concernant lesliens entre les covariables X1,X2 et la variable dependante Y se traduisent alorspar :

H0 : Si X1 et Y sont independantes alors I (Z) = H (X2)−H (X2 | X1,Y )H0 : Si X2 et Y sont independantes alors I (Z) = H (X1)−H (X1 | X2,Y )H0 : Si (X1,X2) et Y sont independants alors I (Z) = I (X1,X2)

7.2.2 Decomposition de l’information mutuelle totale sous la formed’une somme d’informations mutuelles

Le quotientf (y,x1,x2)

fY (y) fX1 (x1) fX2 (x2)

45

pouvant s’ecrire sous la forme :

f (y,x1)fY (y) fX1 (x1)

× f (y,x2)fY (y) fX2 (x2)

× fY (y) f (y,x1,x2)f (y,x1) f (y,x2)

ou encore :

f (y,x1)fY (y) fX1 (x1)

× f (y,x2)fY (y) fX2 (x2)

× f (x1,x2 | y)f (x1 | y) f (x2 | y)

il s’ensuit que :

I (Z) = I (Y,X1) + I (Y,X2) + I (X | Y )

ou X designe, comme precedemment, le couple (X1,X2). Exprimee sous laforme precedente, on remarque que l’information mutuelle totale est la sommedes informations mutuelles individuelles (dues aux variables X1 et X2 prisesseparement) et d’une information mutuelle d’interaction (due a l’influence dulien entre les covariables X1 et X2 sur la variable dependante Y ). Dans le cas detrois covariables X1,X2 et X3 on verifie aisement, en suivant la meme demarcheque dans le cas precedent, que :

I (Z) = I (Y,X1) + I (Y,X2) + I (Y,X3) + I (X | Y )

Le dernier terme du membre de droite de cette relation peut a son tour, enconsiderant la loi conditionnelle de X = (X1,X2,X3) etant donnee Y , se decom-poser soit sous la forme :

I (X | Y ) = I (X1,X2 | Y ) + I (X1,X3 | Y ) + I (X2,X3 | X1,Y )

soit sous la forme :

I (X | Y ) = I (X2,X1 | Y ) + I (X2,X3 | Y ) + I (X1,X3 | X2,Y )

ou enfin sous la forme :

I (X | Y ) = I (X3,X1 | Y ) + I (X3,X2 | Y ) + I (X1,X2 | X3,Y )

Dans le cas de deux covariables, les differentes hypotheses se traduisent sous lesformes suivantes :

H0 : Si X1 et Y sont independantes alors I (Z) = I (Y,X2) + I (X | Y )H0 : Si X2 et Y sont independantes alors I (Z) = I (Y,X1) + I (X | Y )H0 : Si (X1,X2) et Y sont independants alors I (Z) = I (X1,X2)

7.3 Analyse

On considere n observations independantes du vecteur aleatoire Z = (Y,X1,X2)ou X1 et X2 sont deux variables possedant respectivement I et J modalites

46

notees (x1i) i = 1, 2,..., I et (x2j) j = 1, 2,..., J (variables qualitatives oudonnees classees). L’equation de decomposition de l’information mutuelle totaledonne, a l’aide des notations usuelles :

I (Z) = I (Y,X) + I (X1,X2)= I (Y,X) + H (X1) + H (X2)−H (X1,X2)

= −∑

i

pi·Log (pi·)−∑

j

p·jLog (p·j) +∑

i,j

pi,jLog (pi,j)

+H (Y )−H (Y | X)

Il faut alors estimer chacune de ces quantites a l’aide des observations (Y,X1,X2)k

k = 1, 2,..., n.A cette fin, on peut utiliser essentiellement les approches suivantes :

i) Les methodes reposant sur la consideration d’histogrammes,ii) Les methodes reposant sur la consideration de noyaux,iii) Les methodes parametriques.

En ce qui concerne les deux premieres approches, on pourra consulter, entreautres, les travaux de Moddemeijer[30][31], Vasicek[44], Vaillant, Troupe, Ma-nuceau et Lanska[43], Ebrahimi, Habibullah et Soofi[19] dans le premier cas etceux de Ahmad et Lin[5], Dmitriev et Tarasenko[17], Parzen[33], Rosenblatt[37],Schuster[38], Moon, Rajagopalan et Lall[32], Bhattacharya[6], Mars et van-Arragon[28]dans le second cas.

En raison du fait que l’on traite dans ce cas particulier de lois mixtes (lescomposantes X1 et X2 sont discretes alors que la composante Y est continue),nous considererons les estimateurs deduits de l’approche i).

De ce choix, decoulent les consequences suivantes : Designons par nij lenombre d’observations pour lesquelles X1 = x1i et X2 = x2j . En utilisant lesconventions usuelles d’ecriture, les estimateurs pij , pi· et p·j des probabilites pij ,pi· et p·j sont alors donnes respectivement par :

pij =nij

n; pi· =

ni·n

; p·j =n·jn

Il s’ensuit que les estimateurs H (X1) , H (X2) et H (X1,X2) de H (X1) ,H (X2)et H (X1,X2) seront donnes respectivement par :

H (X1) = −∑

i

pi·Log (pi·)

H (X2) = −∑

j

p·jLog (p·j)

H (X1,X2) = −∑

i,j

pi,jLog (pi,j)

47

Quant a l’estimateur I (Y,X) de I (Y,X) on peut soit estimer H (Y ) et H (Y | X)soit estimer directement I (Y,X) de la facon suivante :

Apres avoir realise une partition du domaine de la variable Y en un nombredonne de classes Y1,Y2,...,YL et en designant par nlij le nombre d’observationstelles que :

Y = Yl ; X1 = x1i et X2 = x2j

il vient :

I (Y,X) =∑l

∑(ij)

plijLog

(plij

pl··p·ij

)

Le fait que les estimateurs precedents admettent en general des lois fort com-plexes, le plus souvent inexploitables sur le plan pratique a distance finie et quede surcroıt, ces memes estimateurs sont biaises, il convient dans l’eventualite oul’on desire conduire des tests d’hypotheses, de se placer dans le cadre asympto-tique, c’est-a-dire lorsque n est grand (ou peut-etre considere comme tel!). Onsait alors que dans ce cas, les differents estimateurs introduits ci-dessus sontasymptotiquement normaux , sans biais et convergents. Cependant la varianceasymptotique est en general impossible a calculer et l’on doit alors recourir aune estimation de cette derniere.

Si les conditions enoncees ci-dessus sont remplies (n grand, estimation de lavariance de la loi asymptotique) il est possible d’effectuer les tests suivants :

H0 : X1 n′a pas d′influence sur Y

De la relation I (Z) = I (Y,X1) + I (Y,X2) + I (X | Y ) il decoule que :

I (Y,X1) = I (Z)− I (Y,X2)− I (X | Y ) Ã AN(I (Y,X1) ,σ2

1

)

ou σ21 est une valeur, en generale inconnue, que l’on doit estimer. Si l’hypothese

H0 est vraie alors I (Y,X1) Ã AN(0,σ2

1

). De meme, en ce qui concerne l’hy-

pothese :H0 : X2 n′a pas d′influence sur Y

nous aurons :

I (Y,X2) = I (Z)− I (Y,X1)− I (X | Y ) Ã AN(I (Y,X2) ,σ2

2

)

et donc si l’hypothese H0 est vraie alors I (Y,X2) Ã AN(0,σ2

2

)ou σ2

2, variancede la loi asymptotique, est en general inconnue et doit etre estimee. Enfin l’in-teraction, mise en evidence par la quantite I (X | Y ), peut egalement conduirea un test d’hypothese concernant la non influence d’une interaction d’ordre 2,en considerant l’expression :

I (X | Y ) = I (Z)− I (Y,X1)− I (Y,X2)− I (X | Y ) Ã AN(I (X | Y ) ,σ2

1,2

)

En resume, les tests proposes ci-dessus se ramement a des tests (asympto-tiques) d’independance entre les variables aleatoires Y et X1, Y et X2 et entre Y

48

et X = (X1,X2). Il est clair que la qualite des tests ainsi construits dependront,en grande partie de la qualite des estimateurs des informations mutuelles (oudes entropies) et donc, par voie de consequence, des estimateurs des densites deprobabilite et de la taille de l’echantillon. Enfin, la decomposition de l’informa-tion mutuelle en des “effets du premier ordre” et d’une “interaction”(ou “effetdu second ordre”) decoule du choix de la fonction ϕ (t) = tLogt, ce qui attenuebien evidemment la portee pratique d’une telle approche puisque, en particu-lier, on ne dispose pas d’une telle decomposition dans le cas, par exemple, desmetriques du χ2 et de Hellinger.

8 Notion de composantes essentielles d’un vec-teur aleatoire

Nous nous proposons, dans ce paragraphe, de faire une breve incursion dansle domaine de l’analyse des donnees en introduisant la notion de “composantesessentielles” d’un vecteur aleatoire de Rk.

Soient n observations d’un vecteur aleatoire X = t (X1,X2,...,Xk) de Rk etdont on supposera que la densite f (x1,x2,...,xk) est connue ou estimee. En ana-lyse des donnees, se pose frequemment le probleme de la reduction de la dimen-sion de l’espace de representation a des fins diverses (simplification, descriptiondes donnees, comprehension essentielle du phenomene observe ou etudie, classi-fication des observations, segmentation, etc...).

Les approches usuelles visant a resoudre ce type de probleme, font usaged’outils de nature morphologique, c’est-a-dire d’outils adaptes a l’etude de laforme de nuages de points (les observations) dans des espaces de grandes di-mensions et ce, sans egard a la nature du lien probabiliste entre les variablesaleatoires concernees (a l’exeption toutefois des domaines, assez complexes ce-pendant, de l’estimation et des tests d’hypotheses). Dans ce contexte, le recoursa diverses metriques permettant de caracteriser les proximites entre les differentspoints est tout a fait legitime comme l’est, d’ailleurs, le principe de la recherchedes sous-espaces optimaux de representation. Il n’est pas dans notre propos deremettre en cause, loin de la, cette approche, mais plutot d’explorer la possibilited’exploiter, a des fins identiques, la nature des liens probabilistes qui unissententre elles les composantes du vecteur aleatoire X.

Supposons que pour le vecteur aleatoire X considere, l’on ait fait choix d’unefonction ϕ permettant de mesurer l’information mutuelle Iϕ (X1,X2,...,Xk) entreles composantes de X (si cette derniere est une metrique, on retrouvera l’ap-proche classique, puisque l’inertie d’un nuage de points peut etre vue commeune information mutuelle particuliere; voir a ce sujet Colin[10]) et consideronsl’operateur de projection Pi de Rk dans Rk−1 defini par :

Pi (X) = Pi (X1,X2,...,Xi,...,Xk) = (X1,X2,...,Xi−1,Xi+1,...,Xk)

49

On sait alors que pour tout i = 1, 2,..., k on a :

Iϕ (X1,X2,...,Xk) ≥ Iϕ (Pi (X1,X2,...,Xi,...,Xk))

soit encore, en simplifiant les notations :

Iϕ (X)− Iϕ (Pi (X)) ≥ 0 ∀ i = 1,2,...,k

On dira alors que la composante Xi est non− essentielle (on entend par la ausens du lien probabiliste entre les composantes de X) si :

Iϕ (X)− Iϕ (Pi (X)) = infj=1,2,...,k

(Iϕ (X)− Iϕ (Pj (X)))

On remarquera que si Xi est une composante de X independante des k−1 autrescomposantes, alors Iϕ (X) = Iϕ (Pi (X)) et donc Iϕ (X) − Iϕ (Pi (X)) = 0. Ildecoule de cette observation que plus la difference Iϕ (X) − Iϕ (Pi (X)) estpetite, plus le lien probabiliste entre Xi et les autres composantes de X estfaible et moins, d’une certaine maniere, la variable Xi est essentielle en termesde contribution a l’information mutuelle entre les composantes de X. On peutdonc, sur cette base, ignorer la variable Xi et ne retenir, pour les besoins del’analyse et de la modelisation, que les k − 1 composantes restantes X1, X2,...,Xi−1, Xi+1,..., Xk.

Bien entendu il est possible a ce stade de repeter, en considerant l’expres-sion de Iϕ (Pi (X)), l’operation effectuee a l’etape precedente afin d’eliminerune autre variable non− essentielle et ainsi, de pas en pas, arriver a ne retenir,a l’aide d’un critere qui reste a definir (mais qui pourrait etre, par exemple,un pourcentage donne de l’information mutuelle initiale, taux relatif de va-riation, variation soudaine de l’information mutuelle residuelle...), les variablesessentielles a la comprehension du phenomene. Il est clair que, telle que decrite,la procedure n’assure pas d’un choix optimal a chaque pas. Pour ce faire, il fau-drait a partir du pas numero deux, selectionner le sous-ensemble de 2 variablespuis de 3 variables, pour le pas numero trois et ainsi de suite, satisfaisant au prin-cipe d’optimisation. En d’autres termes si, a titre illustratif, nous consideronsle pas numero deux, alors le couple optimal (Xi,Xj) sera donne, en posant :

Pi,j (X) = Pj Pi (X)

par :

Iϕ (X)− Iϕ (Pi,j (X)) = inf(i,j):i 6=j=1,2,...,k

(Iϕ (X)− Iϕ (Pj Pi (X)))

Mais ceci est un probleme que l’on rencontre frequemment en analyse desdonnees (analyse discriminante, classification,...) et suivant la complexite de l’al-gorithme d’optimisation et le temps de calcul, on peut adopter une procedure neremettant pas en cause le choix effectue a l’etape precedente. Cette procedure

50

de type “backward”, permet donc la construction d’une hierarchie ascendantedes composantes du vecteur aleatoire X.

De la meme maniere, on peut mettre en place une procedure de selectiondes composantes de X, de type “forward”, en selectionnant au premier pas lacomposante Xi telle que :

Iϕ (X)− Iϕ (Pi (X)) = supj=1,2,...,k

(Iϕ (X)− Iϕ (Pj (X)))

Plus cette difference sera grande, et plus la composante Xi contribuera defacon importante a la valeur de Iϕ (X). En ce sens, on est en droit d’affirmerque la composante Xi est essentielle a la comprehension du phenomene etudie.A partir du pas numero deux, on pourra adopter l’une des deux strategies deselection des composantes, suivant que l’on remet ou non en cause le choixeffectue au pas precedent, et proceder ainsi de pas en pas jusqu’a l’obtentiond’un nombre “raisonnable” de composantes, nombre d’ailleurs que l’on peut sefixer au depart. La dimension de l’espace de depart etant ainsi reduite, on peutpar la suite, a l’aide d’un faible nombre de variables qui conservent leur sensnaturel, proceder a d’autres analyses de donnees.

Mentionnons que, de facon plus generale, on pourrait s’interesser a des trans-formations de Rk dans Rk donnees par :

y = h (x) = hl (x1,x2,...,xk) l = 1, 2,..., k

Si l’on designe par H la matrice des derivees partielles (∂yi∂xj) i, j = 1, 2,...,k, il vient, en effectuant le changement de variables y = h (x) dans l’integralecorrespondante a Iϕ (X) :

Iϕ (X) =∫

ϕ

(f (x1,x2,...,xk)∏i=k

i=1 fXi (xi)

)∏i=k

i=1 fXi (xi) dx1dx2...dxk

=∫

ϕ

(f

(h−1

1 (y) ,h−12 (y) ,...,h−1

k (y))

∏i=ki=1 fXi

(h−1

i (y))

)

×∏i=ki=1 fXi

(h−1

i (y)) ∣∣detH−1

∣∣ dy1dy2...dyk

=∫

ϕ

(f

(h−1

1 (y) ,h−12 (y) ,...,h−1

k (y)) ∣∣detH−1

∣∣∏i=k

i=1 fXi

(h−1

i (y)) |detH−1|

)

×∏i=ki=1 fXi

(h−1

i (y)) ∣∣detH−1

∣∣ dy1dy2...dyk

Or f(h−1

1 (y) ,h−12 (y) ,...,h−1

k (y)) ∣∣detH−1

∣∣ n’est autre que la densite de pro-babilite g (y1,y2,...,yk) du vecteur aleatoire Y . Nous aurons alors Iϕ (X) =Iϕ (Y ) si : ∏i=k

i=1 fXi

(h−1

i (y)) ∣∣detH−1

∣∣ =∏i=k

i=1 gYi (yi)

51

En particulier, comme il est aise de le verifier, toutes transformations de laforme :

yi = hi (xi) i = 1,2,...,k

pour lesquelles les fonctions hi sont, pour tout i, injectives (comme c’est le casde la transformation de f (x1,x2,...,xk) sous la forme d’une copule), conserventl’information mutuelle. Cette approche peut donner lieu a certaines simplifi-cations comme, par exemple, dans le cas de la loi normale, ou l’on pourra serestreindre uniquement a la strucure des correlations entre les composantes duvecteur aleatoire X.

Enfin, toujours dans la perspective d’une reduction de la dimension, il estpossible (au moins en theorie!) d’aborder le probleme de la facon suivante : soientm (m ≤ k) variables y1,y2,...,ym definies par :

y1 = u1 (x1,x2,...,xk)y2 = u2 (x1,x2,...,xk)

...ym = um (x1,x2,...,xk)

Posant alors y = t (y1,y2,...,ym), on sait que Iϕ (X) − Iϕ (Y ) ≥ 0 quelles quesoient les fonctions u1,u2,...,um de Rk dans R. L’idee consiste alors, en se re-streignant a une famille de transformations simples (par exemple des transfor-mations lineaires), a determiner, pour des valeurs de m ≤ k les transformationsu1,u2,...,um qui rendent minimum la difference :

Iϕ (X)− Iϕ (u1 (X) ,u2 (X) ,...,um (X))

A titre d’illustration, choisissons ϕ (t) = tLogt et considerons une loi normaleN (0,Σ) de R3, ou Σ = R est la matrice des correlations donnee par :

R =

1 ρ12 ρ13

ρ12 1 ρ23

ρ13 ρ23 1

Posons alors Y = AX ou A est une matrice de la forme :

A =[

a11 a12 a13

a21 a22 a23

]

Il s’ensuit que Y ∼ N (0,ARtA). Il vient alors :

Iϕ,R (X) =12Log

(∏i=3i=1 σ2

Xi

detR

)=

12Log

((det R)−1

)

Iϕ,ARtA (Y ) =12Log

(σ2

Y1σ2

Y2

detARtA

)

52

et par consequent Iϕ (X)− Iϕ (Y ) a dans ce cas pour expression :

Iϕ,R (X)− Iϕ,ARtA (Y ) =12Log

((det R)−1

)− 1

2Log

(σ2

Y1σ2

Y2

detARtA

)

=12Log

(detARtA

σ2Y1

σ2Y2

det R

)

La quantite det R ne dependant pas des coefficients aij i = 1, 2 j = 1, 2, 3et la fonction logarithme etant monotone croissante, le probleme se resume adeterminer les coefficients de la matrice A de sorte que la quantite

detARtA

σ2Y1

σ2Y2

= (1− ρ2Y1Y2

)

soit la plus petite possible.Tel que formule, le probleme admet une solution triviale donnee par a1j =

±a2j ∀ j = 1, 2, 3 ce qui ne presente aucun interet dans le cas present. Il fautdonc imposer, avec l’arbitraire que cela implique, une structure particuliere a lamatrice A afin de determiner une ou plusieurs solutions non triviales. Dans lecas ou la matrice A est une matrice carree de format k × k on a alors :

Y = AX ∼ N(0,ARtA

)

et Iϕ,R (X)− Iϕ,ARtA (Y ) a alors pour expression :

Iϕ,R (X)− Iϕ,ARtA (Y ) =12Log

[∏i=ki=1 σ2

XidetARtA

∏i=ki=1 σ2

YidetR

]

On constate de nouveau que cette difference est nulle pour la classe desmatrices diagonales regulieres et l’on doit imposer une certaine structure a lamatrice A afin d’obtenir des solutions non degenerees. On notera que dans le casde la loi normale, l’analyse en composantes principales, qui consiste a remplacerles variables initiales X1, X2,..., Xk par de nouvelles variables Y1, Y2,..., Yk,combinaisons lineaires des anciennes et non correlees deux a deux, conduit aIϕ (Y ) = 0 et ce quelle que soit la fonction ϕ choisie.

9 Conclusion

Dans ce rapport, nous nous sommes interesses au concept de divergence entremesures de probabilite pour considerer et mettre en avant des outils statistiquespermettant d’extraire de facon pertinente des informations a partir de jeux dedonnees de grande taille. L’apport de ces outils en codage optimal, classificationet etude d’interactions est egalement souligne. Le positionnement par rapporta la theorie de l’information est precise a travers les references a divers travauxtheoriques et appliques. Par ailleurs, la notion de composantes essentielles d’un

53

vecteur aleatoire est introduite afin d’aborder les problemes de reduction dedimension. Quelques voies de recherche sont indiquees : estimation optimale de ladivergence generalisee par noyaux dans le cas de donnees brutes (par oppositionaux donnees classees ou agregees), typologie de processus marques a memoire,etude des strategies d’agregation et construction d’algorithmes de classification.

54

References

[1] D.I. Abarbanel. N. Masuda, M.I. Rabinovich and E. Tumer, Distributionof mutual information, Physics Letters, A 281 (2001), 368-373.

[2] J. Aczel and Z. Daroczy, On measures of information and their characte-rizations, Academic Press New York, (1975).

[3] B.P. Adhikari and D.D. Joshi, Distance Discrimination et Resume ex-haustif, Publications de l’Institut de Statistique de l’Universite de Paris,5 (1956), 57-74.

[4] S.M Ali and S.D Silvey, A general class of coefficients of divergence of onedistribution from another, J.Roy.Statist.Soc., B.28 (1966), 131-142.

[5] I.A. Ahmad and P.I. Lin, A Nonparametric Estimation of the Entropy forAbsolutely Continuous Distributions, IEEE Transactions on InformationTheory, Vol IT-22, Number 3 (1976), 372-375.

[6] P.K. Bhattacharya, Estimation of a probability density function and itsderivatives, Sankhya, Ser. A 29 (1967), 373-382.

[7] J.E. Beasley, An algorithm for set covering problems, European Journal ofOperational Research, vol.31 (1987), 85-93.

[8] D. Bosq et J.P Lecoutre, Theorie de l’estimation fonctionnelle, Economica(1987).

[9] N.N. Cencov, Statistical Decisions Rules and Optimal Inference, AmericanMathematical Society, Translations of Mathematical Monographs, Vol 53(1982).

[10] B. Colin, Sur la reconstitution optimale des donnees, Cahiers du CERO,Vol 37 (1995), 65-95.

[11] B. Colin, J. Vaillant et M. Troupe, Optimal coding and interaction study,XIVe SIMMAC (Simposio Internacional de Metodos MatematicosAplicados a las Ciencias), San Jose, Costa Rica (2004).

[12] I. Csiszar, Information-type measures of difference of probability distribu-tions and indirect observations, Studia Scientiarum Mathematicarum Hun-garica, 2 (1967), 299-318.

[13] I. Csiszar, A class of measures of informativity of observation channels,Periodica Mathematica Hungarica, Vol 2 (1-4) (1972), 191-213.

[14] I. Csiszar, Information measures : A critical survey, Transaction of the se-venth Prague Conference on Information theory Statistical Decision func-tions Random Processes. Publishing House of the Czechoslovak Academyof Sciences, Vol A Prague (1977), 73-86.

[15] G.A. Darbellay, An estimator of the mutual information based on criterionfor independance, Computational Statistics & Data Analysis, 32 (1999),1-17.

[16] L. Devroye and G.Lugosi, Combinatorial methods in density estimation,Springer Series in Statistics, Springer-Verlag, New York (2001).

55

[17] Y.G. Dimitriev and F.P. Tarasenko, On the estimation of functionals ofthe probability density and its derivatives, Theory of Probabilty and itsApplications (Siam), Vol 18 No.3 (1973), 628-633.

[18] R.L. Dobrushin, General formulation of Shannon’s main theorem in infor-mation theory, Amer. Math. Soc Transl. (2), Vol 33 (1963), 323-438.

[19] N. Ebrahimi, M. Habibullah and E.S. Soofi, Testing Exponentiality Basedon Kullback-Leibler Information, J.Roy.Statist.Soc., B.54 (1992), 739-748.

[20] M. Frechet, Sur les tableaux de correlation dont les marges sont donnees,Ann. Univ. Lyon, Ser3, 14 (1951), 53-77.

[21] M.K. Gavurin, On the value of Information, Vestuik Leningrad Univer-sity Series, 4 (1963), 27-34. Translation (1968), Selected Translations inMathematical Statistics and Probability ,7 (1968), 193-202.

[22] S.G. Ghurye, Information and sufficient sub-fields, The Annals of Mathe-matical Statistics, Vol 38 no. 6 (1968), 2056-2066.

[23] P.K. Goel, Information measures and Bayesian Hierarcichal Models, Depar-tement of Statistics, Purdue University, West Lafayette, Technical Report,# 81-41 (1981).

[24] C.M. Gruner, Mutual information calculation using empirical classification,Neurocomputing, 44-46 (2002), 1083-1088.

[25] N. Jardine and R. Sibson, Mathematical Taxonomy, Wiley, New York(1971).

[26] E.L. Lehmann, Theory of point estimation, Wadsworth & Brooks, (1991).[27] K.V. Mardia, J.T. Kent and J.M. Bibby, Multivariate Analysis, Academic

Press Second Printing, (1980).[28] N.J.I. Mars and G.W. van Arragon, Time delay estimation in non-linear

systems using average amount of mutual information analysis, Signal Pro-cessing, 4 (1982), 139-153.

[29] R.J. McEliece, The theory of information coding, Encyclopedia of mathe-matics and its applications, Addison Wesley, (1977).

[30] R. Moddemeijer, A statistic to estimate the variance of the histogram-basedmutual information estimator based on dependent pairrs of observations,Signal Processing, 75 (1999), 51-63.

[31] R. Moddemeijer, On estimation of entropy and mutual information of conti-nuous distributions, Signal Processing, 16 (1989), 233-248.

[32] Y.I. Moon, B. Rajagopalan and U. Lall, Estimation of mutual informationusing kernel density estimators, Physical Review E, Vol 52 Number 3(1995), 2318-2321.

[33] E. Parzen, On estimation of probability density function and mode, TheAnnals of Mathematical Statistics, Vol 33 (1962), 1065-1076.

[34] M.S. Pinsker, Information and information stability of random variablesand processes, Holden-Day, (1964).

[35] C.R. Rao, Diversity cand Dissimilarity Coefficients, Institute for Statisticsand Applications, Department of Mathematics and Statistics, TechnicalReport, # 80-10 (1980).

56

[36] A. Renyi, On measures of entropy and information, Proceedings of theFourth Berkeley Symposium of Mathematical Statistics and Probability,Vol 1 (1961), Berkeley : University of California Press, 547-561.

[37] M. Rosenblatt, Remarks on some nonparametric estimates of a densityfunction, The Annals of Mathematical Statistics, Vol 27 (1956), 832-837.

[38] E.F. Schuster, Estimation of a probability density function and its deriva-tives, The Annals of Mathematical Statistics, Vol 40 No 4 (1969), 832-837.

[39] R.J. Serfling, Approximation Theorems of Mathematical Statistics, Wiley,New York (1980).

[40] R. Sibson, Information radius, Z. Wahrsch’theorie & verw. Geb., 14 (1969),149-160.

[41] A. Sklar, Fonctions de repartition a n dimensions et leurs marges, Publ.Inst. Statist. Univ. Paris, 8 (1959), 229-231.

[42] J.S. de Tibeiro, Information et analyse des donnees, These de Doctorat,Departement de Mathematiques et d’Informatique, Universite de Sher-brooke (Quebec), Canada, (1993).

[43] J. Vaillant, M. Troupe, J. Manuceau et V. Lanska, Nonparametric Selec-tion Method of Survival Predictors with an Application to Breast Cancer,Methods of Information in Medecine, 40 (2001), 12-17.

[44] O. Vasicek, A Test for Normality Based on Sample Entropy,J.Roy.Statist.Soc., B.38 No.1 (1976), 54-59.

[45] R. von Mises, On the asymptotic distribution of differentiable statisticalfunctions, Ann. Math. Statist., 18 (1947), 309-348.

[46] J. Zakai and M. Ziv, On functionnals satisfying a data-processing theorem,IEEE Transactions, IT-19 (1973), 275-282.

57

Bernard ColinDepartement de MathematiquesUniversite de SherbrookeSherbrooke J1K-2R1(Quebec) Canadacourriel : [email protected]

Marylene TroupeDepartement de Mathematiques et d’InformatiqueUniversite des Antilles-GuyanePointe-a-PitreGuadeloupecourriel : [email protected]

Jean VaillantDepartement de Mathematiques et d’InformatiqueUniversite des Antilles-GuyanePointe-a-PitreGuadeloupecourriel : [email protected]

58