46
Classification ` a partir d’une collection de matrices Cl´ ement Grimal et Gilles Bisson (LIG, Universit´ e de Grenoble) Atelier REiSO - 25 Mai 2010

Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Classification a partir d’une collection de matrices

Clement Grimal et Gilles Bisson (LIG, Universite de Grenoble)

Atelier REiSO - 25 Mai 2010

Page 2: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

Classification...

La classification (ou clustering) : organiser des individus selon un critere desimilarite, en � paquets � homogenes

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 2 / 19

Page 3: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

Classification...

La classification (ou clustering) : organiser des individus selon un critere desimilarite, en � paquets � homogenes

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 2 / 19

Page 4: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

...et Bi-classification

La classification vue sous forme matricielle :

La co-classification

Classifier simultanement deux types d’objets distincts

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 3 / 19

Page 5: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

...et Bi-classification

La classification vue sous forme matricielle :

La co-classification

Classifier simultanement deux types d’objets distincts

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 3 / 19

Page 6: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

...et Bi-classification

Si les variables sont suffisamment homogenes...

La co-classification

Classifier simultanement deux types d’objets distincts

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 3 / 19

Page 7: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

Classification de donnees multi-relationnelles

Donnees multi-relationnelles

Plusieurs (plus de 2) types d’objets distincts,lies par des relations de type co-occurrence

Autant de matrices de donnees que de relations, comment classifier au mieux lesfilms ?

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 4 / 19

Page 8: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

Classification de donnees multi-relationnelles

Donnees multi-relationnelles

Plusieurs (plus de 2) types d’objets distincts,lies par des relations de type co-occurrence

Autant de matrices de donnees que de relations, comment classifier au mieux lesfilms ?

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 4 / 19

Page 9: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Plan

1 AlgorithmesL’algorithme χ-SimExtensions aux donnees multi-relationnelles

2 Experimentations et Resultats

3 Conclusion et Perspectives

Page 10: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

L’algorithme χ-Sim (1)

On considere une matrice de donnees M films - acteurs et on cherche a calculerla matrice de similarite entre films SR et entre acteurs SC.

Fondements

I La similarite entre deux films est fonction de la similarite entre les acteursqui y jouent

I La similarite entre deux acteurs est fonction de la similarite entre les filmsdans lesquels ils jouent

Generalisation afin de comparer tous les acteurs entre eux :

Sim(mi·,mj·) =

Fs(mi1,mj1)× sc11 + Fs(mi1,mj2)× sc12 + . . .+ Fs(mi1,mjc)× sc1c +

Fs(mi2,mj1)× sc21 + Fs(mi2,mj2)× sc22 + . . .+ Fs(mi2,mjc)× sc2c +

. . .

Fs(mic,mj1)× scc1 + Fs(mic,mj2)× scc2 + . . .+ Fs(mic,mjc)× sccc

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 6 / 19

Page 11: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

L’algorithme χ-Sim (1)

On considere une matrice de donnees M films - acteurs et on cherche a calculerla matrice de similarite entre films SR et entre acteurs SC.

Fondements

I La similarite entre deux films est fonction de la similarite entre les acteursqui y jouent

I La similarite entre deux acteurs est fonction de la similarite entre les filmsdans lesquels ils jouent

Generalisation afin de comparer tous les acteurs entre eux :

Sim(mi·,mj·) =

Fs(mi1,mj1)× sc11 + Fs(mi1,mj2)× sc12 + . . .+ Fs(mi1,mjc)× sc1c +

Fs(mi2,mj1)× sc21 + Fs(mi2,mj2)× sc22 + . . .+ Fs(mi2,mjc)× sc2c +

. . .

Fs(mic,mj1)× scc1 + Fs(mic,mj2)× scc2 + . . .+ Fs(mic,mjc)× sccc

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 6 / 19

Page 12: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

L’algorithme χ-Sim (1)

On considere une matrice de donnees M films - acteurs et on cherche a calculerla matrice de similarite entre films SR et entre acteurs SC.

Fondements

I La similarite entre deux films est fonction de la similarite entre les acteursqui y jouent

I La similarite entre deux acteurs est fonction de la similarite entre les filmsdans lesquels ils jouent

Classiquement, la similarite entre deux films mi· et mj· est calculee grace auxelements communs :

Generalisation afin de comparer tous les acteurs entreeux :

Sim(mi·,mj·) =

Fs(mi1,mj1) + Fs(mi2,mj2) + · · ·+ Fs(mic,mjc)

Fs(mi1,mj1)× sc11 +Fs(mi1,mj2)× sc12 + . . . +Fs(mi1,mjc)× sc1c +

Fs(mi2,mj1)× sc21 + Fs(mi2,mj2)× sc22 + . . .+ Fs(mi2,mjc)× sc2c +

. . .

Fs(mic,mj1)× scc1 + Fs(mic,mj2)× scc2 + . . .+ Fs(mic,mjc)× sccc

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 6 / 19

Page 13: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

L’algorithme χ-Sim (1)

On considere une matrice de donnees M films - acteurs et on cherche a calculerla matrice de similarite entre films SR et entre acteurs SC.

Fondements

I La similarite entre deux films est fonction de la similarite entre les acteursqui y jouent

I La similarite entre deux acteurs est fonction de la similarite entre les filmsdans lesquels ils jouent

Si l’on considere que ∀i ∈ 1..c, scii = 1 :

Generalisation afin de comparer tousles acteurs entre eux :

Sim(mi·,mj·) =

Fs(mi1,mj1)× sc11 + Fs(mi2,mj2)× sc22 + · · ·+ Fs(mic,mjc)× sccc

Fs(mi1,mj1)× sc11 +Fs(mi1,mj2)× sc12 + . . . +Fs(mi1,mjc)× sc1c +

Fs(mi2,mj1)× sc21 + Fs(mi2,mj2)× sc22 + . . .+ Fs(mi2,mjc)× sc2c +

. . .

Fs(mic,mj1)× scc1 + Fs(mic,mj2)× scc2 + . . .+ Fs(mic,mjc)× sccc

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 6 / 19

Page 14: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

L’algorithme χ-Sim (1)

On considere une matrice de donnees M films - acteurs et on cherche a calculerla matrice de similarite entre films SR et entre acteurs SC.

Fondements

I La similarite entre deux films est fonction de la similarite entre les acteursqui y jouent

I La similarite entre deux acteurs est fonction de la similarite entre les filmsdans lesquels ils jouent

Generalisation afin de comparer tous les acteurs entre eux :

Sim(mi·,mj·) =

Fs(mi1,mj1)× sc11 + Fs(mi1,mj2)× sc12 + . . .+ Fs(mi1,mjc)× sc1c +

Fs(mi2,mj1)× sc21 + Fs(mi2,mj2)× sc22 + . . .+ Fs(mi2,mjc)× sc2c +

. . .

Fs(mic,mj1)× scc1 + Fs(mic,mj2)× scc2 + . . .+ Fs(mic,mjc)× scccC. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 6 / 19

Page 15: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

L’algorithme χ-Sim (2)

En pratique, on considere que la fonction de similarite Fs est le produit, et onnormalise les valeurs pour qu’elle appartiennent a [0, 1], par le produit dunombre d’acteurs du ieme film et du jeme film, soit |mi·| × |mj·|

Ainsi, on peut calculer :

Sim(mi·,mj·) =mi· × SC×mT

|mi·| × |mj·|

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 7 / 19

Page 16: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

L’algorithme χ-Sim (2)

En pratique, on considere que la fonction de similarite Fs est le produit, et onnormalise les valeurs pour qu’elle appartiennent a [0, 1], par le produit dunombre d’acteurs du ieme film et du jeme film, soit |mi·| × |mj·|

Ainsi, on peut calculer :

Sim(mi·,mj·) =mi· × SC×mT

|mi·| × |mj·|

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 7 / 19

Page 17: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

L’algorithme χ-Sim (2)

En pratique, on considere que la fonction de similarite Fs est le produit, et onnormalise les valeurs pour qu’elle appartiennent a [0, 1], par le produit dunombre d’acteurs du ieme film et du jeme film, soit |mi·| × |mj·|

Ainsi, on peut calculer :

Sim(mi·,mj·) =mi· × SC×mT

|mi·| × |mj·|

Le calcul pour tous les films peut d’exprimer sous forme matricielle :

SR = (M ×SC×MT ) ◦NR avec nrij=1

|mi·| × |mj·|

SC = (MT×SR×M ) ◦NC avec ncij=1

|m·i| × |m·j |

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 7 / 19

Page 18: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

L’algorithme χ-Sim (2)

En pratique, on considere que la fonction de similarite Fs est le produit, et onnormalise les valeurs pour qu’elle appartiennent a [0, 1], par le produit dunombre d’acteurs du ieme film et du jeme film, soit |mi·| × |mj·|

Ainsi, on peut calculer :

Sim(mi·,mj·) =mi· × SC×mT

|mi·| × |mj·|

On resout le systeme d’equations correspondant de maniere iterative :

SR(t) = (M ×SC(t−1) ×MT ) ◦NR avec nrij=1

|mi| × |mj |

SC(t) = (MT×SR(t−1) ×M ) ◦NC avec ncij=1

|mi| × |mj |

avec SR(0) = Ir et SC(0) = Ic.

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 7 / 19

Page 19: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

Principe des extensions

Nous allons maintenant proposer trois methodes, utilisant l’algorithme χ-Simafin de classifier des donnees multi-relationnelles.

L’algorithme χ-Sim sera represente de facon schematique :

avec Ir la matrice identite de taille r, correspondant a une absence deconnaissance a priori sur les similarites entre lignes.

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 8 / 19

Page 20: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

Structure en Cascade

Principe

Utiliser la matrice de similarite calculee par une premiere instance de χ-Simgrace a une premiere matrice de donnees pour initialiser une seconde instance deχ-Sim utilisant une seconde matrice de donnees

Questions

I Ordre des matrices ?

I Nombre d’iterations pour chaque instance ?

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 9 / 19

Page 21: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

Structure en Cascade

Principe

Utiliser la matrice de similarite calculee par une premiere instance de χ-Simgrace a une premiere matrice de donnees pour initialiser une seconde instance deχ-Sim utilisant une seconde matrice de donnees

Questions

I Ordre des matrices ?

I Nombre d’iterations pour chaque instance ?

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 9 / 19

Page 22: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

Structure en Cascade

Principe

Utiliser la matrice de similarite calculee par une premiere instance de χ-Simgrace a une premiere matrice de donnees pour initialiser une seconde instance deχ-Sim utilisant une seconde matrice de donnees

Questions

I Ordre des matrices ?

I Nombre d’iterations pour chaque instance ?

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 9 / 19

Page 23: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

Structure en Anneau

Principe

Similaire a la structure en Cascade, sauf que le nombre d’iterations par instancede χ-Sim est fixe a 1, et que l’on peut alterner entre plusieurs instances

Questions

I Ordre des matrices ?

I Nombre d’iterations totales ?

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 10 / 19

Page 24: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

Structure en Anneau

Principe

Similaire a la structure en Cascade, sauf que le nombre d’iterations par instancede χ-Sim est fixe a 1, et que l’on peut alterner entre plusieurs instances

Questions

I Ordre des matrices ?

I Nombre d’iterations totales ?

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 10 / 19

Page 25: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

Structure en Anneau

Principe

Similaire a la structure en Cascade, sauf que le nombre d’iterations par instancede χ-Sim est fixe a 1, et que l’on peut alterner entre plusieurs instances

Questions

I Ordre des matrices ?

I Nombre d’iterations totales ?

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 10 / 19

Page 26: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

Combinaison

Principe

Calcul des matrices de similarite grace a plusieurs instances de χ-Sim utilisantdes matrices de donnees differentes, puis combinaison de ces matrices

Questions

I Nombre d’iterations pour chaque instance ?

I Strategie de combinaison (min, max, moyenne...) ?

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 11 / 19

Page 27: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

Combinaison

Principe

Calcul des matrices de similarite grace a plusieurs instances de χ-Sim utilisantdes matrices de donnees differentes, puis combinaison de ces matrices

Questions

I Nombre d’iterations pour chaque instance ?

I Strategie de combinaison (min, max, moyenne...) ?

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 11 / 19

Page 28: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

Combinaison

Principe

Calcul des matrices de similarite grace a plusieurs instances de χ-Sim utilisantdes matrices de donnees differentes, puis combinaison de ces matrices

Questions

I Nombre d’iterations pour chaque instance ?

I Strategie de combinaison (min, max, moyenne...) ?

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 11 / 19

Page 29: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Plan

1 ContexteClassification et Bi-classificationClassification de donnees multi-relationnelles

2 AlgorithmesL’algorithme χ-SimExtensions aux donnees multi-relationnelles

3 Experimentations et Resultats

4 Conclusion et Perspectives

Page 30: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

Base experimentale

Creee a partir d’IMDb pour recueillir des films, ainsi que leur genre, leur castinget les mots-cles affectes par des utilisateurs.

Description

I 617 films de 17 genres differents (environ 36 films par genre)

I 1878 mots-cles → Matrice films - mots-cles : M1

I 1398 acteurs → Matrice films - acteurs : M2

Objectif : classifier les films par genre, en utilisant M1 et M2

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 13 / 19

Page 31: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

Base experimentale

Creee a partir d’IMDb pour recueillir des films, ainsi que leur genre, leur castinget les mots-cles affectes par des utilisateurs.

Description

I 617 films de 17 genres differents (environ 36 films par genre)

I 1878 mots-cles → Matrice films - mots-cles : M1

I 1398 acteurs → Matrice films - acteurs : M2

Objectif : classifier les films par genre, en utilisant M1 et M2

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 13 / 19

Page 32: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

Base experimentale

Creee a partir d’IMDb pour recueillir des films, ainsi que leur genre, leur castinget les mots-cles affectes par des utilisateurs.

Description

I 617 films de 17 genres differents (environ 36 films par genre)

I 1878 mots-cles → Matrice films - mots-cles : M1

I 1398 acteurs → Matrice films - acteurs : M2

Objectif : classifier les films par genre, en utilisant M1 et M2

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 13 / 19

Page 33: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

Algorithmes utilises et critere d’evaluation

Algorithmes utilises

Comparaison de nos 3 methodes a :

I la similarite de cosinus (notre � ligne de base �)

I la mesure de similarite induite par LSA (Deerwester et al., 1990)

I l’algorithme de co-classification ITCC (Dhillon et al., 2003)

I la co-similarite χ-Sim (Bisson and Hussain, 2008)

Critere d’evaluation

La precision micro-moyennee introduite par Dhillon et al. (2003), pour laquelleune valeur de 1 correspond a une classification parfaite.

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 14 / 19

Page 34: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

Algorithmes utilises et critere d’evaluation

Algorithmes utilises

Comparaison de nos 3 methodes a :

I la similarite de cosinus (notre � ligne de base �)

I la mesure de similarite induite par LSA (Deerwester et al., 1990)

I l’algorithme de co-classification ITCC (Dhillon et al., 2003)

I la co-similarite χ-Sim (Bisson and Hussain, 2008)

Critere d’evaluation

La precision micro-moyennee introduite par Dhillon et al. (2003), pour laquelleune valeur de 1 correspond a une classification parfaite.

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 14 / 19

Page 35: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

Resultats

Methode Cosinus LSA ITCC χ-SimM1 0,225 0,277 0,280 0,282M2 0,212 0,216 0,160 0,217

M1M2 0,284 0,295 0,266 0,280

Nous avons egalement tester ces methodes avec une matrice nommee M1M2, qui est laconcatenation horizontale de M1 et de M2.

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 15 / 19

Page 36: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

Resultats

Methode Cosinus LSA ITCC χ-SimM1 0,225 0,277 0,280 0,282M2 0,212 0,216 0,160 0,217

M1M2 0,284 0,295 0,266 0,280

Cascade M1 → M2 M2 → M1

1 iteration → 1 iteration 0,207 0,2541 iteration → 2 iterations 0,227 0,2411 iterations → 3 iterations 0,222 0,2852 iterations → 1 iterations 0,216 0,2922 iterations → 2 iterations 0,227 0,2462 iterations → 3 iterations 0,225 0,285

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 15 / 19

Page 37: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

Resultats

Methode Cosinus LSA ITCC χ-SimM1 0,225 0,277 0,280 0,282M2 0,212 0,216 0,160 0,217

M1M2 0,284 0,295 0,266 0,280

Anneau M1 ↔ M2 M2 ↔ M1

3 iterations 0,292 0,2244 iterations 0,219 0,266

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 15 / 19

Page 38: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

Resultats

Methode Cosinus LSA ITCC χ-SimM1 0,225 0,277 0,280 0,282M2 0,212 0,216 0,160 0,217

M1M2 0,284 0,295 0,266 0,280

CombinaisonCombinaison : M1|M2

Moyenne Minimum Maximum2 iterations - 2 iterations 0,232 0,220 0,2413 iterations - 3 iterations 0,222 0,225 0,266

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 15 / 19

Page 39: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

Conclusion et Perspectives

Conclusion

I Nous avons teste differentes methodes utilisant un algorithme de calcul deco-similarite pour traiter des donnees multi-relationnelles

I Les resultats obtenus sont moins bon que ceux de LSA mais on observe unelegere amelioration par rapport a l’utilisation de la methode χ-Sim seule

Perspectives

I Amelioration de χ-Sim en cours permettant d’obtenir de meilleurs resultatsque LSA

I Tester nos methodes sur des jeux de donneesI plus complexesI concernant d’autres domaines

I Trouver des fondements theoriques a notre approche

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 16 / 19

Page 40: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

Conclusion et Perspectives

Conclusion

I Nous avons teste differentes methodes utilisant un algorithme de calcul deco-similarite pour traiter des donnees multi-relationnelles

I Les resultats obtenus sont moins bon que ceux de LSA mais on observe unelegere amelioration par rapport a l’utilisation de la methode χ-Sim seule

Perspectives

I Amelioration de χ-Sim en cours permettant d’obtenir de meilleurs resultatsque LSA

I Tester nos methodes sur des jeux de donneesI plus complexesI concernant d’autres domaines

I Trouver des fondements theoriques a notre approche

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 16 / 19

Page 41: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

References

Bisson, G. and Hussain, F. (2008). Chi-sim : A new similarity measure for the co-clusteringtask. In Seventh International Conference on Machine Learning and Applications (ICMLA),pages 211–217. IEEE Computer Society.

Deerwester, S., Dumais, S. T., Furnas, G. W., Thomas, and Harshman, R. (1990). Indexing bylatent semantic analysis. Journal of the American Society for Information Science,41 :391–407.

Dhillon, I. S., Mallela, S., and Modha, D. S. (2003). Information-theoretic co-clustering. InProceedings of The Ninth ACM SIGKDD International Conference on Knowledge Discoveryand Data Mining(KDD-2003), pages 89–98.

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 17 / 19

Page 42: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

Graphe bi-partite

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 18 / 19

Page 43: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

Graphe bi-partite

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 18 / 19

Page 44: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

Graphe bi-partite

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 18 / 19

Page 45: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

Graphe bi-partite

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 18 / 19

Page 46: Classi cation a partir d’une collection de matricesmembres-lig.imag.fr/grimal/paper/grimal2010reiso_slides.pdf · Autant de matrices de donn ees que de relations, comment classi

Contexte Algorithmes Experimentations Conclusion

Methodes

Pour LSA

Nous avons fait varier le nombre k de valeurs singulieres conservees dansl’intervalle [10 . . . 200] avec un pas de 10.

Pour ITCC

Nous avons fait varier pour chaque ensemble de tests le nombre de classes demots dans la plage de valeur suggeree par Dhillon et al. (2003).+ Trois repetitions pour garder le meilleur resultat.

Pour Cosinus, LSA et χ-Sim

Utilisation d’un algorithme de Classification Ascendante Hierarchique (CAH)pour determiner les groupes en fonction des similarites.

C. Grimal & G. Bisson (LIG) Classification a partir d’une collection de matrices Atelier REiSO - 25 Mai 2010 19 / 19