34
Identification de compatibilités entre tags descriptifs de lieux Estelle Delpech 1,2 , Laurent Candillier 1,2 , Léa Laporte 1,2,3 , Samuel Phan 1,2 1 Nomao, 2 Ebuzzing , 3 IRIT 13e Conférence Francophone sur l’Extraction et la Gestion des Connaissances Toulouse, 31 janvier 2013

Identification de compatibilites sémantiques entre descripteurs de lieux

Embed Size (px)

DESCRIPTION

Présentation effectuée lors de la 13e Conférence Francophone sur l'Extraction et la Gestion des Connaissances, le 31/12/2013, Toulouse, France. Vidéo : http://www.canalc2.tv/video.asp?idVideo=11682 Article associé : http://hal.archives-ouvertes.fr/hal-00912332

Citation preview

Page 1: Identification de compatibilites sémantiques entre descripteurs de lieux

Identification decompatibilités entre tags

descriptifs de lieux

Estelle Delpech1,2, Laurent Candillier1,2, Léa Laporte1,2,3, Samuel Phan1,2

1Nomao, 2Ebuzzing , 3IRIT

13e Conférence Francophone sur l’Extraction et la Gestion des Connaissances

Toulouse, 31 janvier 2013

Page 2: Identification de compatibilites sémantiques entre descripteurs de lieux

Plan

1. Contexte & travaux apparentés

2. Expériences

3. Conclusion et perspectives

Page 3: Identification de compatibilites sémantiques entre descripteurs de lieux

Plan

1. Contexte & travaux apparentés

2. Expériences

3. Conclusion et perspectives

Page 4: Identification de compatibilites sémantiques entre descripteurs de lieux

Contexte : recherche d’information locale

http://fr.nomao.com

1 / 29

Page 5: Identification de compatibilites sémantiques entre descripteurs de lieux

Processus d’extraction et d’agrégation dedonnées

2 / 29

Page 6: Identification de compatibilites sémantiques entre descripteurs de lieux

Dédoublonnage de données

DESCRIPTIF 1nom : Les Caves de La Maréchaleadresse :[

rue : Rue Chalandeville : Toulouse

]tel : 05.61.23.89.88tags : restaurant, sud-ouest

DESCRIPTIF 2nom : Caves de La Maréchale SARLadresse :[

rue : Rue Jules Chalandeville : Toulouse

]tel : 0561238988tags : manger, français

3 / 29

Page 7: Identification de compatibilites sémantiques entre descripteurs de lieux

Données bruitées

DESCRIPTIF

nom : Milhau Jean-Pauladresse :[

rue : 147 avenue des minimesville : Toulouse

]tel : 05.61.47.40.40tags : pédiatre, médecin , spécialiste, vie pratiquesanté, installations et techniques sanitaires, plomberie

4 / 29

Page 8: Identification de compatibilites sémantiques entre descripteurs de lieux

Objectif : acquisition de compatibilitésentre tags

Compatibilité

Deux tags sont compatibles s’ils peuvent être associés aumême lieu sans qu’il en résulte une incohérence pragmatique⇒ relation symétrique⇒ binaire ou graduelle selon besoins

4 restaurant vs. manger : compatible4 médecin vs. plombier : incompatible4 concessionaire vs. réparation vélo : ?

5 / 29

Page 9: Identification de compatibilites sémantiques entre descripteurs de lieux

Données disponibles

4 Hiérarchie de tags4 Descriptifs de lieux eux-mêmes

6 / 29

Page 10: Identification de compatibilites sémantiques entre descripteurs de lieux

Hiérarchie de tags

Indices de compatibilité :4 distance4 relation hiérarchique4 propriétés

7 / 29

Page 11: Identification de compatibilites sémantiques entre descripteurs de lieux

Hiérarchie de tags - travaux apparentés

Mesures d’affinités sémantiques calculées à partir de ressourcesstructurées en graphes [Budanitsky and Hirst, 2006] :

4 ressources– réseaux lexicaux : WordNet– ontologies : MeSH– dictionnaires : arc entre vedette et mots définition

4 Mesures basées sur :– plus court chemin– profondeur des nœuds– plus proche parent– étiquette de l’arc

4 Évaluation :– applicative– corrélation jugements humains

8 / 29

Page 12: Identification de compatibilites sémantiques entre descripteurs de lieux

Descriptifs de lieux

4 Descriptif = diverses informations dont :– identifiant de lieu– ensemble de tags– sources ayant fourni le lieu

4 Indices de compatibilité :– tendance de deux tags à apparaître dans les mêmes lieux– tendance de deux tags à apparaître avec les mêmes tags– tendance de deux tags à être donné par les mêmes sources

[non fait]– etc...

9 / 29

Page 13: Identification de compatibilites sémantiques entre descripteurs de lieux

Travaux apparentés : folksonomies

4 Classification issue d’une communauté4 Exemples : Flickr, Delicious

– ensemble de ressources : pages web, photos,– annotées par des utilisateurs,– à l’aide de tags.

10 / 29

Page 14: Identification de compatibilites sémantiques entre descripteurs de lieux

Définition [Hotho et al., 2006]

4 Folksonomie := (U, T ,R,Y )– T = {t1, ...tm} est un ensemble de tags– U = {u1, ...un} est un ensemble d’utilisateurs↔ sources– R = {r1, ...rp} est un ensemble de ressources↔ lieux– Y ⊆ U × T × R– triplet (u, t , r) ∈ Y. attribution du tag t à la ressource r par l’utilisateur u

↔ attribution du tag t au lieu r par la source u

11 / 29

Page 15: Identification de compatibilites sémantiques entre descripteurs de lieux

Identification d’affinités entre tags

4 Applications :– aide à la navigation : recommandation, affinage de

requêtes– acquisition d’ontologies

4 Calcul de l’affinité basée sur[Cattuto et al., 2008, Markines et al., 2009] :

– mesure statistique de la co-occurrence de t1 et t2 dans lesmêmes ressources

– représentation vectorielle : comparaison des ressources outags ou utilisateurs associés à t1 et t2

4 Evaluation :– applicative– corrélation avec la mesure de [Jiang and Conrath, 1997]

12 / 29

Page 16: Identification de compatibilites sémantiques entre descripteurs de lieux

Plan

1. Contexte & travaux apparentés

2. Expériences

3. Conclusion et perspectives

Page 17: Identification de compatibilites sémantiques entre descripteurs de lieux

Expériences

4 Score de compatibilité– CHEVAUCHLIEUX– TAGSVOISINS

4 Classification automatique : COMPATIBLE/ INCOMPATIBLE– LIEUX– HIERARCHIETAGS– COMBINAISON

13 / 29

Page 18: Identification de compatibilites sémantiques entre descripteurs de lieux

CHEVAUCHLIEUX

4 Compatibilité de t1 et t2 =coefficient de chevauchement entre les lieux ayant reçu

t1 et les lieux ayant reçu t2

Overlap(t1, t2) =|L(t1) ∩ L(t2)|

min(|L(t1)|, |L(t2)|)

14 / 29

Page 19: Identification de compatibilites sémantiques entre descripteurs de lieux

TAGSVOISINS

4 Compatibilité de t1 et t2 =similarité entre le voisinage de t1 et le voisinage de t2

4 Voisinage d’un tag =vecteur contenant le nombre de fois ce tag où il

co-occurre avec les autres tags

Cos(~t1, ~t2) =~t1 · ~t2

‖~t1‖ · ‖~t2‖

15 / 29

Page 20: Identification de compatibilites sémantiques entre descripteurs de lieux

LIEUX

4 Modèle de classification appris à partir de 4 variables :– |L(t1) ∩ L(t2)|– |L(t1) ∪ L(t2)|– min(|L(t1)|, |L(t2)|)– max(|L(t1)|, |L(t2)|)

16 / 29

Page 21: Identification de compatibilites sémantiques entre descripteurs de lieux

HIERARCHIETAGS

4 Modèle de classification appris à partir de 10 variablestirées de la hiérarchie de tags :

1. nb. de chemins entre t1 et t2

2. distance min. entre t1 et t2

3. distance max. entre t1 et t2

4. nb. de chemins dans lesquels t1 précède t2 ou t2 précède t1

5. nb. de tags dans {t1, t2} correspondant à un nom de marque(i.e Campanile, Ikéa...)

6. ...

17 / 29

Page 22: Identification de compatibilites sémantiques entre descripteurs de lieux

COMBINAISON

4 Modèle de classification appris à partir de 16 variables :– score co-occurrence : CHEVAUCHLIEUX– score voisinage : TAGSVOISINS– 10 variables de HIERARCHIETAGS– 4 variables de LIEUX

18 / 29

Page 23: Identification de compatibilites sémantiques entre descripteurs de lieux

Données expérimentales

4 15 millions de lieux4 3696 tags4 590 paires de tags annotées avec 2 classes : COMPATIBLE/

INCOMPATIBLE– 7 annotateurs– 1/3 paires annotées par au moins deux annotateurs– Taux de désaccord entre annotateurs : 12%– Désaccords : annotation de l’annotateur le plus consensuel

⇒ 41%COMPATIBLE/ 59% INCOMPATIBLE

19 / 29

Page 24: Identification de compatibilites sémantiques entre descripteurs de lieux

Classifieur

4 Boosting d’arbre de décision - C5 [Quinlan, 1996]– plusieurs petits arbres– vote

4 Paramétrage : 100 arbres

20 / 29

Page 25: Identification de compatibilites sémantiques entre descripteurs de lieux

Évaluation

4 Taux d’erreur : % paires de tags mal classifiées⇒ Validation croisée à 10 blocs

– CHEVAUCHLIEUX, TAGSVOISINS : seuil de compatibilité appris surexemples

– HIERARCHIETAGS, LIEUX, COMBINAISON : classe donnée par C54 Aire sous la courbe ROC

– CHEVAUCHLIEUX, TAGSVOISINS : score– HIERARCHIETAGS, LIEUX, COMBINAISON : utilisation du score de

confiance de C5

21 / 29

Page 26: Identification de compatibilites sémantiques entre descripteurs de lieux

Résultats

taux d’erreur moyen AUROCCOMBINAISON 0,237 0,84LIEUX 0,258 0,82CHEVAUCHLIEUX 0,264 0,81HIERARCHIETAGS 0,293 0,73TAGSVOISINS 0,327 0,70

22 / 29

Page 27: Identification de compatibilites sémantiques entre descripteurs de lieux

Résultats significativement meilleurs

4 t-test unilatéral apparié4 significativement meilleur si valeur p < 5%

LIEUX CHEVAUCHLIEUX HIERARCHIETAGS TAGSVOISINS

COMBINAISON 14% 8% 2% 0,2 %LIEUX - 17% 9% 1 %CHEVAUCHLIEUX - - 14% 2%HIERARCHIETAGS - - - 20%

23 / 29

Page 28: Identification de compatibilites sémantiques entre descripteurs de lieux

Variation du taux d’erreur

taux d’erreur taux d’erreur écart-typemoyen médian

LIEUX 0,258 0,254 0,045COMBINAISON 0,237 0,229 0,052CHEVAUCHLIEUX 0,264 0,254 0,053TAGSVOISINS 0,327 0,348 0,071HIERARCHIETAGS 0,293 0,288 0,077

24 / 29

Page 29: Identification de compatibilites sémantiques entre descripteurs de lieux

Plan

1. Contexte & travaux apparentés

2. Expériences

3. Conclusion et perspectives

Page 30: Identification de compatibilites sémantiques entre descripteurs de lieux

Conclusion

4 Méthode choisie : LIEUX– parmi les meilleures– robuste– simple à mettre en œuvre

4 Taux d’erreur : 25,8%4 Taux de désaccords entre humains : 12%⇒ Apport pour le dédoublonnage, nettoyage

25 / 29

Page 31: Identification de compatibilites sémantiques entre descripteurs de lieux

Application au nettoyage des données

tags faux tags correctsidentifiés perdus

données brutes 15,5% 0

nettoyage hiérarchie 2,5% 12,5%

nettoyage hiérarchie 3,7% 1%

+ compatibilité

26 / 29

Page 32: Identification de compatibilites sémantiques entre descripteurs de lieux

Perspectives

4 Méthode perfectible– utilisation des sources– ressources sémantiques non spécifiques à Nomao

4 Intégration au processus de dédoublonnage4 Méthode applicable à d’autres champs des descriptifs :

– termes– commentaires

27 / 29

Page 33: Identification de compatibilites sémantiques entre descripteurs de lieux

Références I

Budanitsky, A. and Hirst, G. (2006).Evaluating WordNet-based measures of lexical semantic relatedness.Journal of Computational Linguistics, 32(1) :13–47.

Cattuto, C., Benz, D., Hotho, A., and Stumme, G. (2008).Semantic grounding of tag relatedness in social bookmarking systems.In Proceedings of the 7th International Conference on The Semantic Web,pages 615–631, Karlsruhe, Germany.

Hotho, A., Jäschke, R., Schmitz, C., and Stumme, G. (2006).Information retrieval in folksonomies : search and ranking.In Proceedings of the 3rd European conference on The Semantic Web :research and applications, pages 411–426, Budva, Montenegro.

Jiang, J. J. and Conrath, D. W. (1997).Semantic similarity based on corpus statistics and lexical taxonomy.In Proceedings of the International Conference on Research inComputational Linguistics, Taïwan.

Page 34: Identification de compatibilites sémantiques entre descripteurs de lieux

Références II

Markines, B., Cattuto, C., Menczer, F., Benz, D., Hotho, A., and Stumme, G.(2009).Evaluating similarity measures for emergent semantics of social tagging.In Proceedings of the 18th international conference on World wide web,pages 641–650, Madrid, Spain.

Quinlan, R. (1996).Bagging, boosting and c4.5.In 13th National Conference on Artificial Intelligence, pages 725–730.