1
État de l'art des méthodes d'extraction automatique de termes-clés Adrien Bougouin, LINA - UMR CNRS 6241 [email protected] Introduction Données Références [1] Eichler, K. et Neumann, G. : DFKI KeyWE : Ranking Keyphrases Extracted from Scientific Articles. [2] Jones K.S. : A Statistical Interpretation of Term Specificity and its Application in Retrieval. [3] Liu Z., Li P., Zheng Y. et Sun M. : Clustering to Find Exemplar Terms for Keyphrase Extraction. [4] Matsuo Y. et Ishizuka M. : Keyword Extraction from a Single Document Using Word Co-occurrence Statis- [3] tical Information. [5] Mihalcea R. et Tarau P. : TextRank : Bringing Order Into Texts. [6] Paukkeri M.S et Honkela T. : Likey : Unsupervised Language-Independent Keyphrase Extraction. [7] Sarkar K., Nasipuri M. et Ghose S. : A New Approach to Keyphrase Extraction Using Neural Networks. [8] Sujian L., Houfeng W., Shiwen Y. et Chengsheng X. : News-Oriented Keyword Indexing with Maximum En- [8] tropy Principle. [9] Tomokiyo T. et Hurst, M. : A Language Model Approach to Keyphrase Extraction. [10] Turney P.D. : Learning Algorithms for Keyphrase Extraction. [11] Wan X. et Xiao J. : Single Document Keyphrase Extraction Using Neighborhood Knowledge. [12] Wien I.H., Paynter G.W., Frank E., Gutwin C. et Nevill-Manning C.G. : KEA : Practical Automatic Key- [11] phrase Extraction. De nombreuses méthodes. → elques points communs : - pré-traitements - extraction des termes candidats → Diverses approches : - usage de groupes sémantiques - usage d'un graphe - entraînement de classifieurs, etc. Document à analyser Collection Extraction de termes candidats + annotations - document = graphe non-orienté - noeuds = noms et adjectifs - liens = co-occurrences - mots ordonnés avec Page- Rank - termes-clés = - k meilleurs mots + concaté- nation si possible (Text- Rank [5]) - k meilleurs termes-candidats en fonction de la somme du score PageRank de leurs mots (SingleRank [11]) Exemple SingleRank 19 2012 alerte août canicule météo 2003 37,9°c record belgique 23°c deuxième nuit température 36°c dimanche oesling pays sud 38°c températures chaleur ensemble exception jaune luxembourg nord orange province rouge année chaude journée atmosphère brise côte légère baisse reste semaine vigilance début orages soirée vague royaume mercure lundi 19 2012 alerte août canicule météo 2003 37,9°c record belgique 23°c deuxième nuit température 36°c dimanche oesling pays sud 38°c températures chaleur ensemble exception jaune luxembourg nord orange province rouge année chaude journée atmosphère brise côte légère baisse reste semaine vigilance début orages soirée vague royaume mercure lundi 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 2 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 2 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Termes-clés : alerte orange ; alerte jaune ; alerte rouge ; alerte ; deuxième nuit ; août 2012 ; août 2003 ; vigilance orange ; légère brise ; luxembourg TF-IDF [2] et Likey [6] : Un terme candidat est un terme-clé si les mots qu’il contient sont : - fréquents dans le document - spécifiques au document Calcul de la divergence Kullback-Leibler entre trois modèles de langue (ML) pour sé- lectionner les termes candidats qui respectent deux propriétés [9] : Utilisation de groupes sémantiques pour couvrir au mieux tous les aspects du document. 1 Regroupement des mots fréquents 2 Estimation de la proba- bilité de co-occurrence d'un terme candidat avec chaque groupe 3 Sélection des termes candidats qui co-occur- rent plus que selon tou- te probabilité avec les groupes 1 Regroupement des mots 2 Identification du centroïde de chaque groupe 3 Sélection des termes can- didats qui contiennent un ou plusieurs centroïdes Traits Classifieurs entraînés à partir de Réseau de neurones [7] Modèle probabiliste : - classifieur naïf bayésien [12] - modèle d'entropie maximale [8] Arbre de décision [10] Séparateur à Vaste Marge [1] trait 1 terme candidat terme-clé non terme-clé trait 2 trait 2 terme-clé non terme-clé oui non oui oui non non test sur trait 1 test sur trait 2 test sur trait 2 trait 2 trait 1 terme-clé non terme-clé hyperplan trait 1 trait 2 terme-clé non terme-clé terme candidat entrées sorties couche cachée - fréquence (TF) - inverse de la fréquence documentaire (IDF) - position de la première occurrence - position de la dernière occurrence - partie du discours (nom, adjectif, etc.) - catégorie syntagmatique (syntagme nominal, syntagme verbal, etc.) - taille (en nombre de mots) - entité nommée (personne, lieu, pays, organi- sme, etc.) - structure du document (résumé, introduc- tion, …), etc. Conclusion L'extraction de termes-clés consiste à sélectionner les locutions (termes candidats) les plus représentatives d'un document. Extraction de termes-clés Pré-traitements : - segmentation en phrases - segmentation en mots - POS tagging supervisées non-supervisées Diverses applications : - indexation automatique - résumé automatique - classification de document Deux catégories de méthodes : - non-supervisées - supervisées 1 2 3 3 Méthodes à base de graphe Méthodes par regroupement Méthodes statistiques grammaticalité Informativité ML n collection ML 1 collection ML n document ML 1 document KeyCluster [3] Matsuo et Ishizuka [4]

Introduction Donnéesadrien-bougouin.github.io/publications/2013/state_of_the_art_recital... · [5] Mihalcea R. et Tarau P. : TextRank : Bringing Order Into Texts. [6] Paukkeri M.S

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Introduction Donnéesadrien-bougouin.github.io/publications/2013/state_of_the_art_recital... · [5] Mihalcea R. et Tarau P. : TextRank : Bringing Order Into Texts. [6] Paukkeri M.S

État de l'art des méthodesd'extraction automatique de termes-clés

Adrien Bougouin, LINA - UMR CNRS [email protected]

Introduction Données

Références[1] Eichler, K. et Neumann, G. : DFKI KeyWE : Ranking Keyphrases Extracted from Scientific Articles.[2] Jones K.S. : A Statistical Interpretation of Term Specificity and its Application in Retrieval. [3] Liu Z., Li P., Zheng Y. et Sun M. : Clustering to Find Exemplar Terms for Keyphrase Extraction. [4] Matsuo Y. et Ishizuka M. : Keyword Extraction from a Single Document Using Word Co-occurrence Statis-[3] tical Information. [5] Mihalcea R. et Tarau P. : TextRank : Bringing Order Into Texts. [6] Paukkeri M.S et Honkela T. : Likey : Unsupervised Language-Independent Keyphrase Extraction. [7] Sarkar K., Nasipuri M. et Ghose S. : A New Approach to Keyphrase Extraction Using Neural Networks. [8] Sujian L., Houfeng W., Shiwen Y. et Chengsheng X. : News-Oriented Keyword Indexing with Maximum En-[8] tropy Principle.[9] Tomokiyo T. et Hurst, M. : A Language Model Approach to Keyphrase Extraction. [10] Turney P.D. : Learning Algorithms for Keyphrase Extraction. [11] Wan X. et Xiao J. : Single Document Keyphrase Extraction Using Neighborhood Knowledge. [12] Wien I.H., Paynter G.W., Frank E., Gutwin C. et Nevill-Manning C.G. : KEA : Practical Automatic Key-[11] phrase Extraction.

De nombreuses méthodes.

→ elques points communs : - pré-traitements - extraction des termes candidats→ Diverses approches : - usage de groupes sémantiques - usage d'un graphe - entraînement de classifieurs, etc.

Documentà

analyser

Collection

Extractionde

termes candidats

+ annotations

- document = graphe non-orienté- noeuds = noms et adjectifs- liens = co-occurrences- mots ordonnés avec Page- Rank- termes-clés = - k meilleurs mots + concaté- nation si possible (Text- Rank [5]) - k meilleurs termes-candidats en fonction de la somme du score PageRank de leurs mots (SingleRank [11])

Exemple SingleRank

19

2012

alerteaoût

canicule

météo

2003

37,9°c

record

belgique

23°c

deuxième

nuit

température

36°cdimancheoesling

pays

sud

38°c

températures

chaleurensemble

exceptionjaune

luxembourg

nord

orange province

rougeannée

chaude

journée

atmosphère

brise

côte

légère

baisse

reste

semaine

vigilance

début

orages

soirée

vague

royaume

mercure

lundi19

2012

alerteaoût

canicule

météo

2003

37,9°c

record

belgique

23°c

deuxième

nuit

température

36°cdimancheoesling

pays

sud

38°c

températures

chaleurensemble

exceptionjaune

luxembourg

nord

orange province

rougeannée

chaude

journée

atmosphère

brise

côte

légère

baisse

reste

semaine

vigilance

début

orages

soirée

vague

royaume

mercure

lundi1

11

1

1

11

1

1

1

1

1

1

2

1

2

11

11

2

1

1 1

1

1

1

1

1

1

1

11

1

1

1

1

1

2

1

1

1

1

11

1

2

1 2

1

1

1

11

1

1

1

1

1

11

1

2

1

1

1 1

1

1

1

1

1

1

1

1

1 11

1

1

1

1

11

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

11

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

Termes-clés : alerte orange ; alerte jaune ; alerte rouge ; alerte ; deuxième nuit ; août 2012 ; août 2003 ; vigilance orange ; légère brise ; luxembourg

TF-IDF [2] et Likey [6] : Un terme candidat est un terme-clé si les mots qu’il contient sont : - fréquents dans le document - spécifiques au document

Calcul de la divergence Kullback-Leiblerentre trois modèles de langue (ML) pour sé-lectionner les termes candidats qui respectentdeux propriétés [9] :

Utilisation de groupes sémantiques pour couvrirau mieux tous les aspects du document.

1 Regroupement des mots fréquents2 Estimation de la proba- bilité de co-occurrence d'un terme candidat avec chaque groupe3 Sélection des termes candidats qui co-occur- rent plus que selon tou- te probabilité avec les groupes

1 Regroupement des mots 2 Identification du centroïde de chaque groupe

3 Sélection des termes can- didats qui contiennent un ou plusieurs centroïdes Traits

Classifieurs

entraînés à partir de

Réseau de neurones [7]

Modèle probabiliste : - classifieur naïf bayésien [12] - modèle d'entropie maximale [8]

Arbre de décision [10]

Séparateur à Vaste Marge [1] trait1

terme candidat

terme-clé non terme-clé

trait2 trait2

terme-clé non terme-clé

oui non

oui ouinon non

test sur trait1

test sur trait2 test sur trait2

trait2

trait1

terme-clé

non terme-clé

hyperplan

trait1

trait2 terme-clé

nonterme-clé

terme candidat

entrées sortiescouche cachée

- fréquence (TF)- inverse de la fréquence documentaire (IDF)- position de la première occurrence- position de la dernière occurrence- partie du discours (nom, adjectif, etc.)- catégorie syntagmatique (syntagme nominal, syntagme verbal, etc.)- taille (en nombre de mots)- entité nommée (personne, lieu, pays, organi- sme, etc.)- structure du document (résumé, introduc- tion, …), etc.

Conclusion

L'extraction de termes-clés consiste à sélectionner les locutions (termes candidats) les plus représentatives d'undocument.

Extraction de termes-clés

Pré-traitements : - segmentation en phrases - segmentation en mots - POS tagging

superviséesnon-supervisées

Diverses applications : - indexation automatique - résumé automatique - classification de document

Deux catégories de méthodes : - non-supervisées - supervisées

1

2

33

Méthodes à base de graphe

Méthodes par regroupement

Méthodes statistiques

grammaticalité

InformativitéMLn

collection

ML1collection

MLndocument

ML1document

KeyCluster [3]Matsuo et Ishizuka [4]