View
7
Download
0
Category
Preview:
Citation preview
Fouille de textesReconnaissance des entites semantiques
Thierry Hamon
Bureau H202 - Institut GalileeTel. : 33 1.49.40.35.53
LIMSI-CNRShamon@limsi.fr
https://perso.limsi.fr/hamon/Teaching/P13/FDT-2016-2017/
1/30
1 Introduction
2 Mots vides/mots outils
3 Entites nommeesReconnaissance d’entites nommeesMethodes de reconnaissance d’entites nommesProjection de dictionnaires et expressions regulieresSysteme a base de regles
Approche hors-contexteApproche contextuelle
Reconnaissances d’entites nommees par apprentissageOutils
1/30
Fouille de texteChaıne de traitements
Collectedes donnees
Nettoyage etPre-traitements
Annotationdes entites
semantiques
Regroupementdes entites
Selectiondes entites
Post-traitements
Documents (PDF, .doc, etc.)Pages web (HTML, XML, etc.), Mails, Forums, etc.
Nettoyage, Segmentation en mots et phrasesEtiquetage morpho-syntaxique, lemmatisation
Reconnaissance d’entites nommeesReconnaissance et extraction de termes
Acquisition de relations semantiquesClassification et categorisation semantique
Elimination des entites non pertinentesDesambiguısation semantiqueTraitements specifiques lies a la tache
2/30
Introduction
Introduction
La fouille de texte necessite d’identifier plusieurs types d’entitesauquelles est associee une semantique ou un role particulier :
Les mots outils ou vides
Les entites nommees
Les termes
L’utilite des entites depend de leur categorie semantique et de latache visee.Differentes methodes peuvent etre utilisees pour les identifierautomatiquement.
3/30
Introduction
Introduction
La fouille de texte necessite d’identifier plusieurs types d’entitesauquelles est associee une semantique ou un role particulier :
Les mots outils ou vides
Les entites nommees
Les termes
L’utilite des entites depend de leur categorie semantique et de latache visee.
Differentes methodes peuvent etre utilisees pour les identifierautomatiquement.
3/30
Introduction
Introduction
La fouille de texte necessite d’identifier plusieurs types d’entitesauquelles est associee une semantique ou un role particulier :
Les mots outils ou vides
Les entites nommees
Les termes
L’utilite des entites depend de leur categorie semantique et de latache visee.Differentes methodes peuvent etre utilisees pour les identifierautomatiquement.
3/30
Mots vides/mots outils
Mots vides/outils(Stopwords, stop list)
Mots vides/mots-outils
communs mais peu informatif et pas porteur de sens
au sens linguistique : articles, coordinations, pronoms
Exemples :
Anglais : a, an, and, are, as, at, be, but, by,
for, if, in, into, is, it, no, not, of, on
Francais : de, la, l’, le, a, les, et, des, d’, en,
un, du, une
Methode d’identification :
liste finie, de petite taille et connue, pas de variation
donc, identification dans le texte par comparaison de chaınesde caracteres
4/30
Mots vides/mots outils
Mots vides/outils(Stopwords, stop list)
Mots vides/mots-outils
communs mais peu informatif et pas porteur de sens
au sens linguistique : articles, coordinations, pronoms
Exemples :
Anglais : a, an, and, are, as, at, be, but, by,
for, if, in, into, is, it, no, not, of, on
Francais : de, la, l’, le, a, les, et, des, d’, en,
un, du, une
Methode d’identification :
liste finie, de petite taille et connue, pas de variation
donc, identification dans le texte par comparaison de chaınesde caracteres
4/30
Mots vides/mots outils
Mots vides/outilsRemarques
Ne pas confondre avec les mots les plus frequents
ils sont generalement peu informatif pour la fouille de textecertains mots les plus frequents peuvent etre des mots vides
Utilisation possible a differentes etapes de l’analyse desdonnees textuelles
Information utile pour l’extraction d’information (descriptiondes exemples, etc.)
5/30
Entites nommees
Introduction
Entites nommees : unites textuelles particulieres
noms propres
references bibliographiques
mesures, dates, etc.
unites monetaires
Notion parfois floue, pouvant se confondre avec les termes danscertains contextes
6/30
Entites nommees
Introduction
De maniere generale, il s’agit de noms propres pouvant etre classes
dans des categories predefinies
ENAMEX : organisation, lieu, personneTIMEX : dates, expressions temporellesNUMEX : valeurs monetaires, pourcentage, ...
dans des categories specifiques a un domaine
biologie : especes, proteines, genes, etc.medecine : medicaments, conditions medicales, etc.mais aussi noms de bateau, modeles d’avion, etc.
7/30
Entites nommees
Exemple
Ne a Paris le 21 octobre 1944, Jean-Pierre Sauvage a effectue sa these al’Universite de Strasbourg sous la direction de Jean-Marie Lehn. Apres unpost-doctorat a Oxford, il revient en France et effectue sa carriere auCNRS qu’il integre en 1971 et devient directeur de recherche au CNRS en1979. Jean-Pierre Sauvage travaille a l’Institut de science et d’ingenieriesupramoleculaire (CNRS/Universite de Strasbourg). Il a egalement recu lamedaille de bronze en 1978 et celle d’argent du CNRS en 1988.
On peut reconnaıtre
les entites nommees, imbriquees ou non
les types associes aux entites, parfois ambigues
8/30
Entites nommees
Exemple
Ne a Paris le 21 octobre 1944, Jean-Pierre Sauvage a effectue sa these al’Universite de Strasbourg sous la direction de Jean-Marie Lehn. Apresun post-doctorat a Oxford, il revient en France et effectue sa carriere auCNRS qu’il integre en 1971 et devient directeur de recherche au CNRS en1979. Jean-Pierre Sauvage travaille a l’Institut de science et d’ingenieriesupramoleculaire (CNRS/Universite de Strasbourg). Il a egalement recula medaille de bronze en 1978 et celle d’argent du CNRS en 1988.
On peut reconnaıtre
les entites nommees
, imbriquees ou non
les types associes aux entites, parfois ambigues
8/30
Entites nommees
Exemple
Ne a Paris le 21 octobre 1944, Jean-Pierre Sauvage a effectue sa these al’Universite de Strasbourg sous la direction de Jean-Marie Lehn. Apresun post-doctorat a Oxford, il revient en France et effectue sa carriere auCNRS qu’il integre en 1971 et devient directeur de recherche au CNRS en1979. Jean-Pierre Sauvage travaille a l’Institut de science et d’ingenieriesupramoleculaire (CNRS/Universite de Strasbourg). Il a egalement recula medaille de bronze en 1978 et celle d’argent du CNRS en 1988.
On peut reconnaıtre
les entites nommees, imbriquees ou non
les types associes aux entites, parfois ambigues
8/30
Entites nommees
Exemple
Ne a Paris[lieu] le 21 octobre 1944[date], Jean-PierreSauvage[personne] a effectue sa these a l’Universite deStrasbourg[lieu][organisation,lieu] sous la direction de Jean-MarieLehn[personne]. Apres un post-doctorat a Oxford[organisation,lieu], ilrevient en France[lieu] et effectue sa carriere au CNRS[organisation] qu’ilintegre en 1971[date] et devient directeur de recherche auCNRS[organisation] en 1979[date]. Jean-Pierre Sauvage[personne]travaille a l’Institut de science et d’ingenieriesupramoleculaire[organisation] (CNRS[organisation]/Universite deStrasbourg[lieu][organisation,lieu]). Il a egalement recu la medaille debronze en 1978[date] et celle d’argent du CNRS[organisation] en1988[date].
On peut reconnaıtre
les entites nommees, imbriquees ou non
les types associes aux entites, parfois ambigues
8/30
Entites nommees
Exemple
We have previously reported that YaaH and YrbA are spore proteins of B.subtilis that are required for spore resistance and/or germination and thatthey have a motif conserved among so-called cell wall binding proteins[Kodama et al. (1999) J. Bacteriol. 181, 4584-4591, Takamatsu et al.(1999) J. Bacteriol. 181, 4986-4994].
9/30
Entites nommees
Exemple
We have previously reported that YaaH and YrbA are spore proteins of B.subtilis that are required for spore resistance and/or germination and thatthey have a motif conserved among so-called cell wall binding proteins[Kodama et al. (1999) J. Bacteriol. 181, 4584-4591, Takamatsu et al.(1999) J. Bacteriol. 181, 4986-4994].
9/30
Entites nommees
Exemple
We have previously reported that YaaH[protein] and YrbA[protein] arespore proteins of B. subtilis[species] that are required for spore resistanceand/or germination and that they have a motif conserved among so-calledcell wall binding proteins [Kodama et al. (1999) J. Bacteriol. 181,4584-4591, Takamatsu et al. (1999) J. Bacteriol. 181,4986-4994][citation].
9/30
Entites nommees
REN
Reconnaissance d’entites nommees (1)
Obstacle important en TAL :
Majorite des mots inconnus d’un corpus
Porteurs d’informations importantes
Similaires aux groupes nominaux complexes avec beaucoup devariation
(Wikipedia EN) Carl XVI Gustaf of Sweden, Carl XVI Gustaf, CarlGustaf Folke Hubertus, King Carl Gustaf, His Majesty Carl XVIGustaf, King of Sweden, Carl Gustaf(Wikipedia FR) Barack Obama, Barack Hussein Obama II, BarackObama Jr., Obama, president Obama, president Barack Obama
Acronymes peuvent etre similaires aux mots : OTAN, Laser,Radar
Necessitent plusieurs analyses
10/30
Entites nommees
REN
Reconnaissance d’entites nommees (2)
Ensemble particulierement ouvert dans les textes scientifiqueset techniques
Certaines taches demandent de leur associer des categoriessemantiques (extraction d’information)
Plusieurs types d’analyse
Utilisation de dictionnaires ou de listes existantes
Definition d’automates
Analyse statistique ou reconnaissance par apprentissageautomatique
11/30
Entites nommees
REN
Problemes
La portee des classes : Clint Eastwood, l’epouse Chirac, lesfreres Cohen, les democrates, les Boeings, Bison fute
La coordination : Barack et Michelle Obama, M. et MmeObama
L’imbrication : Universite de Strasbourg
Les frontieres : l’equipe de Nantes, le Palais Bourbon,monsieur Hollande/le president Hollande, le couple Obama
Les variantes : l’equipe de Nantes/le stade nantais/lescanaris/les nantais/Nantes/FCN
La polysemie : Clint Eastwood (acteur, realisateur,producteur, mais aussi chanteur jamaıquain, chanson,personne de film), Leclerc (marechal, homme d’affaire, Char,supermarche)
12/30
Entites nommees
REN
Problemes
La portee des classes : Clint Eastwood, l’epouse Chirac, lesfreres Cohen, les democrates, les Boeings, Bison fute
La coordination : Barack et Michelle Obama, M. et MmeObama
L’imbrication : Universite de Strasbourg
Les frontieres : l’equipe de Nantes, le Palais Bourbon,monsieur Hollande/le president Hollande, le couple Obama
Les variantes : l’equipe de Nantes/le stade nantais/lescanaris/les nantais/Nantes/FCN
La polysemie : Clint Eastwood (acteur, realisateur,producteur, mais aussi chanteur jamaıquain, chanson,personne de film), Leclerc (marechal, homme d’affaire, Char,supermarche)
12/30
Entites nommees
REN
Problemes
La portee des classes : Clint Eastwood, l’epouse Chirac, lesfreres Cohen, les democrates, les Boeings, Bison fute
La coordination : Barack et Michelle Obama, M. et MmeObama
L’imbrication : Universite de Strasbourg
Les frontieres : l’equipe de Nantes, le Palais Bourbon,monsieur Hollande/le president Hollande, le couple Obama
Les variantes : l’equipe de Nantes/le stade nantais/lescanaris/les nantais/Nantes/FCN
La polysemie : Clint Eastwood (acteur, realisateur,producteur, mais aussi chanteur jamaıquain, chanson,personne de film), Leclerc (marechal, homme d’affaire, Char,supermarche)
12/30
Entites nommees
REN
Problemes
La portee des classes : Clint Eastwood, l’epouse Chirac, lesfreres Cohen, les democrates, les Boeings, Bison fute
La coordination : Barack et Michelle Obama, M. et MmeObama
L’imbrication : Universite de Strasbourg
Les frontieres : l’equipe de Nantes, le Palais Bourbon,monsieur Hollande/le president Hollande, le couple Obama
Les variantes : l’equipe de Nantes/le stade nantais/lescanaris/les nantais/Nantes/FCN
La polysemie : Clint Eastwood (acteur, realisateur,producteur, mais aussi chanteur jamaıquain, chanson,personne de film), Leclerc (marechal, homme d’affaire, Char,supermarche)
12/30
Entites nommees
REN
Problemes
La portee des classes : Clint Eastwood, l’epouse Chirac, lesfreres Cohen, les democrates, les Boeings, Bison fute
La coordination : Barack et Michelle Obama, M. et MmeObama
L’imbrication : Universite de Strasbourg
Les frontieres : l’equipe de Nantes, le Palais Bourbon,monsieur Hollande/le president Hollande, le couple Obama
Les variantes : l’equipe de Nantes/le stade nantais/lescanaris/les nantais/Nantes/FCN
La polysemie : Clint Eastwood (acteur, realisateur,producteur, mais aussi chanteur jamaıquain, chanson,personne de film), Leclerc (marechal, homme d’affaire, Char,supermarche)
12/30
Entites nommees
REN
Problemes
La portee des classes : Clint Eastwood, l’epouse Chirac, lesfreres Cohen, les democrates, les Boeings, Bison fute
La coordination : Barack et Michelle Obama, M. et MmeObama
L’imbrication : Universite de Strasbourg
Les frontieres : l’equipe de Nantes, le Palais Bourbon,monsieur Hollande/le president Hollande, le couple Obama
Les variantes : l’equipe de Nantes/le stade nantais/lescanaris/les nantais/Nantes/FCN
La polysemie : Clint Eastwood (acteur, realisateur,producteur, mais aussi chanteur jamaıquain, chanson,personne de film), Leclerc (marechal, homme d’affaire, Char,supermarche)
12/30
Entites nommees
Methodes
Methodes de reconnaissanced’entites nommees (1)
Projection de dictionnaires
On retrouve les entites nommees connuesCategorisation des entites nommees
Utilisation des majusculesAlan Turing, Metro Goldwin Mayer, Nobody Can Beat theWiz
Indice insufisant : le premier mot des phrases est generalementen majuscule...Probleme de la limite a droiteInstitut national de recherche en informatique et
en automatique
Organisation des Nations Unies efficaceSolution : utilisation de grammaires des EN et du lexique
13/30
Entites nommees
Methodes
Methodes de reconnaissanced’entites nommees (1)
Projection de dictionnaires
On retrouve les entites nommees connuesCategorisation des entites nommees
Utilisation des majusculesAlan Turing, Metro Goldwin Mayer, Nobody Can Beat theWiz
Indice insufisant : le premier mot des phrases est generalementen majuscule...Probleme de la limite a droiteInstitut national de recherche en informatique et
en automatique
Organisation des Nations Unies efficaceSolution : utilisation de grammaires des EN et du lexique
13/30
Entites nommees
Methodes
Methodes de reconnaissanced’entites nommees (1)
Projection de dictionnaires
On retrouve les entites nommees connuesCategorisation des entites nommees
Utilisation des majusculesAlan Turing, Metro Goldwin Mayer, Nobody Can Beat theWiz
Indice insufisant : le premier mot des phrases est generalementen majuscule...Probleme de la limite a droiteInstitut national de recherche en informatique et
en automatique
Organisation des Nations Unies efficaceSolution : utilisation de grammaires des EN et du lexique
13/30
Entites nommees
dictionnaires et Regex
Projection de dictionnaires
Utile pour reconnaıtre des categories d’entites nommees precisesMais
inutiles si trop petits
sources d’ambiguıte si trop grands
et de toute facon, ils ne sont pas pas exhaustifs !
En general :
Utilisation de dictionnaires d’EN combines a des indicesexternes ou internes identifies manuellement ouautomatiquement
Pour les lieux : utilisation de dictionnaires
14/30
Entites nommees
dictionnaires et Regex
Projection de dictionnaires
Utile pour reconnaıtre des categories d’entites nommees precisesMais
inutiles si trop petits
sources d’ambiguıte si trop grands
et de toute facon, ils ne sont pas pas exhaustifs !En general :
Utilisation de dictionnaires d’EN combines a des indicesexternes ou internes identifies manuellement ouautomatiquement
Pour les lieux : utilisation de dictionnaires
14/30
Entites nommees
dictionnaires et Regex
Exemples
Expressions regulieres :Reconnaissances d’abreviation :([A-Z]\.|[A-Z]\.)+|[A-Z][:consonant:]+\.)
Analyse la variation dans les textes :
si une chaıne/un est seulement en lettres majuscule (OTAN)ou avec la premiere lettre en majuscule (Otan), elle/il peutetre consideree comme une abreviationsi une chaıne/un est est aussi en minuscule, elle/il ne peut etreconsideree comme une abreviation
Voir d’autres exemples dans le cadre du TP
15/30
Entites nommees
dictionnaires et Regex
Exemples
Expressions regulieres :Reconnaissances d’abreviation :([A-Z]\.|[A-Z]\.)+|[A-Z][:consonant:]+\.)
Analyse la variation dans les textes :
si une chaıne/un est seulement en lettres majuscule (OTAN)ou avec la premiere lettre en majuscule (Otan), elle/il peutetre consideree comme une abreviationsi une chaıne/un est est aussi en minuscule, elle/il ne peut etreconsideree comme une abreviation
Voir d’autres exemples dans le cadre du TP
15/30
Entites nommees
REN a base de regles
REN avec un systeme a base de regles
Deux types d’approche
hors-contexte : utilisation d’indices internes
contextuelle : utilisation d’indices externes
16/30
Entites nommees
REN a base de regles
Approche hors-contexte
Utilisation des caracteristiques de la sequenceLes entites ont une structure interne :
Luc Besson, F. Hollande, H. Clintondocteur Jean Dupond, maıtre Durant, president ObamaSherwood Forest, Hollywood Boulevard, Place de l’etoile,aeroport d’Orlygroupe Vivendi, societe General, Airbus group
Utilisation d’indices internes a l’entite
Majuscule, prenoms, abreviation de prenomsMots classifiant des metiers des lieux, des organisations...
17/30
Entites nommees
REN a base de regles
Approche hors-contexte
Utilisation des caracteristiques de la sequenceLes entites ont une structure interne :
Luc Besson, F. Hollande, H. Clintondocteur Jean Dupond, maıtre Durant, president ObamaSherwood Forest, Hollywood Boulevard, Place de l’etoile,aeroport d’Orlygroupe Vivendi, societe General, Airbus group
Utilisation d’indices internes a l’entite
Majuscule, prenoms, abreviation de prenoms
Mots classifiant des metiers des lieux, des organisations...
17/30
Entites nommees
REN a base de regles
Approche hors-contexte
Utilisation des caracteristiques de la sequenceLes entites ont une structure interne :
Luc Besson, F. Hollande, H. Clintondocteur Jean Dupond, maıtre Durant, president ObamaSherwood Forest, Hollywood Boulevard, Place de l’etoile,aeroport d’Orlygroupe Vivendi, societe General, Airbus group
Utilisation d’indices internes a l’entite
Majuscule, prenoms, abreviation de prenomsMots classifiant des metiers
des lieux, des organisations...
17/30
Entites nommees
REN a base de regles
Approche hors-contexte
Utilisation des caracteristiques de la sequenceLes entites ont une structure interne :
Luc Besson, F. Hollande, H. Clintondocteur Jean Dupond, maıtre Durant, president ObamaSherwood Forest, Hollywood Boulevard, Place de l’etoile,aeroport d’Orlygroupe Vivendi, societe General, Airbus group
Utilisation d’indices internes a l’entite
Majuscule, prenoms, abreviation de prenomsMots classifiant des metiers des lieux
, des organisations...
17/30
Entites nommees
REN a base de regles
Approche hors-contexte
Utilisation des caracteristiques de la sequenceLes entites ont une structure interne :
Luc Besson, F. Hollande, H. Clintondocteur Jean Dupond, maıtre Durant, president ObamaSherwood Forest, Hollywood Boulevard, Place de l’etoile,aeroport d’Orlygroupe Vivendi, societe General, Airbus group
Utilisation d’indices internes a l’entite
Majuscule, prenoms, abreviation de prenomsMots classifiant des metiers des lieux, des organisations...
17/30
Entites nommees
REN a base de regles
Approche contextuelle
Hypothese : existence d’un contexte facilitant l’identificationd’entites nommees et leur categorisation
Utilisation du contexte locaux des entites :
Personne : titre, metier, grade, ...juge van Ruymbeke, docteur Freud, monsieur Chirac,general De Gaulle
Organisation : statut, activite, ..la filiale de PSA, la compagnie Ryanair, le motoriste Safran,constructeur aeronautique AirbusLieux :la ville de Rennes, le fleuve amazone, la comete Tchouri, lesud de Paris, base a Lyon, lac BaıcalMais aussi contexte specifique :Transcription of the cotB, cotC, and cotX genesla sonde Rosetta, le robot Philae
18/30
Entites nommees
REN a base de regles
Approche contextuelle
Hypothese : existence d’un contexte facilitant l’identificationd’entites nommees et leur categorisation
Utilisation du contexte locaux des entites :
Personne : titre, metier, grade, ...juge van Ruymbeke, docteur Freud, monsieur Chirac,general De GaulleOrganisation : statut, activite, ..la filiale de PSA, la compagnie Ryanair, le motoriste Safran,constructeur aeronautique Airbus
Lieux :la ville de Rennes, le fleuve amazone, la comete Tchouri, lesud de Paris, base a Lyon, lac BaıcalMais aussi contexte specifique :Transcription of the cotB, cotC, and cotX genesla sonde Rosetta, le robot Philae
18/30
Entites nommees
REN a base de regles
Approche contextuelle
Hypothese : existence d’un contexte facilitant l’identificationd’entites nommees et leur categorisation
Utilisation du contexte locaux des entites :
Personne : titre, metier, grade, ...juge van Ruymbeke, docteur Freud, monsieur Chirac,general De GaulleOrganisation : statut, activite, ..la filiale de PSA, la compagnie Ryanair, le motoriste Safran,constructeur aeronautique AirbusLieux :la ville de Rennes, le fleuve amazone, la comete Tchouri, lesud de Paris, base a Lyon, lac Baıcal
Mais aussi contexte specifique :Transcription of the cotB, cotC, and cotX genesla sonde Rosetta, le robot Philae
18/30
Entites nommees
REN a base de regles
Approche contextuelle
Hypothese : existence d’un contexte facilitant l’identificationd’entites nommees et leur categorisation
Utilisation du contexte locaux des entites :
Personne : titre, metier, grade, ...juge van Ruymbeke, docteur Freud, monsieur Chirac,general De GaulleOrganisation : statut, activite, ..la filiale de PSA, la compagnie Ryanair, le motoriste Safran,constructeur aeronautique AirbusLieux :la ville de Rennes, le fleuve amazone, la comete Tchouri, lesud de Paris, base a Lyon, lac BaıcalMais aussi contexte specifique :Transcription of the cotB, cotC, and cotX genesla sonde Rosetta, le robot Philae
18/30
Entites nommees
REN a base de regles
Identification des entites nommees
Problemes :
conflit entre indices internes et externesLa societe Yves Saint-Laurent, le groupe Hugo Boss, lasociete Hughes Aircraft→ On privilegie l’indice externe
Ambiguıte du contexte :
All American Bank vs. All State PoliceJFK (mais aussi Charles De Gaulle)
→ Un contexte plus large doit etre utilise
Ambiguıte de la coordination
C&A, H&M, Pratt & Whitney vs. Apple et Samsung
19/30
Entites nommees
REN par apprentissage
Reconnaissances d’entites nommeespar apprentissage
Utilisation de methodes d’etiquetage sequentiel :
1 Donnees annotees selon le representation BIO(/IOB)
2 Apprentissage d’un modele (HMM, CRF, etc.) sur les donneesannotees
3 Utilisation du modele pour etiqueter les donnees selon larepresentation BIO
4 Post-traitement pour interpreter la representation BIO
20/30
Entites nommees
REN par apprentissage
Reconnaissances d’entites nommeespar apprentissage
Utilisation de methodes d’etiquetage sequentiel :
1 Donnees annotees selon le representation BIO(/IOB)2 Apprentissage d’un modele (HMM, CRF, etc.) sur les donnees
annotees
3 Utilisation du modele pour etiqueter les donnees selon larepresentation BIO
4 Post-traitement pour interpreter la representation BIO
20/30
Entites nommees
REN par apprentissage
Reconnaissances d’entites nommeespar apprentissage
Utilisation de methodes d’etiquetage sequentiel :
1 Donnees annotees selon le representation BIO(/IOB)2 Apprentissage d’un modele (HMM, CRF, etc.) sur les donnees
annotees3 Utilisation du modele pour etiqueter les donnees selon la
representation BIO
4 Post-traitement pour interpreter la representation BIO
20/30
Entites nommees
REN par apprentissage
Reconnaissances d’entites nommeespar apprentissage
Utilisation de methodes d’etiquetage sequentiel :
1 Donnees annotees selon le representation BIO(/IOB)2 Apprentissage d’un modele (HMM, CRF, etc.) sur les donnees
annotees3 Utilisation du modele pour etiqueter les donnees selon la
representation BIO4 Post-traitement pour interpreter la representation BIO
20/30
Entites nommees
REN par apprentissage
Representation BIO
Chaque mot est associe a une classe
B (Begin), I (Inside), O (Outside)ou en prenant en compte la categorie semantique :
Personne : B-PERS (Begin), I-PERS (Inside)Organisation : B-ORG (Begin), I-ORG (Inside)...O (Outside)
Autres representations : BIO2, BILOU
21/30
Entites nommees
REN par apprentissage
Exemple
NeaParis LOCle21 DATEoctobre DATE1944 DATE,Jean-Pierre PERSSauvage PERSaeffectuesathese
22/30
Entites nommees
REN par apprentissage
Exemple
Ne Oa OParis B-LOCle O21 B-DATEoctobre I-DATE1944 I-DATE, OJean-Pierre B-PERSSauvage I-PERSa Oeffectue Osa Othese O
22/30
Entites nommees
REN par apprentissage
Modele d’apprentissage avec des CRF
Definition d’un modele probabiliste decrivant descaracteristiques de surface specifiques aux entites nommeescomme les CRF
CRF - Conditional Random Field :
Objectif : maximiser p(t|w) sans calculer de modele p(w)permet l’utilisation d’un ensemble de features plus importantModele graphique (CRF lineaire)
p(t|w) =
∏Ni=2 exp(
∑k λk fk (ti−1, ti ,w , i))∑
t′ exp(∏N
i=2 exp(∑
k λk fk (t ′i−1, t′i ,w , i)))
Les features fk doivent etre definies par l’utilisateur
Les parametres du modele (λk ) sont estimes sur des donneesd’entraınement
23/30
Entites nommees
REN par apprentissage
Structure graphique d’un CRF
ti−2 ti−1 ti ti+1
wi−2 wi−1 wi wi+1
24/30
Entites nommees
REN par apprentissage
Definition des features
Prise en compte des observations (donnees annotes)
fk (ti−1, ti ,w , i) = 1 1 si {M,Mme,Melle} ∩ {wi−3, ...,wi−1} 6= ∅et ti = B-PERS
= 0 sinon
Exemple d’implementation : Wapiti (Lavergne, 2010)https://wapiti.limsi.fr/
Definition de patrons a trous pour generer les features
Une feature est generee par l’application d’un patron sur uneligne
L’apprentissage associe un poids λk a chaque feature fk (...)
On se limite a des sequences de deux etiquettes (par ex. yi etyi−1)
25/30
Entites nommees
REN par apprentissage
Exemple d’utilisation de patronsNe VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O
26/30
Entites nommees
REN par apprentissage
Exemple d’utilisation de patrons
Patron de features :forme flechie, etiquette morpho-syntaxique,lemme, et etiquette EN du mot courant
Ne VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O
26/30
Entites nommees
REN par apprentissage
Exemple d’utilisation de patrons
Patron de features :forme flechie, etiquette morpho-syntaxique,lemme, et etiquette EN du mot courant
Ne VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O
26/30
Entites nommees
REN par apprentissage
Exemple d’utilisation de patrons
Patron de features :forme flechie, etiquette morpho-syntaxique,lemme, et etiquette EN du mot courant
Ne VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O
26/30
Entites nommees
REN par apprentissage
Exemple d’utilisation de patrons
Patron de features :forme flechie, etiquette morpho-syntaxique,lemme, et etiquette EN du mot courant
Ne VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O
26/30
Entites nommees
REN par apprentissage
Exemple d’utilisation de patrons
Patron de features :forme flechie, etiquette morpho-syntaxique,lemme, et etiquette EN du mot courant
Ne VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O
26/30
Entites nommees
REN par apprentissage
Exemple d’utilisation de patrons
Patron de features :forme flechie, etiquette morpho-syntaxique,lemme, et etiquette EN du mot courant
Ne VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O
26/30
Entites nommees
REN par apprentissage
Exemple d’utilisation de patrons
Patron de features :forme flechie, etiquette morpho-syntaxique,lemme, et etiquette EN du mot courant
Ne VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O
26/30
Entites nommees
REN par apprentissage
Exemple d’utilisation de patrons
Patron de features :forme flechie, etiquette morpho-syntaxique,lemme, et etiquette EN du mot courant
Ne VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O
26/30
Entites nommees
REN par apprentissage
Exemple d’utilisation de patrons
Patron de features :forme flechie, etiquette morpho-syntaxique,lemme, et etiquette EN du mot courant
Ne VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O
26/30
Entites nommees
REN par apprentissage
Exemple d’utilisation de patronsNe VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O
Patron de features :etiquette morpho-syntaxique, lemme etetiquette EN du mot courantetiquette morpho-syntaxique et etiquette ENdu mot precedent
26/30
Entites nommees
REN par apprentissage
Exemple d’utilisation de patronsNe VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O
Patron de features :etiquette morpho-syntaxique, lemme etetiquette EN du mot courantetiquette morpho-syntaxique et etiquette ENdu mot precedent
26/30
Entites nommees
REN par apprentissage
Exemple d’utilisation de patronsNe VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O
Patron de features :etiquette morpho-syntaxique, lemme etetiquette EN du mot courantetiquette morpho-syntaxique et etiquette ENdu mot precedent
26/30
Entites nommees
REN par apprentissage
Exemple d’utilisation de patronsNe VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O
Patron de features :etiquette morpho-syntaxique, lemme etetiquette EN du mot courantetiquette morpho-syntaxique et etiquette ENdu mot precedent
26/30
Entites nommees
REN par apprentissage
Exemple d’utilisation de patronsNe VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O
Patron de features :etiquette morpho-syntaxique, lemme etetiquette EN du mot courantetiquette morpho-syntaxique et etiquette ENdu mot precedent
26/30
Entites nommees
REN par apprentissage
Exemple d’utilisation de patronsNe VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O
Patron de features :etiquette morpho-syntaxique, lemme etetiquette EN du mot courantetiquette morpho-syntaxique et etiquette ENdu mot precedent
26/30
Entites nommees
REN par apprentissage
Exemple d’utilisation de patronsNe VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O
Patron de features :etiquette morpho-syntaxique, lemme etetiquette EN du mot courantetiquette morpho-syntaxique et etiquette ENdu mot precedent
26/30
Entites nommees
REN par apprentissage
Exemple d’utilisation de patronsNe VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O
Patron de features :etiquette morpho-syntaxique, lemme etetiquette EN du mot courantetiquette morpho-syntaxique et etiquette ENdu mot precedent
26/30
Entites nommees
REN par apprentissage
Exemple d’utilisation de patronsNe VER:pper naıtre Oa PRP a OParis NAM Paris B-LOCle DET:ART le O21 NUM @card@ B-DATEoctobre NOM octobre I-DATE1944 NUM @card@ I-DATE, PUN , OJean-Pierre NAM Jean-Pierre B-PERSSauvage NAM Sauvage I-PERSa VER:pres avoir Oeffectue VER:pper effectuer Osa DET:POS son Othese NOM these Oa PRP a Ol’ DET:ART le OUniversite NOM universite B-ORGde PRP de I-PERSStrasbourg NAM Strasbourg I-ORGsous PRP sous Ola DET:ART le Odirection NOM direction Ode PRP de OJean-Marie NAM Jean-Marie B-PERSLehn NAM Lehn I-PERS. SENT . O
etc.
26/30
Entites nommees
REN par apprentissage
Processus
CRF lineaire :
Donnees annotees utilises comme exemple ((w , y))Definition des features ou des patrons de features (fk (...))Apprentissage des poids du CRF permettant d’obtenir unmodele (λk )Application du modele sur de nouvelles donnees en cherchantla sequence d’annotations y qui maximise p(t|w)
27/30
Entites nommees
REN par apprentissage
Bilan
CRF : meilleures resultats pour les taches correspondant a desannotations sur des sequences
Autres possibilites :sans etiquetage sequentiel : arbres de decision, SVM, etc.
28/30
Entites nommees
REN par apprentissage
Bilan et performance
Utilisation de regles
Regles lisibles, evolution des systemes par ajout de lexique,mais cout de la descriptionSurtout adaptes a la langue ecriteRappel & precision > 90%
Apprentissage de modeles
Modeles numerique, arbre de decision,... difficilementmodifiables, mais cout de la description faible (necessite uncorpus d’apprentissage)Surtout adaptes a la langue orale, mais aussi bonneperformances sur les textes de specialiteRappel entre 50 et 90%
Systemes mixtes : avantages et inconvenients des deux
Mais performances variables suivant les entites nommees et lenombre de categories
29/30
Entites nommees
Outils
Outils de reconnaissance d’entites nommees
HeidelTime (expressions temporelles)http://dbs.ifi.uni-heidelberg.de/index.php?id=129
GeniaTagger (entites nommees en genomiques)http://www.nactem.ac.uk/GENIA/tagger/
LIA NE (pour le francais)http://pageperso.lif.univ-mrs.fr/~frederic.bechet/download.html
Stanford NER (pour l’anglais, l’allemand, l’espagnol et lechinois) http://nlp.stanford.edu/ner/index.shtml
30/30
Recommended