89
Introduction efinition Approches Extraction Terminologique Bilan Terminologie computationnelle Extraction de termes Master Linguistique informatique – Universit´ e Paris Diderot https://perso.limsi.fr/hamon/Teaching/P7/Termino-2018-2019/ Thierry Hamon [email protected] LIMSI-CNRS & Institut Galil´ ee - Universit´ e Paris 13 Septembre – octobre 2018 1/55 Terminologie T Hamon

Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Terminologie computationnelleExtraction de termes

Master Linguistique informatique – Universite Paris Diderothttps://perso.limsi.fr/hamon/Teaching/P7/Termino-2018-2019/

Thierry [email protected]

LIMSI-CNRS &Institut Galilee - Universite Paris 13

Septembre – octobre 2018

1/55 Terminologie T Hamon

Page 2: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Plan

1 Introduction

2 Exemples de terminologies (domaine medical)3 Constitution de terminologie a partir de corpus

1 Extraction de termes2 Extraction de relations

2/55 Terminologie T Hamon

Page 3: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Plan

Approches pour l’extraction de termes

Outils pour l’extraction

3/55 Terminologie T Hamon

Page 4: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Introduction

Textes de specialite : Acces aux informations du domaine (medecine,aviation, electricite, etc.)

Exemple d’application : Extraction d’information a partir de de textes despecialite (articles scientifiques biomedicaux, dossiers patients, textes deloi, etc.) [Cohen et DF 2013, Meystre et al. 2008]

Points d’appui :

Utilisation d’exemple annotes

Augmentation de la couverture des textes grace a des ressourcesterminologiques

Thesaurus, nomenclature, glossaire, classificationExemples : MeSH, MedDRA, EPA, IUPAC, EngineeringInformation thesaurus

4/55 Terminologie T Hamon

Page 5: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

IntroductionExemple

22 yo male, h/o primitive neuroectodermal tumor with mets tobrainC0006104 and spineC0037949, transferred from Hospital1, initiallyin Dept1 and then transferred to the floor.He was initially diagnosed with a thoracicC0817096 gangliogliom/resected in 2012. He had backC0004600 pain in 2/04, seen at Dept2,and was found to have mets to brainC0006104 and spineC0037949.

en gras: termes issus de l’UMLS/ANAT

Mais ces ressources sont insuffisantes[Bodenreider et al. 2002, Mccray et al. 2002]

Il est souvent necessaire :

d’adapter les ressources terminologiques aux textes a traiter(probleme de couverture, d’adequation, etc.)

de creation de ressources specifiques(pas de ressources adaptees et decrivent les informations visees, etc.)

5/55 Terminologie T Hamon

Page 6: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

IntroductionExemple

22 yo male, h/o primitive neuroectodermal tumor with mets tobrainC0006104 and spineC0037949, transferred from Hospital1, initiallyin Dept1 and then transferred to the floor.He was initially diagnosed with a thoracicC0817096 gangliogliom/resected in 2012. He had backC0004600 pain in 2/04, seen at Dept2,and was found to have mets to brainC0006104 and spineC0037949.

en gras: termes issus de l’UMLS/ANAT

Mais ces ressources sont insuffisantes[Bodenreider et al. 2002, Mccray et al. 2002]

Il est souvent necessaire :

d’adapter les ressources terminologiques aux textes a traiter(probleme de couverture, d’adequation, etc.)

de creation de ressources specifiques(pas de ressources adaptees et decrivent les informations visees, etc.)

5/55 Terminologie T Hamon

Page 7: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

IntroductionExemple

22 yo male, h/o primitive neuroectodermal tumor with mets tobrainC0006104 and spineC0037949, transferred from Hospital1, initiallyin Dept1 and then transferred to the floor.He was initially diagnosed with a thoracicC0817096 gangliogliom/resected in 2012. He had backC0004600 pain in 2/04, seen at Dept2,and was found to have mets to brainC0006104 and spineC0037949.

en gras: termes issus de l’UMLS/ANAT

Mais ces ressources sont insuffisantes[Bodenreider et al. 2002, Mccray et al. 2002]

Il est souvent necessaire :

d’adapter les ressources terminologiques aux textes a traiter(probleme de couverture, d’adequation, etc.)

de creation de ressources specifiques(pas de ressources adaptees et decrivent les informations visees, etc.)

5/55 Terminologie T Hamon

Page 8: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

IntroductionExemple

22 yo male, h/o primitive neuroectodermal tumor with mets tobrainC0006104 and spineC0037949, transferred from Hospital1, initiallyin Dept1 and then transferred to the floor.He was initially diagnosed with a thoracicC0817096 gangliogliom/resected in 2012. He had backC0004600 pain in 2/04, seen at Dept2,and was found to have mets to brainC0006104 and spineC0037949.

en gras: termes issus de l’UMLS/ANAT

Mais ces ressources sont insuffisantes[Bodenreider et al. 2002, Mccray et al. 2002]

Il est souvent necessaire :

d’adapter les ressources terminologiques aux textes a traiter(probleme de couverture, d’adequation, etc.)

de creation de ressources specifiques(pas de ressources adaptees et decrivent les informations visees, etc.)

5/55 Terminologie T Hamon

Page 9: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Disposer de ressources terminologiquesadaptees a la tache

Identifier des variantes des termes[Jacquemin 1997, Nenadic et al. 2004, Spasic et al. 2013]

mets to brain and spine → spine metastasesC0684550

Inapplicable lorsqu’on ne dispose pas de terminologie ou que lestypes semantiques des entites recherchees ne sont pas presents dansles terminologies disponibles

Extraire les termes potentiels [Cabre et al. 2001, Pazienza et al. 2005]

et regrouper ces termes grace a des methodes d’acquisition derelations semantiques [Grabar et Hamon 2004]

6/55 Terminologie T Hamon

Page 10: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Disposer de ressources terminologiquesadaptees a la tache

Identifier des variantes des termes[Jacquemin 1997, Nenadic et al. 2004, Spasic et al. 2013]

mets to brain and spine → spine metastasesC0684550

Inapplicable lorsqu’on ne dispose pas de terminologie ou que lestypes semantiques des entites recherchees ne sont pas presents dansles terminologies disponibles

Extraire les termes potentiels [Cabre et al. 2001, Pazienza et al. 2005]

et regrouper ces termes grace a des methodes d’acquisition derelations semantiques [Grabar et Hamon 2004]

6/55 Terminologie T Hamon

Page 11: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Exemple

22 yo male , h/o primitive neuroectodermal tumor with mets to

brainC0006104 and spineC0037949 , transferred from Hospital1,

initially in Dept1 and then transferred to the floor. He was initially

diagnosed with a thoracicC0817096 gangliogliom /resected in 2012.

He had backC0004600 painC0004604 in 2/04, seen at Dept2, and was

found to have mets to brainC0006104 and spineC0037949 .

en gras: termes issus de l’UMLS/ANAT – box : termes candidats

7/55 Terminologie T Hamon

Page 12: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Un terme ou non ?

Qu’est-ce qui n’est pas un terme ?

Qu’est-ce qu’un terme ?

8/55 Terminologie T Hamon

Page 13: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Un terme ou non ?

Dermatose acantholytique

Crampes de l’abdomen

Predisposition accident

Dettes a recouvrer

Acupuncture, traitement

Acides acetiques

Acetiques, acides

Syndrome Adams Strokes

Adams Strokes, syndrome

9/55 Terminologie T Hamon

Page 14: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Un terme ou non ?

Onzieme paire cranienne

Huitieme paire cranienne, maladie

Troubles de l’adaptation avec perturbation mixte des emotionset des conduites

Malformations induites par les composes chimiques

Syndrome de secretion inappropriee d’hormone de croissance

Nucleoside-2’,3’-cyclic-phosphate 3’-nucleotido-hydrolase

Desoxyribonuclease (ATP-andD-adenosyl-L-methionine-dependante)

10/55 Terminologie T Hamon

Page 15: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Un terme ou non ?A. Rey. La terminologie. Noms et notions. Que sais-je ?

La terminologie exclue :

marques d’enonciation :

pronoms personnelsadjectifs possessifsadverbes de temps et de lieu

mots “ grammaticaux ”

verbes (sauf si assimilables a un nom)

11/55 Terminologie T Hamon

Page 16: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Ou sont les termes ?

Combined action of two transcription factors regulates genesencoding spore coat proteins of Bacillus subtilis.During sporulation of Bacillus subtilis, spore coat proteinsencoded by cot genes are expressed in the mother cell anddeposited on the forespore. Transcription of the cotB, cotC,and cotX genes by final sigma(K) RNA polymerase is activatedby a small, DNA-binding protein called GerE. The promoterregion of each of these genes has two GerE binding sites. 5’deletions that eliminated the more upstream GerE site decreasedexpression of lacZ fused to cotB and cotX by ...

12/55 Terminologie T Hamon

Page 17: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Ou sont les termes ?

Combined action of two transcription factors regulates genesencoding spore coat proteins of Bacillus subtilis.During sporulation of Bacillus subtilis, spore coat proteinsencoded by cot genes are expressed in the mother cell anddeposited on the forespore. Transcription of the cotB, cotC,and cotX genes by final sigma(K) RNA polymerase is activatedby a small, DNA-binding protein called GerE. The promoterregion of each of these genes has two GerE binding sites. 5’deletions that eliminated the more upstream GerE site decreasedexpression of lacZ fused to cotB and cotX by ...

12/55 Terminologie T Hamon

Page 18: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Ou sont les termes ?

En cas d’intolerance aux inhibiteurs de l’enzyme deconversion, dans le cadre de l’insuffisance cardiaquechronique congestive, l’essai des Veterans (V-HeFT II) amontre la possibilite d’utiliser comme traitementsubstitutif l’association hydralazine (37,5 mg/j) -dinitrate d’isosorbide (20 mg/j). Les antagonistes desrecepteurs de l’angiotensine II (losartan) mis sur lemarche avec l’indication hypertension arterielle sontactuellement en cours d’etude pour evaluer leur effettherapeutique en termes de morbidite ou mortalite dansl’insuffisance cardiaque.

13/55 Terminologie T Hamon

Page 19: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Ou sont les termes ?

En cas d’intolerance aux inhibiteurs de l’enzyme deconversion, dans le cadre de l’insuffisance cardiaquechronique congestive, l’essai des Veterans (V-HeFTII) a montre la possibilite d’utiliser comme traitementsubstitutif l’association hydralazine (37,5 mg/j) -dinitrate d’isosorbide (20 mg/j). Les antagonistes desrecepteurs de l’angiotensine II (losartan) mis sur lemarche avec l’indication hypertension arterielle sontactuellement en cours d’etude pour evaluer leur effettherapeutique en termes de morbidite ou mortalitedans l’insuffisance cardiaque.

14/55 Terminologie T Hamon

Page 20: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Vers une acquisition automatiqueTerminologie descriptive

Traditionnellement : Methodes semi-automatiques d’acquisitionterminologique destinees a aider les terminologues a construire desterminologies

1 Constitution d’une liste de termes candidats

2 Mise en relation des termes candidats

3 Validation par un terminologue des informations extraites→ Definition de fiches terminologiques

15/55 Terminologie T Hamon

Page 21: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Processus de construction d’une terminologie

Corpus

Etiquetagemorpho-syntaxique

Lemmatisation

Extraction de termesListe determes

candidats

Terminologueou

utilisateur

Mise enrelation

des termescandidats

Reseauterminologique

Terminologueou

utilisateur

16/55 Terminologie T Hamon

Page 22: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Processus de construction d’une terminologie

Corpus

Etiquetagemorpho-syntaxique

Lemmatisation

Extraction de termesListe determes

candidats

Terminologueou

utilisateur

Mise enrelation

des termescandidats

Reseauterminologique

Terminologueou

utilisateur

16/55 Terminologie T Hamon

Page 23: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Processus de construction d’une terminologie

Corpus

Etiquetagemorpho-syntaxique

Lemmatisation

Extraction de termesListe determes

candidats

Terminologueou

utilisateur

Mise enrelation

des termescandidats

Reseauterminologique

Terminologueou

utilisateur

16/55 Terminologie T Hamon

Page 24: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Processus de construction d’une terminologie

Corpus

Etiquetagemorpho-syntaxique

Lemmatisation

Extraction de termesListe determes

candidats

Terminologueou

utilisateur

Mise enrelation

des termescandidats

Reseauterminologique

Terminologueou

utilisateur

16/55 Terminologie T Hamon

Page 25: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Processus de construction d’une terminologie

Corpus

Etiquetagemorpho-syntaxique

Lemmatisation

Extraction de termesListe determes

candidats

Terminologueou

utilisateur

Mise enrelation

des termescandidats

Reseauterminologique

Terminologueou

utilisateur

16/55 Terminologie T Hamon

Page 26: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Processus de construction d’une terminologie

Corpus

Etiquetagemorpho-syntaxique

Lemmatisation

Extraction de termesListe determes

candidats

Terminologueou

utilisateur

Mise enrelation

des termescandidats

Reseauterminologique

Terminologueou

utilisateur

16/55 Terminologie T Hamon

Page 27: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Processus de construction d’une terminologie

Corpus

Etiquetagemorpho-syntaxique

Lemmatisation

Extraction de termes

Ressources terminologiquesRegles d’extraction

Expressions regulieresCooccurrences

Liste determes

candidats

Terminologueou

utilisateur

Mise enrelation

des termescandidats

Patrons lexico-syntaxiquesInduction lexicale

Regles de substitutionApproche distributionnelleRessources terminologiques

Reseauterminologique

Terminologueou

utilisateur

17/55 Terminologie T Hamon

Page 28: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Vers une acquisition automatique

Principalement des approches linguistique a base de regles (prise encompte des contraintes theoriques de constitution de terminologies)

Utilisation de ces methodes

de maniere completement automatique

pour l’adaptation de ces ressources

dans le cadre d’applications reelles

18/55 Terminologie T Hamon

Page 29: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Extraction terminologique

Corpus

Etiquetagemorpho-syntaxique

Lemmatisation

Extraction de termesListe determes

candidats

Terminologueou

utilisateur

Mise enrelation

des termescandidats

Reseauterminologique

Terminologueou

utilisateur

19/55 Terminologie T Hamon

Page 30: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Extraction terminologique

Corpus

Etiquetagemorpho-syntaxique

Lemmatisation

Extraction de termesListe determes

candidats

Terminologueou

utilisateur

Mise enrelation

des termescandidats

Reseauterminologique

Terminologueou

utilisateur

19/55 Terminologie T Hamon

Page 31: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Reconnaissance vs. extraction de termes

Reconnaissance : Projection des termes issus d’uneterminologie sur un texte

Utilisation de methodes plus ou moins complexes (projection directe,

calcul de variantes terminologiques, distance semantique, etc.)

Extraction : Decouverte des termes directement dans le corpus

Identification des syntagmes (nominaux) pouvant etre des termesCalcul de

la cohesion de leurs composants (unithood)leur caractere terminologique (termhood)

[Kageura et Umino 1996]

20/55 Terminologie T Hamon

Page 32: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Processus de construction d’une terminologie

Textes

lemmatisation+ POS tagging

Extraction de termes

approches a base de regles

Termescandidats

Tri des termes

frequence

longueur des termes

C-Value

Termes

candidats

ordonnees

Validationpar un

terminologue

22 yo male , h / o primitive neuroectodermal tumor with mets tobrain and spine , transferred from Hospital1 , initially in Dept1 andthen transferred to the floor .He was initially diagnosed with a thoracic gangliogliom / resected in2012 .He had back pain in 2 / 04 , seen at Dept2 , and was found to havemets to brain and spine .

21/55 Terminologie T Hamon

Page 33: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Processus de construction d’une terminologie

Textes

lemmatisation+ POS tagging

Extraction de termes

approches a base de regles

Termescandidats

Tri des termes

frequence

longueur des termes

C-Value

Termes

candidats

ordonnees

Validationpar un

terminologue

22CD yoJJ maleNN ,, hNN /SYM oNN primitiveJJ neuroectodermalJJtumorNN withIN metNNS toTO brainNN andCC spineNN ,, transferVBNfromIN Hospital1NNP ,, initiallyRB inIN Dep1NNP andCC thenRB

transferVBN toTO theDT floorNN ..HePRP beVBD initiallyRB diagnoseVBN withIN aDT thoracicJJgangliogliomNN /SYM resecteVBN inIN 2012CD ..HePRP haveVBD backJJ painNN inIN 2CD /SYM 04CD ,, seeVBN atINDept2NNP ,, andCC beVBD findVBN toTO haveVB metNNS toTO

brainNN andCC spineNN ..

21/55 Terminologie T Hamon

Page 34: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Processus de construction d’une terminologie

Textes

lemmatisation+ POS tagging

Extraction de termes

approches a base de regles

Termescandidats

Tri des termes

frequence

longueur des termes

C-Value

Termes

candidats

ordonnees

Validationpar un

terminologue

yo male thoracic gangliogliomh back paino metsprimitive neuroectodermal tumor brainmets spinebrain floorspine...

21/55 Terminologie T Hamon

Page 35: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Processus de construction d’une terminologie

Textes

lemmatisation+ POS tagging

Extraction de termes

approches a base de regles

Termescandidats

Tri des termes

frequence

longueur des termes

C-Value

Termes

candidats

ordonnees

Validationpar un

terminologue

f l Cv1 f l Cv1

yo male 1 1 1.58 spine 2 1 2h 1 1 1 floor 1 1 1o 1 1 0 thoracic gangliogliom 1 2 1.58mets 2 1 2 back pain 1 2 1.58brain 2 1 2primitive neuroectodermal tumor 1 3 2.32...

21/55 Terminologie T Hamon

Page 36: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Processus de construction d’une terminologie

Textes

lemmatisation+ POS tagging

Extraction de termes

approches a base de regles

Termescandidats

Tri des termes

frequence

longueur des termes

C-Value

Termes

candidats

ordonnees

Validationpar un

terminologue

f l Cv1 f l Cv1

yo male 1 1 1.58 spine 2 1 2h 1 1 1 floor 1 1 1o 1 1 0 thoracic gangliogliom 1 2 1.58mets 2 1 2 back pain 1 2 1.58brain 2 1 2primitive neuroectodermal tumor 1 3 2.32...

21/55 Terminologie T Hamon

Page 37: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Approches pour l’extraction de termesAmorcer

decoupage de la phrase surles frontieres syntaxiques des syntagmes terminologiques

pronoms, verbes conjuguesprepositionscoordinationponctuation

reperage de connecteurs grammaticauxde, de l’, du, etc.

reperage d’ancres lexicalesmots “ centraux ” deja connus

22/55 Terminologie T Hamon

Page 38: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Approches pour l’extraction de termesExtraire

recherche de segments repetes dans une fenetre de n mots

recherche de patrons syntaxiques de groupes nominaux

recherche de patrons syntaxiques de groupes nominaux etadjectivaux

application de patrons syntaxiques de bitermes

reperage de syntagmes repetes autour de connecteursgrammaticaux

reperage de syntagmes repetes autour d’ancres lexicales

23/55 Terminologie T Hamon

Page 39: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Approches pour l’extraction de termesAffiner

decomposition en syntagmes minimaux

filtres statistiques

filtres lexicaux

application de regles de variation

fusion de variantes

24/55 Terminologie T Hamon

Page 40: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Approches pour l’extraction de termes

Expressions regulieres et filtrage statistiqueATR & C-Value [Frantzi et al. 2000]

Termes et variantes

Bitermes et variantes & mesures statistiques (ACABIT)[Daille 1995]

Grammaire de termes et meta-regles pour l’appariement desvariantes terminologiques (Faster) [Jacquemin 1997]

Approche contrastiveExtraction des termes autour de pivots lexicaux specialises(TermoStat) [Drouin 2002]

Analyse syntaxique et desambiguısation endogene

Analyse superficielle a base de regles, en cascade (Lexter, Syntex)[Bourigault et al. 2005]

Analyse superficielle a base de patrons minimaux (YATEA )[Aubin et Hamon 2006]

25/55 Terminologie T Hamon

Page 41: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Acabit

Beatrice Daille (1995), Reperage et extraction de terminologie parune approche mixte statistique et linguistique. TAL 36(1-2), p.101-118.

Approche mixte linguistique et statistique

Bitermes et leurs variantes

Extraction de candidats termes a partir d’un corpusprealablement etiquete et desambiguıse

26/55 Terminologie T Hamon

Page 42: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Acabit

L’acquisition terminologique dans Acabit se deroule en deuxetapes :

1 Analyse linguistique et regroupement de variantes :

Corpus etiqueteTransducteurs pour la recherche de sequences nominalesExtraction de candidats termes :

N Adj : station terrienneN1 prep N2 : liaison par satelliteN1 N2 : diode tunnel

Decomposition en candidats termes binaires :

reseau de transit a satellite→ reseau de transit→ reseau a satellite

27/55 Terminologie T Hamon

Page 43: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Acabit

L’acquisition terminologique dans Acabit se deroule en deuxetapes :

2. Filtrage statistique :

Mesures statistiques pour le tri de candidats termes binairesCalcul de scores et de distances sur les composants descandidats termes bases sur les frequenceslog-likehood ratio (Dunning, 1993)le mieux pour retenir les termes candidats sans etre sensibleaux frequences

28/55 Terminologie T Hamon

Page 44: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Lexter

Didier Bourigault (1993), Analyse syntaxique locale pour lereperage de termes complexes dans un texte. TAL, p. 105-117Analyse endogene (pas de connaissance du domaine)

Extraction de candidats termes a partir d’un corpus etiqueteet desambiguıse

Analyse syntaxique de surface

Reperage et analyse des syntagmes nominaux

Organisation de l’ensemble des candidats termes en un reseau

29/55 Terminologie T Hamon

Page 45: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Lexter

L’acquisition des termes est effectuee en trois etapes :

1 Extraction de syntagmes nominaux maximaux

2 Decomposition de syntagmes maximaux

3 Module de structuration

30/55 Terminologie T Hamon

Page 46: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Lexter1. Extraction de syntagmes nominaux maximaux

Reperage de frontieres syntaxiquesverbes conjugues, pronoms, conjonctions de subordination, ...

Extraction de syntagmes nominaux maximaux

Apprentissage endogene sur corpus

Informations de sous-categorisation des noms et des adjectifs,propres aux corpus

Resolution de cas d’ambiguıte de rattachement prepositionnel

Dans un corpus, le nom pression sous-categorise la prepositiona :

pression a l’aspirationpression au refoulement

31/55 Terminologie T Hamon

Page 47: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Lexter2. Decomposition de syntagmes maximaux

Decomposition recursive de syntagmes nominaux maximaux

Tete et expansion syntaxiques

stenose severe du tronc commun de l’artere coronaire gauche

artère coronairesténose sévère

Tête Expansion

Expansion

Expansion

Tête

gauche

Expansion

Expansion

Tête

tronc commun

Tête

ExpansionTête Tête

32/55 Terminologie T Hamon

Page 48: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Lexter2. Decomposition de syntagmes maximaux

Apprentissage endogene sur corpus

Ambiguıte de rattachement au sein de ces groupes nominaux

Candidats termes :

syntagmes maximauxleurs constituants

33/55 Terminologie T Hamon

Page 49: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Lexter3. Module de structuration

Construction d’un reseau de candidats termes

Relation de chaque candidat a ceux dont il est tete ouexpansionstenose / stenose severe...

Calcul d’un coefficient de productivitedensite du reseau autour d’un candidat terme

34/55 Terminologie T Hamon

Page 50: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

LexterExemple de sortie Lexter

En entree :<Prep>En <NomFS>presence <Prep>de <NomFS>stenose

<Adj?S>severe <Prep>de <DetMS>le <NomMS>tronc <Adj?S>commun

<Prep>de <Det?S>l’ <NomFS>artere <Adj?S>coronaire

<Adj?S>gauche <Typo>, <Det?S>on <Pro>se <VCONJ>contente

<Prep>d’ <Det>un <Nom?S>minimum <Prep>d’ <NomFP>injections

<Typo>,

Extraction de candidats termes :−→ (stenose severe) du (tronc commun de l’((arterecoronaire) gauche))−→ minimum d’injections

35/55 Terminologie T Hamon

Page 51: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

TermoStat(Drouin 2002)

Recours a des tests statistiques :

Comparaison du lexique du corpus (de specialite) avec uncorpus de reference (general)Calcul d’un indice de specificite (Lebart et Salem 1994) associea chaque mot

Identification de pivots lexicaux specialises (PLS)

Identifier les termes simples les plus representatifs du corpus despecialite par contraste avec un corpus general

36/55 Terminologie T Hamon

Page 52: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

TermoStatExemple (identification de PLS)

For/IN Dual/JJ MSA/NNP sites/NNS (/( line/NN sites/NNSwith/IN high/JJ OADM/NNP counts/NNS )/SYM shown/VBNin/IN Figure/NN 4/CD -/: 12/CD ,/, the/DT signal/NN flow/NNis/VBZ the/DT same/JJ except/IN that/DT a/DT second/JJMSA/NNP (/( DSCM/NNP or/CC OADM/NNP filter/NN )/SYMis/VBZ placed/VBN between/IN the/DT Booster18/NNP and/CCBooster21/NNP circuit/NN packs/NNS ./.

(exemple issu de Drouin 2002)

37/55 Terminologie T Hamon

Page 53: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

TermoStatExemple (identification de PLS)

For/IN Dual/JJ MSA/NNP sites/NNS (/( line/NN sites/NNSwith/IN high/JJ OADM/NNP counts/NNS )/SYM shown/VBNin/IN Figure/NN 4/CD -/: 12/CD ,/, the/DT signal/NN flow/NNis/VBZ the/DT same/JJ except/IN that/DT a/DT second/JJMSA/NNP (/( DSCM/NNP or/CC OADM/NNP filter/NN)/SYM is/VBZ placed/VBN between/IN the/DT Booster18/NNPand/CC Booster21/NNP circuit/NN packs/NNS ./.

(exemple issu de Drouin 2002)

37/55 Terminologie T Hamon

Page 54: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

TermoStat

PLS : amorce pour l’extraction de termesUtilisation des frontieres de termes (Bourigault 1994) pourextraire les termes candidats :

Frontiere a droite : le PLS (tete du terme)Frontiere a gauche : un element du texte ne pouvantapparaıtre dans un terme

Elimination des termes candidats construits a partir de tetemoins pertinente pour le domaine

38/55 Terminologie T Hamon

Page 55: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

TermoStatExemple (extraction des termes)

For/IN Dual/JJ MSA/NNP sites/NNS (/( line/NN sites/NNSwith/IN high/JJ OADM/NNP counts/NNS )/SYM shown/VBNin/IN Figure/NN 4/CD -/: 12/CD ,/, the/DT signal/NN flow/NNis/VBZ the/DT same/JJ except/IN that/DT a/DT second/JJMSA/NNP (/( DSCM/NNP or/CC OADM/NNP filter/NN)/SYM is/VBZ placed/VBN between/IN the/DT Booster18/NNPand/CC Booster21/NNP circuit/NN packs/NNS ./.

(exemple issu de Drouin 2002)

39/55 Terminologie T Hamon

Page 56: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

TermoStatExemple (extraction des termes)

For/IN Dual/JJ MSA/NNP sites/NNS (/( line/NNsites/NNS with/IN high/JJ OADM/NNP counts/NNS)/SYM shown/VBN in/IN Figure/NN 4/CD -/: 12/CD ,/, the/DTsignal/NN flow/NN is/VBZ the/DT same/JJ except/IN that/DTa/DT second/JJ MSA/NNP (/( DSCM/NNP or/CCOADM/NNP filter/NN )/SYM is/VBZ placed/VBN between/INthe/DT Booster18/NNP and/CC Booster21/NNPcircuit/NN packs/NNS ./.

(exemple issu de Drouin 2002)

39/55 Terminologie T Hamon

Page 57: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

TermoStatExemple (extraction des termes)

For/IN Dual/JJ MSA/NNP sites/NNS (/( line/NNsites/NNS with/IN high/JJ OADM/NNP counts/NNS)/SYM shown/VBN in/IN Figure/NN 4/CD -/: 12/CD ,/, the/DTsignal/NN flow/NN is/VBZ the/DT same/JJ except/IN that/DTa/DT second/JJ MSA/NNP (/( DSCM/NNP or/CCOADM/NNP filter/NN )/SYM is/VBZ placed/VBN between/INthe/DT Booster18/NNP and/CC Booster21/NNPcircuit/NN packs/NNS ./.

(exemple issu de Drouin 2002)

39/55 Terminologie T Hamon

Page 58: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

TermoStatExemple (extraction des termes)

For/IN [ Dual/JJ MSA/NNP ] sites/NNS (/( [ line/NN ]sites/NNS with/IN [ high/JJ OADM/NNP ] counts/NNS)/SYM shown/VBN in/IN Figure/NN 4/CD -/: 12/CD ,/, the/DTsignal/NN [ flow/NN ] is/VBZ the/DT same/JJ except/INthat/DT a/DT second/JJ [ MSA/NNP ] (/( [ DSCM/NNP ]or/CC [ OADM/NNP ] filter/NN )/SYM is/VBZ placed/VBNbetween/IN the/DT [ Booster18/NNP ] and/CC[ Booster21/NNP ] circuit/NN packs/NNS ./.

(exemple issu de Drouin 2002)

39/55 Terminologie T Hamon

Page 59: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

TermoStatExemple (extraction des termes)

For/IN [ [ Dual/JJ MSA/NNP ] sites/NNS ] (/( [ [ line/NN ]sites/NNS ] with/IN [ [ high/JJ OADM/NNP ] counts/NNS ])/SYM shown/VBN in/IN Figure/NN 4/CD -/: 12/CD ,/, the/DTsignal/NN [ flow/NN ] is/VBZ the/DT same/JJ except/INthat/DT a/DT second/JJ [ MSA/NNP ] (/( [ DSCM/NNP ]or/CC [ [ OADM/NNP ] filter/NN ] )/SYM is/VBZ placed/VBNbetween/IN the/DT [ Booster18/NNP ] and/CC [[ Booster21/NNP ] circuit/NN ] packs/NNS ./.

(exemple issu de Drouin 2002)

39/55 Terminologie T Hamon

Page 60: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

TermoStatExemple (extraction des termes)

For/IN [ [ Dual/JJ MSA/NNP ] sites/NNS ] (/( [ [ line/NN ]sites/NNS ] with/IN [ [ high/JJ OADM/NNP ] counts/NNS ])/SYM shown/VBN in/IN Figure/NN 4/CD -/: 12/CD ,/, the/DTsignal/NN [ flow/NN ] is/VBZ the/DT same/JJ except/INthat/DT a/DT second/JJ [ MSA/NNP ] (/( [ DSCM/NNP ]or/CC [ [ OADM/NNP ] filter/NN ] )/SYM is/VBZ placed/VBNbetween/IN the/DT [ Booster18/NNP ] and/CC [ [[ Booster21/NNP ] circuit/NN ] packs/NNS ] ./.

(exemple issu de Drouin 2002)

39/55 Terminologie T Hamon

Page 61: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

TermoStat

Tri des termes candidats suivant un indice terminologique(iTer)Prise en compte de

la frequencela longueur du termela frequence de la tete potentielle d’un terme candidat

40/55 Terminologie T Hamon

Page 62: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

ATR(Frantzi et al 2000)

Combinaison d’informations linguistiques et statistiques

Filtrage linguistique : sequences de mots caracteristiques destermes, composees a partir de categories morpho-syntaxiques

Noun+Noun

(Adj|Noun)+Noun

((Adj|Noun)+|((Adj|Noun)*(NounPrep)?)(Adj|Noun)*)Noun

Anti-dictionnaire : great, numerous, several, year, just, good,etc.

Filtrage statistique : C-value

Prend en compte des informations statistiques associees auxtermesMesure l’independance des termesPrivilegie les termes longs et qui ne sont pas des composantd’autres termes

41/55 Terminologie T Hamon

Page 63: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

ATR(Frantzi et al 2000)

C−value(t) =

{log2(|t|)× f (t) si t n′est pas inclus dans un termelog2(|t|)× (f (t)− 1

P(Tt)

∑t′∈Tt

f (t ′)) sinon

frequence du terme (f (t))

nombre de mot du terme (|t|)frequence du terme comme composant d’un terme plus grand(f (t ′))

Tt ensemble des termes incluant t

nombre de termes plus grand incluant le terme (P(Tt))

Variante : NC-value (Maynard et Ananiadou 2001) – prise encompte des termes d’un thesaurus par calcul d’une distancesemantique

42/55 Terminologie T Hamon

Page 64: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

YATEAYet Another Term ExtrActor

(Aubin et Hamon, 2006)

Extration de termes sur des textes francais et anglais

Analyse syntaxique superficielle (Tete / Modifeur) a l’aide

de patrons minimaux appliques recursivementde l’apprentissage endogene

Rejet des groupes nominaux non analysables

Association de mesures statistiques (Frequences, C-Value1,C-Value*, etc.) [Hamon et al. 2014]

Module CPAN http://search.cpan.org/~thhamon/Lingua-YaTeA/

Developpement dans le cadre du projet ALVIS

Description de l’analyse a partir de fichiers de configuration

Possibilite d’adaptation a un domaine : BioYATEA [Golik et al. 2013]

43/55 Terminologie T Hamon

Page 65: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

YATEA (2)

Identification de groupes nominaux a partir de frontieresmorpho-syntaxiques

22CD yoJJ maleNN ,, hNN/SYMoNN primitiveJJneuroectodermalJJ tumorNN withIN metsNNS toTO brainNN

andCC spineNN ,, transferredVBN fromIN Hospital1NNP ,,initiallyRB inIN Dept1NNP andCC thenRB transferredVBN toTO

theDT floorNN .. HePRP wasVBD initiallyRB diagnosedVBN withIN

aDT thoracicJJ gangliogliomNN //resectedVBN inIN 2012CD ..HePRP hadVBD backJJ painNN inin 2CD/SYM04CD ,, seenVBN atINDept2NNP ,, andCC wasbe foundVBN toTO haveVB metsNNS toTO

brainNN andCC spineNN ..

44/55 Terminologie T Hamon

Page 66: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

YATEA (2)

Identification de groupes nominaux a partir de frontieresmorpho-syntaxiques

22CD yoJJ maleNN ,, hNN/SYMoNN primitiveJJneuroectodermalJJ tumorNN withIN metsNNS toTO brainNN

andCC spineNN ,, transferredVBN fromIN Hospital1NNP ,,initiallyRB inIN Dept1NNP andCC thenRB transferredVBN toTO

theDT floorNN .. HePRP wasVBD initiallyRB diagnosedVBN withIN

aDT thoracicJJ gangliogliomNN //resectedVBN inIN 2012CD ..HePRP hadVBD backJJ painNN inin 2CD/SYM04CD ,, seenVBN atINDept2NNP ,, andCC wasbe foundVBN toTO haveVB metsNNS toTO

brainNN andCC spineNN ..

44/55 Terminologie T Hamon

Page 67: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

YATEA (3)

Analyse syntaxique des groupes nominaux pour en deduire destermes candidats

1. Identification des termes candidats decrits par des patronsd’analyse syntaxique minimaux

NNJJ

M T

(< T > : tete du syntagme, < M > : modifeur de la tete)

neuroectodermal tumor → (neuroectodermal< M >tumor< T >)

tumorneuroectodermal

M T

shortness of breath → shortness< T > of breath< M >

(of) breathshortness

T M

45/55 Terminologie T Hamon

Page 68: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

YATEA (4)2. Exploitation des termes candidats analyses precedemment pouranalyser les groupes nominaux recursivement

Exemple : primitive neuroectodermal tumor

Exploitation du terme neuroectodermal tumordeja analyse

primitive

tumorneuroectodermal

M T

Simplification temporaire : primitiveJJ tumorNN

Application du patron :NNJJ

M T

→tumorprimitive

M T

Redeploiement :

tumorneuroectodermal

M Tprimitive

MT

46/55 Terminologie T Hamon

Page 69: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

YATEA (4)2. Exploitation des termes candidats analyses precedemment pouranalyser les groupes nominaux recursivement

Exemple : primitive neuroectodermal tumor

Exploitation du terme neuroectodermal tumordeja analyse

primitive

tumorneuroectodermal

M T

Simplification temporaire : primitiveJJ tumorNN

Application du patron :NNJJ

M T

→tumorprimitive

M T

Redeploiement :

tumorneuroectodermal

M Tprimitive

MT

46/55 Terminologie T Hamon

Page 70: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

YATEA (4)2. Exploitation des termes candidats analyses precedemment pouranalyser les groupes nominaux recursivement

Exemple : primitive neuroectodermal tumor

Exploitation du terme neuroectodermal tumordeja analyse

primitive tumorneuroectodermal

M T

Simplification temporaire : primitiveJJ tumorNN

Application du patron :NNJJ

M T

→tumorprimitive

M T

Redeploiement :

tumorneuroectodermal

M Tprimitive

MT

46/55 Terminologie T Hamon

Page 71: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

YATEA (4)2. Exploitation des termes candidats analyses precedemment pouranalyser les groupes nominaux recursivement

Exemple : primitive neuroectodermal tumor

Exploitation du terme neuroectodermal tumordeja analyse

primitive tumorneuroectodermal

M T

Simplification temporaire : primitiveJJ tumorNN

Application du patron :NNJJ

M T

→tumorprimitive

M T

Redeploiement :

tumorneuroectodermal

M Tprimitive

MT

46/55 Terminologie T Hamon

Page 72: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

YATEA (4)2. Exploitation des termes candidats analyses precedemment pouranalyser les groupes nominaux recursivement

Exemple : primitive neuroectodermal tumor

Exploitation du terme neuroectodermal tumordeja analyse

primitive tumorneuroectodermal

M T

Simplification temporaire : primitiveJJ tumorNN

Application du patron :NNJJ

M T

→tumorprimitive

M T

Redeploiement :

tumorneuroectodermal

M Tprimitive

MT

46/55 Terminologie T Hamon

Page 73: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

YATEA (4)2. Exploitation des termes candidats analyses precedemment pouranalyser les groupes nominaux recursivement

Exemple : primitive neuroectodermal tumor

Exploitation du terme neuroectodermal tumordeja analyse

primitive tumorneuroectodermal

M T

Simplification temporaire : primitiveJJ tumorNN

Application du patron :NNJJ

M T

→tumorprimitive

M T

Redeploiement :

tumorneuroectodermal

M Tprimitive

MT

46/55 Terminologie T Hamon

Page 74: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Ordonnancement/Filtrage des termes

Textes

lemmatisation+ POS tagging

Extraction de termes

approches a base de regles

Termescandidats

Tri des termes

frequence

longueur des termes

C-Value

Termes

candidats

ordonnees

Validationpar un

terminologue

Difficultes:

identifier la caractere terminologique des syntagmes extraitsordonner les termes candidats pour identifier les termes dudomaine

→ Definition de metriques pour le tri des termes candidats

47/55 Terminologie T Hamon

Page 75: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Ordonnancement/Filtrage des termes

Textes

lemmatisation+ POS tagging

Extraction de termes

approches a base de regles

Termescandidats

Tri des termes

frequence

longueur des termes

C-Value

Termes

candidats

ordonnees

Validationpar un

terminologue

Difficultes:

identifier la caractere terminologique des syntagmes extraitsordonner les termes candidats pour identifier les termes dudomaine

→ Definition de metriques pour le tri des termes candidats

47/55 Terminologie T Hamon

Page 76: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Metriques pour le tri des termes extraits

Frequence : metrique la plus communement considereeimpact variable: degradation du rappel (beaucoup de termes avec une

occurrence) ou la precision

[Justeson et Katz 1995, Frantzi et al. 2000, Dowdall et al. 2002]

Longueur des termes : les termes longs sont moins importantAugmentation legere de la precision quand combinee a la frequence: les

termes simples ou les termes complexes courts sont preferes [Drouin 2002]

C-Value: Termes complexes longs qui ne sont pas inclus dansd’autres termes sont preferes [Frantzi et al. 1997, Frantzi et al. 2000]

C−Value1(t) =

{log2(|t|+ 1) · f (t) si t n’est pas inclus dans un termelog2(|t|+ 1) · (f (t)− 1

P(Tt )

∑t′∈Tt

f (t′)) sinon

Amelioration mitigee : precision augmente de 31% pour les termes inclus

dans d’autres termes, mais seulement 1% pour tous les termes

Variante : NC-value, prise en compte des termes en contexte[Maynard et Ananiadou 2000]

48/55 Terminologie T Hamon

Page 77: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Metriques pour le tri des termes extraits

Frequence : metrique la plus communement considereeimpact variable: degradation du rappel (beaucoup de termes avec une

occurrence) ou la precision

[Justeson et Katz 1995, Frantzi et al. 2000, Dowdall et al. 2002]

Longueur des termes : les termes longs sont moins importantAugmentation legere de la precision quand combinee a la frequence: les

termes simples ou les termes complexes courts sont preferes [Drouin 2002]

C-Value: Termes complexes longs qui ne sont pas inclus dansd’autres termes sont preferes [Frantzi et al. 1997, Frantzi et al. 2000]

C−Value1(t) =

{log2(|t|+ 1) · f (t) si t n’est pas inclus dans un termelog2(|t|+ 1) · (f (t)− 1

P(Tt )

∑t′∈Tt

f (t′)) sinon

Amelioration mitigee : precision augmente de 31% pour les termes inclus

dans d’autres termes, mais seulement 1% pour tous les termes

Variante : NC-value, prise en compte des termes en contexte[Maynard et Ananiadou 2000]

48/55 Terminologie T Hamon

Page 78: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Metriques pour le tri des termes extraits

Frequence : metrique la plus communement considereeimpact variable: degradation du rappel (beaucoup de termes avec une

occurrence) ou la precision

[Justeson et Katz 1995, Frantzi et al. 2000, Dowdall et al. 2002]

Longueur des termes : les termes longs sont moins importantAugmentation legere de la precision quand combinee a la frequence: les

termes simples ou les termes complexes courts sont preferes [Drouin 2002]

C-Value: Termes complexes longs qui ne sont pas inclus dansd’autres termes sont preferes [Frantzi et al. 1997, Frantzi et al. 2000]

C−Value1(t) =

{log2(|t|+ 1) · f (t) si t n’est pas inclus dans un termelog2(|t|+ 1) · (f (t)− 1

P(Tt )

∑t′∈Tt

f (t′)) sinon

Amelioration mitigee : precision augmente de 31% pour les termes inclus

dans d’autres termes, mais seulement 1% pour tous les termes

Variante : NC-value, prise en compte des termes en contexte[Maynard et Ananiadou 2000]

48/55 Terminologie T Hamon

Page 79: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Metriques pour le tri des termes extraits

Frequence : metrique la plus communement considereeimpact variable: degradation du rappel (beaucoup de termes avec une

occurrence) ou la precision

[Justeson et Katz 1995, Frantzi et al. 2000, Dowdall et al. 2002]

Longueur des termes : les termes longs sont moins importantAugmentation legere de la precision quand combinee a la frequence: les

termes simples ou les termes complexes courts sont preferes [Drouin 2002]

C-Value: Termes complexes longs qui ne sont pas inclus dansd’autres termes sont preferes [Frantzi et al. 1997, Frantzi et al. 2000]

C−Value1(t) =

{log2(|t|+ 1) · f (t) si t n’est pas inclus dans un termelog2(|t|+ 1) · (f (t)− 1

P(Tt )

∑t′∈Tt

f (t′)) sinon

Amelioration mitigee : precision augmente de 31% pour les termes inclus

dans d’autres termes, mais seulement 1% pour tous les termes

Variante : NC-value, prise en compte des termes en contexte[Maynard et Ananiadou 2000]

48/55 Terminologie T Hamon

Page 80: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Experiences

Corpus Genia : [Kim et al. 2003]

1 999 resumes Medline (facteurs de transcription dans lescellules humaines)436 967 mots, 36 607 termes annotes49 249 termes candidats extraits

Comparaison avec les termes annotes dans les corpus

49/55 Terminologie T Hamon

Page 81: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Exemples d’evaluationComparaison avec les annotations du corpus Genia

Corpus Genia : [Kim et al. 2003]

1 999 resumes Medline (facteurs de transcription dans lescellules humaines)436 967 mots, 36 607 termes annotes49 249 termes candidats extraits

Comparaison avec les termes annotes dans les corpus

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 10000 20000 30000 40000 50000

Pre

cisi

on

Terms

FrequencyCValue

CValue1

50/55 Terminologie T Hamon

Page 82: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Proposition d’amelioration de la C-Value[Hamon et al. 2014]

C-Value parametree (C-Value* ), ajout de parametres :

Prise en compte des pratiques terminologiques du domaine :

l’influence de la longueur des termes (|t|) peut dependre du

domaine: log2( |t|+1|t|α )

Prise en compte du role syntaxique des termes et de leurinclusion dans le poids associe a la longueur du terme :

Termes non inclus dans d’autres termes : αR

Termes en position tete : αH

Termes en position modifieur : αM

Optimisation des parametres avec un algorithme genetique

51/55 Terminologie T Hamon

Page 83: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

C-Value parametree : C-Value*

Prise en compte de la distribution de la frequence des termesinclus (βH , βM) :Utilisation d’une norme Lβ pour penaliser un terme inclus dans

plusieurs termes, et avec une distribution des frequences

desequilibrees

Influence des termes inclus (cH , cM) :Attribution d’une penalite c si le terme est inclus dans d’autres

termes

C−Value∗ =

log2

(|t|+1|t|αR

)· f (t), si t n’est pas inclus dans un autre terme

log2

(|t|+1|t|αH

)·(f (t)− cH

(∑t′∈Tt

f (t′)βH)1/βH

),

si t est en position tete

log2

(|t|+1|t|αM

)·(f (t)− cM

(∑t′∈Tt

f (t′)βM)1/βM

),

si t est en position modifieur

52/55 Terminologie T Hamon

Page 84: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Evolution de la precision moyenne et de la F-mesure

Frequence et C-Value: meilleure precision moyenne pour les tous premierstermes

Puis, tous les modeles C-Value* sont meilleurs que la frequence et laC-Value

F-mesure: apres une centaine de termes et jusqu’a 70% des termescandidats : meilleur tri avec les modeles C-Value*

Tri similaire pour tous les modeles C-Value*

53/55 Terminologie T Hamon

Page 85: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Resultats : Decomposition aleatoire 60%/40%Modele R-prectrain R-prectest avg Prectrain avg Prectestfrequence 0,4590 0,4671 0,4338 0,4441C-Value 0,3344 0,3594 0,3935 0,4147M1 0,5091 0,5090 0,5088 0,5124Mβc 0,4974 0,5084 0,4910 0,5002Mα3c 0,5259 0,5285 0,5416 0,5407Mα3β 0,5293 0,5272 0,5387 0,5363Mαβc 0,5144 0,5139 0,5266 0,5269Mα3βc 0,5197 0,5207 0,5386 0,5360Mα3β2c2 0,5222 0,5233 0,5330 0,5262

Utilite de M1 si aucun terme annote n’est disponible pour l’entrainement

Forte influence α

effet negatif si initialise a 1 ou a des valeurs egalesαM proche de 0 et significativement plus petit que les autres α:termes candidats modifieurs les plus courts sont penalisesαR et αH > 1: termes candidats racines ou les plus courts enposition tete sont preferes

Impact faible : β et c

Recyclage possible des parametres sur d’autres corpus (meme domaine ?)

54/55 Terminologie T Hamon

Page 86: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Bilan

Une multitude d’approches utilisant des informationslinguistiquesou statistiquesou (plus souvent) les deux

Des ameliorations possibles :

Tri des termes candidats pour faciliter le travail du terminologue(les mesures statistiques utilisees ne sont pas toujoursconvaincantes)→ combinaison de mesures (graphes, regroupement parapprentissage)Association (automatique) de categories semantiques aux termes→ vers l’extraction d’evenements (beaucoup de travaux sur lareconnaissance d’evenements)

55/55 Terminologie T Hamon

Page 87: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Aubin (Sophie) et Hamon (Thierry). –

Improving Term Extraction with Terminological Resources. In : Advances in Natural Language Processing(5th International Conference on NLP, FinTAL 2006), ed. par Salakoski (Tapio), Ginter (Filip),Pyysalo (Sampo) et Pahikkala (Tapio). pp. 380–387. –Springer.

Bodenreider (Olivier), Rindflesch (Thomas C.) et Burgun (Anita). –

Unsupervised, corpus-based method for extending a biomedical terminology. In : W orkshop on NaturalLanguage Processing in the Biomedical Domain (ACL2002), pp. 53–60.

Bourigault (Didier), Fabre (Cecile), Frerot (Cecile), Jacques (Marie-Paule) et Ozdowska (Sylwia).–Syntex, analyseur syntaxique de corpus. In : Actes de la conference TALN 2005, pp. 17–20. –Dourdan, France, juin 2005.

Cabre (M. Teresa), Estopa (R.) et Vivaldi (J.). –

Automatic term detection: a review of current systems. In : Recent Advances in ComputationalTerminology. –Amsterdam, Philadelphia, John Benjamins, 2001.

Cohen (Kevin Bretonnel) et Demner-Fushman (Dina). –

B iomedical Natural Language Processing. –John Benjamins publishing company, 2013.

Daille (Beatrice). –

Reperage et extraction de terminologie par une approche mixte statistique et linguistique. T.A.L., vol. 36(1-2), 1995, pp. 101–118.

Dowdall (James), MichaelHess , Kahusk (Neeme), Kaljurand (Kaarel), Koit (Mare), Rinaldi

(Fabio) et KadriVider . –Technical Terminology as a Critical Resource. In : Proceedings of LREC’2002.

Drouin (Patrick). –

Acquisition automatique des termes : l’utilisation des pivots lexicaux specialises. –

55/55 Terminologie T Hamon

Page 88: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

These, Universite de Montreal, 2002.

Frantzi (Katerina T.), Ananiadou (Sophia) et Tsujii (Junichi). –

Automatic Term Recognition using Contextual Clues. In : Proceedings of the Second Workshop onMultilingality in software Industry: The AI Contribution (MULSAIC’97), , 15th International JointConference on Artificial Intelligence, IJCAI’97, pp. 73–79. –Nagoya, Japan, August 1997.

Frantzi (Katerina T.), Ananiadou (Sophia) et Mima (Hideki). –

Automatic recognition of multi-word terms: the C-Value/NC-Value method. International Journal onDigital Libraries, vol. 3 (2), 2000, pp. 115–130.

Golik (Wiktoria), Bossy (Robert), Ratkovic (Zorana) et Nedellec (Claire). –

Improving term extraction with linguistic analysis in the biomedical domain. In : Proceedings of the 14thInternational Conference on Intelligent Text Processing and Computational Linguistics (CICLing’13). –Samos, Greece, March 2013.

Grabar (Natalia) et Hamon (Thierry). –

Les relations dans les terminologies structurees : de la theorie a la pratique. Revue d’Intelligence Artificielle,vol. 18 (1), 2004, pp. 57–85.

Hamon (Thierry), Engstrom (Christopher) et Silvestrov (Sergei). –

Term ranking adaptation to the domain: genetic algorithm based optimisation of the C-Value. In :Proceedings of PolTAL 2014 – Advances in Natural Language Processing, ed. par Springer , pp. 71–83.

Jacquemin (Christian). –

V ariation terminologique: Reconnaissance et acquisition automatiques de termes et de leurs variantes encorpus. –Memoire d’habilitation a diriger des recherches en informatique fondamentale, Universite de Nantes, 1997.

Justeson (John S.) et Katz (Slava M.). –

Principled Disambiguation : Discriminating Adjective Sense with Modified Nouns. ComputationalLinguistics, vol. 21 (1), 1995, pp. 1–27.

55/55 Terminologie T Hamon

Page 89: Terminologie computationnelle Extraction de termes subtitle fileExemple d’application : Extraction d’information a partir de de textes de sp ecialit e (articles scienti ques biom

Introduction Definition Approches Extraction Terminologique Bilan

Kageura (Kyo) et Umino (Bin). –

Methods of Automatic Term Recognition - A Review. Terminology, vol. 3 (2), 1996, pp. 259–89.

Kim (Jin-Dong), Ohta (Tomoko), Teteisi (Yuka) et Tsujii (Jun’ichi). –

GENIA corpus - a semantically annotated corpus for bio-textmining. B ioinformatics, vol. 19 (1), 2003, pp.180–182. –Oxford University Press.

Maynard (Diana) et Ananiadou (Sophia). –

Identifying Terms by their Family and Friends. In : Proceedings of COLING 2000, pp. 530–536. –Saarbrucken, Germany, 2000.

McCray (Alexa T.), Browne (Allen C.) et Bodenreider (Olivier). –

The Lexical Properties of the Gene Ontology (GO). In : Proceedings of the AMIA 2002 AnnualSymposium, pp. 504–508.

Meystre (S. M.), Savova (G. K.), Kipper-Schuler (K. C.) et Hurdle (J. F.). –

Extracting information from textual documents in the electronic health record: a review of recent research.IMIA Yearbook of Medical Informatics, vol. 42 (5), 2008, p. 923–936.

Nenadic (Goran), Ananiadou (Sophia) et McNaught (John). –

Enhancing automatic term recognition through recognition of variation. In : Proceedings of Coling 2004.pp. 604–610. –Geneva, Switzerland, Aug 23–Aug 27 2004.

Pazienza (Maria Teresa), Pennacchiotti (Marco) et Zanzotto (FabioMassimo). –

Terminology Extraction: An Analysis of Linguistic and Statistical Approaches. In : Knowledge Mining, ed.par Sirmakessis (Spiros), pp. 255–279. –Springer Berlin Heidelberg, 2005.

Spasic (Irena), Greenwood (Mark), Preece (Alun), Francis (Nick) et Elwyn (Glyn). –

FlexiTerm: a flexible term recognition method. Journal of Biomedical Semantics, vol. 4, 2013, p. 27.

55/55 Terminologie T Hamon