53
Syntex, analyseur syntaxique de corpus Didier Bourigault Cécile Fabre, Cécile Frérot, Marie-Paule Jacques, Sylwia Ozdowska, Gaëlle Recourcé* Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail [email protected] www.univ-tlse2.fr/erss/ * Société Synomia

Syntex, analyseur syntaxique de corpus

  • Upload
    yvonne

  • View
    67

  • Download
    0

Embed Size (px)

DESCRIPTION

Syntex, analyseur syntaxique de corpus. Didier Bourigault Cécile Fabre, Cécile Frérot, Marie-Paule Jacques, Sylwia Ozdowska, Gaëlle Recourcé* Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail [email protected] www.univ-tlse2.fr/erss/ - PowerPoint PPT Presentation

Citation preview

Page 1: Syntex, analyseur syntaxique de corpus

Syntex, analyseur syntaxique de corpus

Didier Bourigault

Cécile Fabre, Cécile Frérot, Marie-Paule Jacques, Sylwia Ozdowska, Gaëlle Recourcé*

Equipe de Recherche en Syntaxe et Sémantique

CNRS – Université Toulouse Le Mirail

[email protected]

www.univ-tlse2.fr/erss/

* Société Synomia

Page 2: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 2

Motivations initiales du projet Syntex

Réaliser un outil opérationnel d’analyse syntaxique utile pour :

1) Applications en terminologie et ingénierie des connaissances :

• Construction de ressources terminologiques et ontologique à partir de corpus

Analyse syntaxique d’un corpus (spécialisé)extraction et structuration d’un réseau de syntagmes (nominaux, verbaux)

(Lexter Syntex)

• Indexation de sites Web (Synomia)

2) Recherches en linguistique

• Observatoire pour des recherches sur la langue :• Un ensemble de corpus variés et de grande taille, analysés syntaxiquement

(morphologie, syntaxe, sémantique, discours)• Analyse distributionnelle

Syntex : un « instrument » pour le linguiste (Habert, 2005)

Page 3: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 3

Motivations initiales : applications en terminologie Lexter

− Extracteur de groupes nominaux terminologiques (Bourigault, 1994)

De Lexter à Syntex : du Nom au Verbe

− Les syntagmes verbaux sont des unités à décrire au même titre que les syntagmes nominaux

branchement de l’imprimante / brancher l’imprimante

− les syntagmes nominaux sont extraits de façon plus précise.

On observe [ une charge importante en trouble ] dans les rivières

L'érosion a disséqué [ le plateau rocheux ] en chevrons.

− les syntagmes verbaux fournissent les contextes le plus riches pour l’analyse distributionnelle.

[ scanner , écographie ] sujets des verbes : confirmer, montrer, objectiver, révéler, …(dans un corpus de compte rendus de réanimation chirurgicale)

Page 4: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 4

Motivations initiales : instrument pour des recherches en linguistique de corpus

Observatoires : des corpus volumineux analysés syntaxiquement

− Le Monde (500 000 articles 1991-2000, 200 millions de mots)

− Frantext (515 romans XXème siècle, 30 millions de mots)

Premières exploitations

− Extraction de propriétés de sous-catégorisation syntaxique

• proba(accorder,à)=0.57 ; proba(conformité,avec)=0.51

− Extraction de propriétés lexico-distributionnelles

• Deux bases lexico-distributionnelles : Les Voisins de Le Monde, les voisins de Frantext

Le Monde : (sec, humide) : {froid, sable, sol, climat, …}

Frantext : (sec, humide) : {asphalte, froid, pré, pavé, sable, sol, …}

(sec, léger) : {déclic, craquement, claquement, bruissement, …}

Page 5: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 5

Le paradigme des grammaires d’unification

Grammaires d’unification

− des formalismes et des théories linguistiques

− Grammaire lexicale fonctionnelle (LFG), Grammaire syntagmatique généralisée (GPSG), Grammaire d’arbres adjoints (TAG), Grammaire syntagmatique guidée par les têtes (HPSG)

− Type de représentation : structures de traits ; formalismes déclaratifs et monotones

− Séparation données linguistiques (grammaires) / programmes de traitement (analyseurs) Utilisation des grammaires en analyse et en génération

Utilisation d’un même analyseur pour différentes grammaires

Analyseurs

− Algorithmes : CYK, Earley, coin gauche, coin tête, etc.

Page 6: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 6

Le paradigme de la robustesse

Depuis le début des années 90

« We think of robustness as the ability of a language analyzer to provide useful analyses for real-world input texts. By useful analyses, we mean analyses that are (at least partially) correct and usable in some automatic task or application. That definition implies two requirements: first, a robust system should product (at least) one analysis for any real-world input. (…) A robust system should also limit the number of concurrent analyses it produces or a least give indications on which are the preferred ones. »

(Aït-Mokhtar, Chanod et Roux, 2002, p. 122–123)

Dès les débuts de la Traduction Automatique :

− TAL « empirique » vs « théorique » (Cori et Léon, 2002)

− pression des applications

Le concept d’utilité domine celui de robustesse

Page 7: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 7

Quelques travaux en analyse syntaxique (robuste)

P. Garvin (1960) : analyseur Fulcrum

− University of Georgetown, puis Ramo-Wooldridge Corporation

− Système « bipartite » : dictionnaire + algorithme

(vs « tripartite » : dictionnaire + règles + algorithme)

− Traitement en passes, fulcrum (mot pivot)

Page 8: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 8

Quelques travaux en analyse syntaxique (robuste)

L’analyseur du projet TDAP (1958-1959)

− Université de Pennsylvania, Transformations and Discourse Analysis Project, dirigé par Zellig S. Harris : L. Gleitman, A. Joshi, B. Kauffman et N. Sager

− Traitement en passes : première application des transducteurs d’état fini à l’analyse syntaxique

(Joshi et Hopeley, 1996)

− Déterministe

ordre d’enchaînement des transducteurs, sens de parcours, stratégie du plus long chemin

Page 9: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 9

Quelques travaux en analyse syntaxique (robuste)

F. Debili (1980)

− Université Paris XI, équipe dirigée par A. Andreewsky, TAL et recherche documentaire

− Traitement de la paraphrase :

• « Qui nomme le premier ministre ? », « Le premier ministre est nommé par le président de la république. »

« La nomination du premier ministre par le président de la république a été (… ) »

− Analyseur syntaxique

• Traitement en passes• Chaînes nominales, chaînes verbales• relations homosyntaxiques, relations hétérosyntaxiques

• matrices de succession automates d’état fini

• « apprentissage endogène »

Page 10: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 10

Quelques travaux en analyse syntaxique (robuste)

Le projet PLNLP (années 80)

− Centre de Recherche d’IBM à Yorktown, projet PLNLP (« Programming Language for Natural Language Processing »), K. Jensen, G. Heidorn

− Analyse syntaxique pour la correction grammaticale et la vérification de style

− Traitement en deux passes :

• Analyse « classique » basée sur une grammaire de base

• Procédure d’ajustement d’analyse (« fitted parse »)

− Difficultés d’analyse :

• « punctuation horrors »

Page 11: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 11

Quelques travaux en analyse syntaxique (robuste)

L’analyse par chunks de S. Abney

− Fiabilité et profondeur d’analyse ET robustesse et rapidité

− La notion de « chunk »

− Ambiguïté de rattachement : au sein d’un chunk nominal au sein d’une proposition

[cherry picker exhaust manifold]

John [VP [met] [NP the woman] [CP he married] [PP in Italy]]

Traitement en cascade (partage des tâches)• Repérage des chunks• Repérage des propositions• repérage des relations entre chunks (au sein des propositions)

− Principes généraux

• easy-first parsing 

• islands of certainty 

• containment of ambiguity 

Page 12: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 12

Quelques travaux en analyse syntaxique (robuste)

J. Vergne : l’analyseur 98

− Critique (virulente) du paradigme des grammaires formelles

• Les grammaires formelles ne sont pas du tout adaptées à la description des langues naturelles• redondance des formes• récursivité très limitée des segments• Rolycatégorie

− Approche en deux étapes :

• Etiquetage et identification de syntagmes non récursifs (SNR, chunks)

• Identification de relations de dépendance entre SNR

− Principe méthodologique :

• La phrase est analysée en une seule passe, de gauche à droite »

Utilisation de « mémoire » de stockage des SNR

Page 13: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 13

Quelques travaux en analyse syntaxique (robuste)

J.-P. Chanod

− Dans la lignée des positions de K. Jensen sur la robustesse en analyse syntaxique

“Still robustness is not about statistical vs. rule-based methods. (…) Robustness is about exploring all constructions humans actually produce, be they grammatical, conformant to formal models, frequent or not.” (Chanod, 2002)

− Le concept d’incrémentalité

• Concept clé pour réaliser des analyseurs syntaxiques qui soient à la fois robustes et profonds

• Analyseurs : IFSP (Incremental Finite-State Parsing), puis XIP (Xerox Incremental Parser)

• Principes de base :• Autonomie des règles• Décomposition descriptive

Page 14: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 14

Syntex, un analyseur de corpus robuste

Contraintes imposées par les motivations initiales du projet

− L’analyseur doit traiter en entrée des corpus de textes :

• quelques milliers à quelques centaines de milliers de phrases

• sur des domaines divers et appartenant à des genres variés

Contraintes

• Robustesse et efficacité

• Couverture et précision

• Adaptativité

Choix méthodologique

− Pas de grammaire

• Dans l’esprit de Garvin, Vergne, … (≠ XIP)

• Les connaissances grammaticales sont « dans » les algorithmes

− L’analyse syntaxique automatique vue comme une tâche de reconnaissance de formes et non de compilation

Page 15: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 15

Analyse syntaxique en dépendance Mode de représentation de la structure syntaxique d’une

phrase : Dépendances vs. Constituants

− Syntaxe de dépendance

• Tesnière (1959) « Eléments de syntaxe structurale », Mel’čuk (1998), …

− Equivalence formelle

− Le choix d’un mode de représentation de la structure syntaxique n’implique pas celui d’une méthode informatique d’analyse particulière

• Il existe des grammaires de dépendance formelles, et il existe des analyseurs en constituants robustes

• Beaucoup d’analyseurs robustes sont des analyseurs en dépendance.

− Analyse en dépendance plus “naturelle”

Le chat mange la sourisLe chat mange la souris

Page 16: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 16

Analyse modulaire en cascade

Syntex prend en entrée un corpus étiqueté.

Il est constitué de modules, dont chacun traite une relation de dépendance syntaxique particulière.

Chaque phrase est analysé en plusieurs passes :

− Un ou plusieurs modules à chaque passe.

− Chaque module exploite les étiquettes morphosyntaxiques et les relations syntaxiques posées par les autres modules.

− … et peut modifier ces étiquettes et ces relations (retour en arrière).

− Chaque module résout « ses » cas d’ambiguïté.

Le corpus est analysé en plusieurs passes :

− Les modules exploitant des données d’apprentissage endogène traitent deux fois le corpus :

• une première fois pour acquérir des informations sur l’ensemble du corpus

• Une seconde fois pour les exploiter dans la résolution d’ambiguïtés d’analyse

Page 17: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 17

Implémentation informatique

Chaque module est constitué d’un ensemble d’heuristiques

− Parcours de la chaîne de mots, étiquetée et partiellement annotée

• Point de départ : le mot source de la relation syntaxique,

• point d’arrivée : le mot cible de la relation syntaxique

− Pour chaque mot rencontré sur le parcours, 2 décisions à prendre :

• Choisir comme cible ou non

• Arrêter le parcours ou continuer

− Parcours et décisions guidés par des contraintes

• structurelles, positionnelles, d’accord, de distance, …

Le choix de l’ordre d’enchaînement des modules est un problème crucial.

− Illustrations…

Page 18: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 18

Le très petit chatD Av Aj N

?

La linguistique est … D Aj V

?

N

Parcours « normal » Réétiquetage

Enchaînement+ contrainte de projectivité

avec le très petit chat P D Av Aj N

?

contrainte d’accord

grammaires de dépendance formelles Nfp P Nfs Ajfp

?

grammaire de dépendance formelle Nfs P Nfs Ajfs

?

Ambiguïté Ambiguïté

Il donne du lait au chatPr V D N P N

Page 19: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 19

Méthodologie de développement

Les modules sont programmés

− en Perl

− Par des linguistes informaticiens

Méthode de développement

− relation par relation

− basée sur corpus : nombreux tests, sur corpus variés

− autorisée par l’efficacité du système

(200 000 mots : ~ 2mn)

Page 20: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 20

Exploitation des ressources lexicales

Minimale : « uniquement le nécessaire »

− Intégrées au fur et à mesure des besoins

− Exemples :

• Liste des verbes qui font leur passé composé avec l’auxiliaire être

• Propriétés de sous-catégorisation syntaxique : proba(mot,prep)• Ex : proba(accéder,à)=0.79 proba(conformité,avec)=0.51

Ressources de 2 types :

− Endogènes : informations acquises sur le corpus en cours de traitement

• Le corpus est objet du traitement ET source d’informations

− Exogènes : exploitées quel que soit le corpus

• Exemple : les propriétés de sous-catégorisation syntaxiques• acquises automatiquement à partir d’un corpus de 200 millions de mots (Le Monde)• À l’aide de l’analyseur lui-même

Page 21: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 21

Etiquetage préalable

L’analyseur Syntex est intégré dans une chaîne d’analyse syntaxique

1- Pré-étiquetage

• Entités nommées : dates, mesures, titres, adresses, …

• Mots complexes : prépositions, conjonctions, adverbes, …

• réalisé par Synomia

2- Etiquetage (TreeTagger)

• réalisé par Université de Stuttgart

3- Post-étiquetage

• Correction d’erreurs connues du TT, conversion au jeu d’étiquettes Syntex

• réalisé par ERSS et Synomia

4- Analyse syntaxique (Syntex)

• réalisé par ERSS

Dépendance forte de Syntex avec des modules antérieurs !

Page 22: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 22

Analyse en dépendance : contraintes

Gouverneur unique

Un mot a au plus un gouverneur

Projectivité

Deux mots en relation de dépendance ne peuvent être séparés que par des mots qui dépendent directement ou indirectement de l’un d’eux (Les relations de dépendance ne peuvent se croiser)

Tout mot a un gouverneur

… à l’exception du verbe de la proposition principale

mot mot mot

non

mot mot mot mot

non

gouverneur dépendant

relation

Page 23: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 23

Analyse en dépendance : les principales relationsRelation Gouverneur Dépendant Exemples

ADJ Nom Adj., Part. passé, un chat noir ; un chat blessé

ADV Verbe, Nom, Adj. Adv. très petit ; courir vite

ATTO Verbe Adj., Nom Il le rend joyeux ; être nommé président

ATTS Verbe Adj., Nom Il est joyeux ; Il est le président

AUX Auxiliaire Part. passé Il a mangé ; Il est venu

COMP Conjonction Adj., Nom, Verbe vouloir que tu viennes

XCOMP Adj., Adv., Nom Conjonction aussi efficace que rapide ; plus que ; le fait que

DE Verbe, Adj., Nom Préposition « de » exiger de ; ivre de ; chien de

DET Nom, Pronom Déterminant le chat ; le mien

EPI Nom Nom le coin cuisine

OBJ Verbe Nom, Pronom, Conjonction, Verbe

Il voit le chat ; il le voit ; vouloir que ; vouloir venir

PREP Verbe, Adj., Nom Préposition donner à ; facile à ; aide à

XPREP Préposition Nom, Pronom, Verbe avec le chat ; avec lui ; pour venir

SUJ Verbe Nom, Pronom Le chat mange ; il mange

Page 24: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 24

Principaux modules

Relation Gouverneur Parcours Dépendant Exemples

AUX Auxiliaire Part. passé Il a mangé ; Il est venu

ADV Verbe, Nom, Adj.

Adverbe très petit ; courir vite

DET Nom, Pronom Déterminant le chat ; le mien

XPREP Préposition Nom, Pronom, Verbe

avec le chat ; avec lui ; pour venir

DE Verbe, Adj., Nom

Préposition « de » exiger de ; ivre de ; chien de

ADJ Nom Adj., Part. passé, un chat noir ; un chat blessé

PREP Verbe, Adj., Nom

Préposition donner à ; facile à ; aide à

OBJ Verbe Nom, Pronom, Conjonction, Verbe

Il voit le chat ; il le voit ; vouloir que ; vouloir venir

SUJ Verbe Nom, Pronom Le chat mange ; il mange

gouverneur dépendant

relation

Parcours de recherche :

Page 25: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 25

Coordination Représentation

− Relation CC du coordonnantvers chacun des coordonnés

− Le coordonnant est la cibleou la source des relations de dépendance

Traitement : le plus difficile !

− Où placer le traitement de la coordination dans la chaîne d’analyse syntaxique ? Choix actuel : « tôt »

− Traitement des virgules coordinatives

Le chat de Marie , Jean et Alain dortD N P NP T NP CC NP V

X et Y

CC CC

XPREPPREP? SUJ

REL

Page 26: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 26

Antécédence relative

Représentation

− Relation REL du pronom relatif vers l’antécédent

Le chat qui mange est gris

REL SUJSUJ

ATTS

Le chat de gouttière que je vois

REL OBJ

DET

SUJ

Le chat avec lequel Marie joue

REL

SUJ

PREP

Page 27: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 27

Analyse « profonde » Structures à contrôle de l’infinitif : sujet profond

• N0 V Vinf Marie souhaite partir

• N0 V à Vinf Marie pense à partir

• N0 V de Vinf Marie s’efforce de partir

• N0 V N1 à Vinf Marie autorise Jean à partir

• N0 V N1 de Vinf Marie prie Jean de partir

• N0 V à N1 à Vinf Marie apprend à Jean à nager

• N0 V à N1 de Vinf Marie demande à Jean de partir

Page 28: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 28

Ambiguïté de rattachement prépositionnel

Il faut disposer de propriétés de sous-catégorisation syntaxique

− Pour les verbes, noms, adjectifs

Dans Syntex

− Probabilité (mot, prep)

− 2 ressources :

• Toutes les deux construites automatiquement à partir de corpus

• Ressource exogène : construite préalablement à partir d’un « gros » corpus d’apprentissage (200 M mots du Monde), utilisée pour chaque corpus

• Ressource endogène : acquise au moment de l’analyse à partir du corpus en cours d’analyse, puis « oubliée » ensuite

L'érosion a disséqué le plateau rocheux en chevrons

PREP ? rocheux + en ?plateau + en ?disséquer + en ?

Page 29: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 29

Méthode de résolution des ambiguïtés de rattachement prépositionnel

En entrée : une phrase étiquetée, partiellement analysée

1ère étape : rechercher_candidats :

− Etant donné une préposition p, qui régit un mot m’, rechercher dans le contexte gauche l’ensemble des mots mj susceptibles de régir la préposition p

des règles qui décrivent dans quelles configurations conserver un mot comme candidat

« sauter » un mot

arrêter la recherche

2ème étape : choisir_candidat

− Sur la base d’indices affectés à chacun des candidats

Principal indice : probabilité que le mot candidat mj se construise avec la préposition p : proba(mj, p)

Page 30: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 30

Recherche des candidats

La France défendra ses intérêts avec la plus grande fermeté .

Le problème est triple : insuffisance de la recherche sur des pathologies, …

Son rôle serait de protéger un port ou un dispositif naval en mouvement

On lui proposait des rôles dans des comédies idiotes et des films d'action sans scénario

Certains pays réclament l'élimination totale des subventions agricoles à l' exportation

Page 31: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 31

Acquisition de propriétés de sous-catégorisation

Calcul de probabilités de sous-catégorisation

− A partir d’un corpus annoté manuellement (PTB)

− A partir d’un corpus étiqueté automatiquement

− A partir du Web

Méthode

− A partir d’un corpus de 200 millions de mots : journal Le Monde, années 1991 à 2000 (LM10)

• Grande taille

• Thématiquement diversifié

Ressources génériques

− Etiqueté (Treetagger) et partiellement analysé syntaxiquement (Syntex)

Page 32: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 32

Procédure d’acquisition à partir du corpus LM10

Deux itérations sur le corpus LM10

1) Amorçage :

• n’exploiter que les informations acquises dans des contextes non ambigus

• Construire un premier lexique de sous-catégorisation à partir de ces informations : proba(m,p)

2) Consolidation :

• Utiliser le lexique construit à l’étape précédente, pour résoudre les ambiguïtés de rattachement prépositionnel

• construire le lexique final en exploitant les informations acquises dans tous les contextes (non ambigus et ambigus résolus)

nb d’occurrences où le mot m régit la préposition pproba(m,p) = nb total d’occurrences du mot m

Je l’ai donné à Marie

Page 33: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 33

Procédure d’acquisition à partir du corpus LM10

cas de rattachementprépositionnelnon ambigus

LM10étiqueté

cas de rattachementprépositionnel

résolus avec L0

Lexique L0

1- Amorçage 2- Consolidation

Lexique L1

Résolution :Le candidat de plus forte probabilité.Par défaut : le premier

Lexique final

rechercher_candidat

Calcul proba(m,p)

choisir_candidat

Calcul proba(m,p)

Page 34: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 34

Probabilités de sous-catégorisation syntaxique

proba mot prep

0,765 abonner à

0,536 aboutir à

0,788 accéder à

0,535 accoler à

0,569 accorder à

0,871 accouder à

0,558 accrocher à

0,578 acculer à

0,641 achopper sur

0,650 adapter à

0,700 adhérer à

0,772 adjoindre à

0,873 adosser à

proba mot prep

0,622 accès à

0,864 accession à

0,539 accointance avec

0,606 allusion à

0,537 appartenance à

0,528 assignation à

0,564 assujettissement à

0,554 butte à

0,773 cofinancé par

0,510 conformité avec

0,606 croupière à

0,745 haro sur

0,546 hockey sur

Ressource exogène

(journal Le Monde, 200 millions de mots)

Page 35: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 35

Probabilités de sous-catégorisation syntaxique

Exemple de ressource endogène

(corpus médical, réanimation chirurgicale, 400 000 mots)

proba mot prep

0,444 accord avec

0,246 accouchement par

0,418 allergie à

0,200 amylasémie à

0,469 analgésie par

0,200 anémie à

0,735 antibioprophylaxie par

0,355 antibiothérapie par

0,235 anticoagulation par

0,616 argument pour

0,312 argument en faveur de

0,308 arme à

Page 36: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 36

Evaluation du module de rattachement prépositionnel

Genre Corpus # mots # cas annotés

Littéraire Balzac (Splendeur …) BAL 199 789 672

Journalistique un extrait du Monde LMO 673 187 1 238

Juridique le Code du travail CTR 509 124 1 150

Médical Comptes rendus d’hospitalisation MED 377 967 646

Sur des corpus de genres variés

− Annotation manuelle de plusieurs centaines de cas

4 stratégies

− Base : candidat le plus éloigné

− Endo : candidat avec la probabilité endogène la plus élevée

− Exo : candidat avec la probabilité exogène la plus élevée

− Mixte : candidat avec la probabilité endogène ou exogène la plus élevée

Page 37: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 37

Evaluation du module de rattachement prépositionnel

50

80

90

100

70

60

base endo exo mixte

Prec %

base endo exo mixte

BAL 83.0 83.5 86.9 86.6

LMO 70.3 80.1 86.6 85.9

CTR 65.5 82.3 86.3 87.3

MED 59.9 78.0 66.3 78.3

% précision

Page 38: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 38

Couverture de Syntex

Le Monde Frantext

# phrases 1 053 604 1 968 219

# phrases sans verbes 158 456 295 628

# mots 24 745 211 28 083 060

# mots / phrase 23 14

% mots sans gouverneur 21 28

cat %cat / tot

%-gouv / cat

%cat / tot

%-gouv / cat

Nom 22 14 18 15

Prep 17 15 12 20

Det 15 1 13 2

Adj 8 10 6 16

VCONJ 7 86 12 87

NomPr 6 17 2 17

Adv 6 31 8 30

Pro 4 20 13 21

Page 39: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 39

Synthèse Un analyseur robuste

− et aussi, précis et à (relativement) large couverture

− Opérationnel

− diffusé

Pas de théorie syntaxique

− Les connaissances linguistiques ne sont présentes sous la forme de règles de grammaires, mais :

• architecture informatique

• algorithmes et heuristiques de recherche de recteurs ou régis

− Pas de notion de « bonne formation » de phrases : analyse locale ascendante : pas de contrôle global

− Syntaxe théorique vs syntaxe opérationnelle (Bar-Hillel, 1961)

Un analyseur peu lexicalisé

− Analyse guidée par la phrase vs. analyse guidée par le lexique

Page 40: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 40

II – Utilisations de Syntex

Extraction de termes

− Construction de ressources terminologiques (thesaurus, index, ontologies, …)

− Recherche d’informations sur sites Internet (Synomia)

Interrogation de corpus annotés

− Tiger (Université de Stuttgart)

Analyse distributionnelle

− Upery

Page 41: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 41

Construction d’un « réseau terminologique »

charge importante

chargeobserver

observer une charge…

T T

important

E

trouble

E

On observe une charge importante en trouble

observer une érosionoberver une perte…

E

…charge en argilecharge en poussière…

charge importante en trouble

charge en trouble

Analyse syntaxique

Extraction de syntagmes

« séries paradigmatiques »

Page 42: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 42

Page 43: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 43

Page 44: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 44

Page 45: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 45www.liberation.fr

Page 46: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 46

Interrogation de corpus annotés à l’aide de TigerSearch

Conversion analyses en dépendance arbres syntaxiques

− Pour interrogation par TigerSearch

− Pour extraction de candidats termes

H

m1 m m2m1 m m2

S

Le chat mange la sourisLe chat mange la souris

P

Page 47: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 47

TigerSearch

Université de Stuttgart

http://www.ims.uni-stuttgart.de/projekte/TIGER/

Outil d’interrogation de corpus arborés (banques d’arbres)

Page 48: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 48

Page 49: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 49

Page 50: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 50

Page 51: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 51

Page 52: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 52

Page 53: Syntex, analyseur syntaxique de corpus

D. Bourigault Syntex 53

Reconnaissance de formes

chatle dorttrès gentil de Marie le paillassonsur