17
1 Correction Orthographique et Grammaticale Automatique Agnès Souque Doctorante, Laboratoire Lidilem, Université Stendhal – Grenoble 3 Doctorante – conseil auprès de Linagora

Correction Orthographique et Grammaticale Automatique

Embed Size (px)

Citation preview

Page 1: Correction Orthographique et Grammaticale Automatique

1

Correction Orthographique et Grammaticale Automatique

Agnès SouqueDoctorante, Laboratoire Lidilem,Université Stendhal – Grenoble 3

Doctorante – conseil auprès de Linagora

Page 2: Correction Orthographique et Grammaticale Automatique

2

Qui suis-je...

Une "Taliste"– TAL : Traitement Automatique des Langues– Traitement informatique des données

langagières– Intégration de modèles linguistiques dans des

applications informatiques

– => correction orthographique, grammaticale

Page 3: Correction Orthographique et Grammaticale Automatique

3

● Définitions● Correction orthographique

– Un algorithme– Des ressources linguistiques– Schématiquement

● Correction grammaticale du français– Existant– Fonctionnement des outils– Améliorations envisagées

Sommaire

Page 4: Correction Orthographique et Grammaticale Automatique

4

Définitionsen informatique

● Correction orthographique :– Comparaison de la graphie des mots du texte à

un lexique "exhaustif" des mots de la langue● Correction grammaticale :

– Toutes les erreurs non détectables par un correcteur orthographique

● Ex. : * des formule => erreur grammaticale* vous comprendrer => erreur orthographique

● Distinction grammaire/orthographe différente à l'école...

Page 5: Correction Orthographique et Grammaticale Automatique

5

Correction orthographique automatique

Page 6: Correction Orthographique et Grammaticale Automatique

6

Correction orthographiqueAlgorithme de correction

● Moteur de correction : Hunspell● Détection des fautes par comparaison des mots

du texte aux mots d'un lexique "exhaustif"● Suggestions de correction

– Calcul de la distance de Levenshtein entre le mot "faux" et les mots du lexique :mots les plus proches proposés en correction

– Des règles pour les erreurs les plus courantes (i.e. fautes de frappe)

● Aucune analyse sémantique -> traitement de chaînes de caractères

Page 7: Correction Orthographique et Grammaticale Automatique

7

Correction orthographiqueRessources linguistiques

● Lexique compressé pour les besoins d'Hunspell● 2 fichiers :

1) un fichier de mots, chacun ayant ou pas un ou plusieurs marqueurs (flags) d'affixation

ex. :plaire/D

2) un fichier d'affixe regroupant les règles d'affixation selon les marqueurs

ex.: PFX D Y 2PFX D 0 dé [^aàâeèéêiîoôuh½æ]PFX D 0 dés [aàâeèéêiîoôuh½æ]

● Combinaison des 2 fichiers pour générer le lexique complet => déplaire

Page 8: Correction Orthographique et Grammaticale Automatique

8

Correction orthographiqueRessources linguistiques

● Fichier d'affixe souvent créé manuellement– Travail très coûteux, nécessite des linguistes– Difficultés des langues minoritaires pour le créer

● Aff-finder :– Extrait automatiquement les affixes à partir

d'une liste des mots d'une langue– Génère automatiquement les 2 fichiers

nécessaires à la correction orthographique– Permet de doter les langues minoritaires d'un

correcteur orthographique

Page 9: Correction Orthographique et Grammaticale Automatique

9

Correction orthographiqueSchématiquement

Lexique"exhaustif"

Compression

Règlesd'affixation

Lexiquecompressé

MOTSCORRIGÉS

Règlesd'affixation

Décompression

Lexique"exhaustif"

Lexiquecompressé

MOTS DUTEXTE À

CORRIGER

MOTEUR DE CORRECTION

Suggestionsde correction

distance d'édition ou règles

Comparaisonau lexique

COMPRESSION DU LEXIQUE

Page 10: Correction Orthographique et Grammaticale Automatique

10

Correction grammaticale du français

Page 11: Correction Orthographique et Grammaticale Automatique

11

Correction grammaticale du françaisExistant

● Des logiciels propriétaires :– Cordial (Synapse Developpement)– Antidote (Druide Informatique)– Word (Microsoft)– Etc.

● Problèmes de ces logiciels :– Coût d'intégration souvent élevé– "Boîtes noires"– Ressources linguistiques inaccessibles

Page 12: Correction Orthographique et Grammaticale Automatique

12

Correction grammaticale du françaisExistant

● Des logiciels libres :– Grac (M. Biais), toute langue– An Gramadóir (K. Scannell), gaélique– LanguageTool (D. Naber), anglais– Etc.

● Problèmes de ces logiciels :– Faible prise en charge du français– Formalismes non adaptés pour le français

Page 13: Correction Orthographique et Grammaticale Automatique

13

TAGGING

Désambi-guïsation

Étiquetagemorpho-

syntaxiquetexte étiqueté

Correction grammaticale du françaisFonctionnement des outils

➔ Segmentation du texte en phrases, puis en tokens (mots + ponctuations)

➔ Étiquetage des mots avec les informations sur leurs catégories et sous-catégories.

➔ Réduction du nombre d'étiquettes (tags) par mot.

➔ Segmentation à un niveau intermédiaire entre la phrase et le mot.

➔ Détection des fautes par correspondance entre le texte et un modèle dans une règle.

CHUNKING

texte étiquetédésambiguïsé

DÉTECTIONDES FAUTES

règles d'erreurs

ou de grammaire

Texte corrigé

Phrasessegmentéesen chunks

TOKENISATION

Texte àvérifier

phrases ettokens

Page 14: Correction Orthographique et Grammaticale Automatique

14

TAGGING

Désambi-guïsation

Étiquetagemorpho-

syntaxiquetexte étiqueté

CHUNKING

texte étiquetédésambiguïsé

DÉTECTIONDES FAUTES

règles d'erreurs

ou de grammaire

Texte corrigé

Phrasessegmentéesen chunks

TOKENISATION

Texte àvérifier

phrases ettokens ● Problème du cercle perverti :

– Des erreurs dans le texte

=> mauvais étiquetage

=> mauvaise détection des erreurs

● La bonne détection des erreurs dépend d'un bon étiquetage et donc de l'absence de fautes dans le texte...

Correction grammaticale du françaisFonctionnement des outils

Page 15: Correction Orthographique et Grammaticale Automatique

15

Correction grammaticale du françaisFonctionnement d'un outil

● Correcteur grammatical libre LanguageTool, créé pour l'anglais par Daniel Naber

● Principe du pattern-matching :– Correspondance exacte entre des séquences du

texte et des modèles d'erreur– Impossible de prévoir tous les modèles d'erreur– Silence et bruit dans la détection des erreurs

● Ex. : règle : Sujet + verbe + "pas" => oubli de "ne"=> ne fonctionne pas avec : * Il travail pas assez

– Limitation au contexte immédiat● Ex. : * La veste qu'il voulait acheter est épuisé.

Page 16: Correction Orthographique et Grammaticale Automatique

16

Correction grammaticale du françaisAméliorations envisagées

● Enrichissement de la base des règles de correction :– Constitution et analyse d'un corpus d'erreurs– Enrichissement communautaire des règles

● Évolutions du formalisme :– Collaboration communautaire entre linguistes et

informaticiens● Évolution du principe de base...

Page 17: Correction Orthographique et Grammaticale Automatique

17

Merci de votre attention

[email protected]