Upload
guest3be047
View
10.255
Download
3
Embed Size (px)
Citation preview
1
Correction Orthographique et Grammaticale Automatique
Agnès SouqueDoctorante, Laboratoire Lidilem,Université Stendhal – Grenoble 3
Doctorante – conseil auprès de Linagora
2
Qui suis-je...
Une "Taliste"– TAL : Traitement Automatique des Langues– Traitement informatique des données
langagières– Intégration de modèles linguistiques dans des
applications informatiques
– => correction orthographique, grammaticale
3
● Définitions● Correction orthographique
– Un algorithme– Des ressources linguistiques– Schématiquement
● Correction grammaticale du français– Existant– Fonctionnement des outils– Améliorations envisagées
Sommaire
4
Définitionsen informatique
● Correction orthographique :– Comparaison de la graphie des mots du texte à
un lexique "exhaustif" des mots de la langue● Correction grammaticale :
– Toutes les erreurs non détectables par un correcteur orthographique
● Ex. : * des formule => erreur grammaticale* vous comprendrer => erreur orthographique
● Distinction grammaire/orthographe différente à l'école...
5
Correction orthographique automatique
6
Correction orthographiqueAlgorithme de correction
● Moteur de correction : Hunspell● Détection des fautes par comparaison des mots
du texte aux mots d'un lexique "exhaustif"● Suggestions de correction
– Calcul de la distance de Levenshtein entre le mot "faux" et les mots du lexique :mots les plus proches proposés en correction
– Des règles pour les erreurs les plus courantes (i.e. fautes de frappe)
● Aucune analyse sémantique -> traitement de chaînes de caractères
7
Correction orthographiqueRessources linguistiques
● Lexique compressé pour les besoins d'Hunspell● 2 fichiers :
1) un fichier de mots, chacun ayant ou pas un ou plusieurs marqueurs (flags) d'affixation
ex. :plaire/D
2) un fichier d'affixe regroupant les règles d'affixation selon les marqueurs
ex.: PFX D Y 2PFX D 0 dé [^aàâeèéêiîoôuh½æ]PFX D 0 dés [aàâeèéêiîoôuh½æ]
● Combinaison des 2 fichiers pour générer le lexique complet => déplaire
8
Correction orthographiqueRessources linguistiques
● Fichier d'affixe souvent créé manuellement– Travail très coûteux, nécessite des linguistes– Difficultés des langues minoritaires pour le créer
● Aff-finder :– Extrait automatiquement les affixes à partir
d'une liste des mots d'une langue– Génère automatiquement les 2 fichiers
nécessaires à la correction orthographique– Permet de doter les langues minoritaires d'un
correcteur orthographique
9
Correction orthographiqueSchématiquement
Lexique"exhaustif"
Compression
Règlesd'affixation
Lexiquecompressé
MOTSCORRIGÉS
Règlesd'affixation
Décompression
Lexique"exhaustif"
Lexiquecompressé
MOTS DUTEXTE À
CORRIGER
MOTEUR DE CORRECTION
Suggestionsde correction
distance d'édition ou règles
Comparaisonau lexique
COMPRESSION DU LEXIQUE
10
Correction grammaticale du français
11
Correction grammaticale du françaisExistant
● Des logiciels propriétaires :– Cordial (Synapse Developpement)– Antidote (Druide Informatique)– Word (Microsoft)– Etc.
● Problèmes de ces logiciels :– Coût d'intégration souvent élevé– "Boîtes noires"– Ressources linguistiques inaccessibles
12
Correction grammaticale du françaisExistant
● Des logiciels libres :– Grac (M. Biais), toute langue– An Gramadóir (K. Scannell), gaélique– LanguageTool (D. Naber), anglais– Etc.
● Problèmes de ces logiciels :– Faible prise en charge du français– Formalismes non adaptés pour le français
13
TAGGING
Désambi-guïsation
Étiquetagemorpho-
syntaxiquetexte étiqueté
Correction grammaticale du françaisFonctionnement des outils
➔ Segmentation du texte en phrases, puis en tokens (mots + ponctuations)
➔ Étiquetage des mots avec les informations sur leurs catégories et sous-catégories.
➔ Réduction du nombre d'étiquettes (tags) par mot.
➔ Segmentation à un niveau intermédiaire entre la phrase et le mot.
➔ Détection des fautes par correspondance entre le texte et un modèle dans une règle.
CHUNKING
texte étiquetédésambiguïsé
DÉTECTIONDES FAUTES
règles d'erreurs
ou de grammaire
Texte corrigé
Phrasessegmentéesen chunks
TOKENISATION
Texte àvérifier
phrases ettokens
14
TAGGING
Désambi-guïsation
Étiquetagemorpho-
syntaxiquetexte étiqueté
CHUNKING
texte étiquetédésambiguïsé
DÉTECTIONDES FAUTES
règles d'erreurs
ou de grammaire
Texte corrigé
Phrasessegmentéesen chunks
TOKENISATION
Texte àvérifier
phrases ettokens ● Problème du cercle perverti :
– Des erreurs dans le texte
=> mauvais étiquetage
=> mauvaise détection des erreurs
● La bonne détection des erreurs dépend d'un bon étiquetage et donc de l'absence de fautes dans le texte...
Correction grammaticale du françaisFonctionnement des outils
15
Correction grammaticale du françaisFonctionnement d'un outil
● Correcteur grammatical libre LanguageTool, créé pour l'anglais par Daniel Naber
● Principe du pattern-matching :– Correspondance exacte entre des séquences du
texte et des modèles d'erreur– Impossible de prévoir tous les modèles d'erreur– Silence et bruit dans la détection des erreurs
● Ex. : règle : Sujet + verbe + "pas" => oubli de "ne"=> ne fonctionne pas avec : * Il travail pas assez
– Limitation au contexte immédiat● Ex. : * La veste qu'il voulait acheter est épuisé.
16
Correction grammaticale du françaisAméliorations envisagées
● Enrichissement de la base des règles de correction :– Constitution et analyse d'un corpus d'erreurs– Enrichissement communautaire des règles
● Évolutions du formalisme :– Collaboration communautaire entre linguistes et
informaticiens● Évolution du principe de base...