46
Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

Embed Size (px)

Citation preview

Page 1: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

Traitement Automatique du Langage Naturel

Chapitre 3

MORPHOLOGIE ET Transducteurs d’Etats

Finis

Page 2: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

Les Mots

• Les AEF (FSA) sont particulièrement utiles pour les lexiques

• De nombreuses périphériques, dont certaines avec des ressources mémoire limitées, ont besoin d'accéder à de longues listes de mots

• Besoin d’effectuer des tâches assez sophistiquées avec ces listes

• Donc, nous allons d'abord parler de certains faits sur les mots et ensuite revenir aux méthodes de calcul/traitement

04/11/23 Speech and Language Processing - Jurafsky and Martin 2

Page 3: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

Morphologie de l’Anglais• La morphologie est l'étude de la façon dont

les mots sont construits à partir de plus petites unités significatives appelées morphèmes: e.g. « fox » (1 morphème), « cats » (2 morphèmes « cat » et « s »)

• Les morphèmes peuvent êtres divisés en deux classes Radicaux (stems): Les unités de base portant le

sens principal du mot (« cat ») Affixes: des pièces qui sont ajoutées aux

radicaux pour + de détails sur le sens ou changer leurs sens et fonctions grammaticales (« -ization », « de-»)

04/11/23 Speech and Language Processing - Jurafsky and Martin 3

Page 4: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

Affixes• Préfixes: précèdent le radical

undo

• Suffixes: placés après le radical ionization

• Circonfixes (circumfixes): les 2 à la fois En Allemand le verbe sagen (dire) au

participe passé gesagt (a dit)

• Infixes: ajoutés à l’intérieur du radical

En Arabe ب ال ع• Affixes combinées: unbelievably (un-, -

able, -ly)04/11/23 Speech and Language Processing - Jurafsky and Martin 4

Page 5: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

Morphologie

• Morphologie Concatenative Utilisation de préfixes et suffixes

• Morphologie non-concatenative basée sur des racines et patrons (Templatic morphology, root-and-pattern morphology) Arabe, Hébreu et langues sémitiques

04/11/23 Speech and Language Processing - Jurafsky and Martin 5

Page 6: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 6

Morphologie de l’Anglais

• Nous pouvons diviser encore plus la morphologie en deux grandes catégories Flexionnelle (Inflectional) Dérivationnelle (Derivational)

Page 7: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 7

Classe / catégorie de mots

• Par catégories de mots, nous viennent à l'esprit des notions familières comme « nom » et « verbe »

• Importance des « catégories de mots »: catégorie de mot du radical affecte largement la façon avec laquelle les radicaux et les affixes peuvent se combiner

Page 8: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 8

Morphologie Flexionnelle

• La morphologie flexionnelle concerne la combinaison des radicaux et des affixes où le mot résultant: a la même catégorie de mot que l'original sert un but grammatical ou sémantique

qui est différent de l'original mais n'en est pas moins lié à l'original de

façon claire

Page 9: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 9

Noms et Verbes Anglais• 2 types pour la morphologie flexionnelle

des noms anglais: les noms sont de simples marqueurs pour le pluriel et le possessif

cat cats butterfly butterflies man man’s

• Les verbes ne sont que légèrement plus complexes Des marqueurs appropriés pour le temps du

verbe play played play playing play plays

Page 10: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 10

Réguliers et Irréguliers

• Problème compliqué par le fait que certains mots se conduisent mal (refusent de suivre les règles) mouse/mice, goose/geese (oie), ox/oxen

(boeuf) go/went, fly/flew

• Les mots réguliers et irréguliers sont utilisés pour désigner les mots qui suivent les règles et ceux qui ne le font pas

Page 11: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 11

Verbes Réguliers et Irréguliers

• Réguliers… Walk, walks, walking, walked, walked Play, plays, playing, played, played

• Irréguliers Eat, eats, eating, ate, eaten Catch, catches, catching, caught, caught Cut, cuts, cutting, cut, cut

Page 12: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 12

Morphologie Flexionnelle

Ainsi, • la morphologie flexionnelle de

l'anglais est assez simple• Mais est compliquée par le fait qu’il

existe des irrégularités

Page 13: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

Morphologie Dérivationnelle

• La morphologie dérivationnelle concerne la combinaison des radicaux et des affixes où le mot résultant: Appartient à une catégorie de mots

différente de celle de l'original A un sens généralement difficile à

prédire de façon précise

04/11/23 Speech and Language Processing - Jurafsky and Martin 13

Page 14: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 14

Exemples de Dérivations

• Formation de noms à partir de verbes et d’adjectifs

-ation computerize computerization

-ee appoint appointee

-er kill killer

-ness fuzzy fuzziness

Page 15: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 15

Exemples de Dérivations

• Formation d’adjectifs à partir de verbes et de Noms

-al computation computational

-able embrace embraceable

-less clue clueless

Page 16: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 16

Morphologie Dérivationnelle

• La morphologie dérivationnelle est le travail « sale » (complexe) que personne ne vous a appris. Quasi-systématicité Computation localisation * eatation *

spellation Changements irréguliers de sens Changements de classes de mots

Page 17: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 17

Exemple: Compute

• Plusieurs chemins sont possibles…• Commencer avec compute

Computer -> computerize -> computerization Computer -> computerize -> computerizable Computer -> computable

• Mais les chemins (opérations) ne sont pas nécessairement tous/toutes permis(es) Clue

Clue -> *clueable

Page 18: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 18

Morphologie et AEFs (FSAs)

• Nous aimerions utiliser les mécanismes prévus par les FSA pour capturer ces aspects de la morphologie Accepter les chaînes qui sont dans le

langage Rejeter les chaînes qui ne le sont pas Et le faire d'une manière qui ne nous

oblige pas à lister tous les mots de la langue traitée

Analyseur morphologique (morphological parser/analyser)

Page 19: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

Construction d’un analyseur morphologique

• Besoin de 3 composantes: Lexique (lexicon): listes des radicaux et

affixes et informations de base Règles morpho-tactiques (morphotactics) :

règles spécifiant quelle(s) classe(s) de morphèmes peut/peuvent suivre quelle(s) autre(s). E.g. Morphème du pluriel suit le nom et pas l’inverse

Règles d’orthographe (orthographic/spelling rules): changements d’orthographe dus aux combinaisons de morphèmes: city cities

04/11/23 Speech and Language Processing - Jurafsky and Martin 19

Page 20: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 20

Commencer de façon simple

• Noms réguliers singuliers: ok• Noms réguliers pluriels prennent un -

s à la fin• Les irréguliers sont acceptés tels

quels

Page 21: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 21

Règles Simples

Règles flexionnelles nominales

Page 22: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 22

Maintenant Injecter les mots

Remplacer les noms de classes telle que “reg-noun” par les FSAs qui reconnaissent tous les mots de cette classe là.

Page 23: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 23

Règles de Morphologie Dérivationnelle de l’Anglais

Si tout est état final, comment certaines chaînes peuvent elle être rejetées?

Page 24: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 24

Lexiques et Analyse Morphologique

• Ainsi, la vue d'ensemble est de stocker un lexique (liste de mots que vous aimez)

sous forme de FSA. Le lexique de base est intégré dans des

automates plus vastes qui capturent la morphologie flexionnelle et dérivationnelle de la langue.

• Et alors? Eh bien la chose la plus simple que

vous pouvez faire est la vérification d’orthographe

Page 25: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 25

Génération vs. Analyse/Reconnaissance

• Nous pouvons maintenant lancer des chaînes de caractères dans ces machines pour reconnaître celles de la langue

• Mais la reconnaissance n'est généralement pas tout à fait ce que nous voulons Souvent, si nous trouvons une chaîne de

caractères dans la langue nous pourrions vouloir lui attribuer une structure (analyse)

Nous pourrions aussi avoir une structure et vouloir lui produire une forme (production / génération)

Page 26: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 26

Finite State Transducers (Transducteurs d’E.F.)

• L’idée simple est comme suit: ajouter un autre ruban (bande) ajouter des symboles additionnels aux

transitions E.g.: sur une bande nous lisons “cats”, et

nous écrivons sur l’autre “cat +N +PL”

• FST Fait la correspondance entre les deux

niveaux via un automate FST visualisé comme un automate à 2

rubans

Page 27: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 27

FST

Page 28: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

FST: Définition Formelle

• Un FST peut être défini comme suit: Q : ensemble de N états Σ: un alphabet fini de symboles complexes

sous forme de paires input-output i:o; i ϵ I (alphabet d’input) et o ϵ O (alphabet d’output), ε (epsilon) pouvant être dans I et dans O

Un état initial q0

F: un ensemble d’états finaux (F inclus dans Q)

δ(q,i:o): la fonction/matrice de transition entre états, de QxΣ vers Q

04/11/23 Speech and Language Processing - Jurafsky and Martin 28

Page 29: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 29

Applications

• Le genre d'analyse dont nous parlons est communément appelé analyse morphologique ou de l'analyse (parsing)

• Ceci peut être Une composante autonome importante de

nombreuses applications (correction d'orthographe, recherche d'information)

Ou simplement une étape dans une chaîne d'analyse linguistique plus avancée

Page 30: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 30

Transitions

• c:c veut dire lire un c sur un ruban et écrire un c sur l’autre• +N:ε veut dire lire un symbole +N sur un ruban et ne rien

écrire sur l’autre• +PL:s veut dire lire +PL et écrire un s

c:c a:a t:t +N: ε +PL:s

Page 31: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 31

Utilisations Typiques

• En règle générale, nous allons lire à partir d'un ruban en utilisant le 1er symbole sur les transitions de la machine (comme dans un simple FSA).

• Et nous allons écrire sur le 2ème ruban en utilisant les autres symboles sur les transitions

Page 32: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 32

Ambiguité

• Rappelons que dans la reconnaissance non-déterministe de multiples chemins peuvent conduire à un état final• Pas important quel chemin a été en fait

parcouru• Dans les FST le chemin vers un état

final n’importe pas puisque des chemins différents représentent des analyses différentes ce qui se traduira par différents résultats

Page 33: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 33

Ambiguité

• Quelle est la meilleure analyse (segmentation) de• Unionizable

• Union-ize-able?• Un-ion-ize-able?

• Chacune représente un chemin valide dans la machine d’analyse de morphologie dérivationnelle et un sens différent

Page 34: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 34

Ambiguité

• Il ya différentes façons de faire face à ce problème prendre la première sortie trouvée• Retrouver toutes les sorties possibles

(tous les chemins) et les retourner (sans choix)

• Biaiser la recherche de telle sorte que seulement une ou quelques pistes probables sont explorées

Page 35: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 35

Les Détails de l’Histoire

• Bien sûr, tout n’est pas aussi facile que• “cat +N +PL” <-> “cats”

• Il y a aussi geese, mice et oxen• Mais il ya aussi toute une série de

changements d'orthographe/ de prononciation qui vont de paire avec les changements flexionnels• Cats vs Dogs• Fox et Foxes

Page 36: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 36

Machines à Plusieurs Bandes(Multi-Tape Machines)

• Pour faire face à ces complications, nous allons ajouter d'autres rubans et utiliser la sortie de l’une comme entrée de la suivante

• Donc, pour gérer les changements irréguliers d'orthographe, nous allons ajouter des rubans intermédiaires avec des symboles intermédiaires

Page 37: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 37

Machines à Plusieurs Bandes

• Nous utilisons une machine pour la transduction entre le

niveau lexical et le niveau intermédiaire, et une autre pour gérer les changements

d'orthographe pour la bande de surface

Page 38: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 38

Du niveau lexical au niveau intermédiare

Page 39: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 39

Du niveau intermédiare au niveau de surface

• Ajouter une règle d’orthographe pour le “e” comme dans fox^s# <-> foxes# (^ frontière de morphème; # frontière de mot)

• L’implémenter en tant que transducteur

Page 40: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

Exemples de règles d’orthographe

04/11/23 Speech and Language Processing - Jurafsky and Martin 40

Nom Description de la Règle

Exemple

Doublement de consonne

consonne doublée avant ~ing et ~ed

beg / begging

Suppression de E « silent » e supprimé avant ~ing et ~ed

make / making

Insertion de E E inséré après ~s, ~z, ~x,

watch / watches

Remplacement de Y

try / tries

Insertion de K panic / panicking

Page 41: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 41

Foxes

Page 42: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 42

Foxes

Page 43: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 43

Foxes

Page 44: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 45

Schéma Global• Nous avons maintenant un FST qui

contient des informations explicites sur le lexique (mots réels, leur orthographe, des faits sur les classes de mots et les régularités).• Formes du niveau lexical au niveau

intermediaire

• Nous avons un ensemble plus large de machines qui captent les règles d'orthographe • Formes intermédiaires aux formes de

surface

Page 45: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 46

Schéma Global

Page 46: Traitement Automatique du Langage Naturel Chapitre 3 MORPHOLOGIE ET Transducteurs d’Etats Finis

04/11/23 Speech and Language Processing - Jurafsky and Martin 47

Cascades

• Il s'agit d'une architecture que nous allons voir fréquemment Le traitement d'ensemble est divisé en

étapes de réécritures distinctes Les bandes intermédiaires peuvent

s’avérer utiles ou pas individuellement