Upload
denise-de
View
106
Download
0
Embed Size (px)
Citation preview
Journée Atala 1er Décembre 2007 1
Caroline Lavecchia, Kamel Smaïli et David Langlois
LORIA / Groupe Parole, Vandoeuvre-Lès-Nancy, France
Les Triggers inter-langues pour la Traduction
Automatique
Journée Atala 1er Décembre 2007 2
PlanPlan
Positionnement en Traduction Automatique Nouvelle approche : les triggers inter-langues Mise en œuvre des triggers inter-langues :
Construction et évaluation d’un dictionnaire bilingue Français-Anglais
Construction et évaluation d’une table de Traduction dédiée à la traduction automatique
Conclusion et Perspectives
Journée Atala 1er Décembre 2007 3
Signal de
Parole
Système de Reconnaissan
ce de la Parole
Système de Synthèse de
la Parole
Signal de
Parole
Module de Traduction
Automatique
Langue source
Langue cible
Phrase Source
Phrase Cible
Description d’un système de traduction Parole-Parole
La traduction automatique statistique
Les modèles d’IBM
Positionnement en Traduction Automatique
Un système de traduction Parole-Parole :Un système de traduction Parole-Parole :
Journée Atala 1er Décembre 2007 4
t* = argmaxt P(t|s)
t* = argmaxt P(t) * P(s|t)
Approche du canal bruité Trouver la meilleure phrase cible t* sachant la phrase
source s
Modèle de Langage Modèle de Traduction
Description d’un système de traduction Parole-Parole
La traduction automatique statistique
Les modèles d’IBM
Positionnement en Traduction Automatique
But de la traduction automatique statistique :But de la traduction automatique statistique :
Journée Atala 1er Décembre 2007 5
Corpus parallèles
alignés
Apprentissage du modèle de traduction
Table de Traductio
n
DécodeurDécodeur
Modèle de Langage
« Phrase Source »
« Phrase Cible »
P(si/tj)
si,tj Є Vocabulaire
s
Description d’un système de traduction Parole-Parole
La traduction automatique statistique
Les modèles d’IBM
Positionnement en Traduction Automatique
Procédé :Procédé :
Journée Atala 1er Décembre 2007 6
Le chat est gris
Je vous en prie entrez
Never ever take your eye off the ball
Encore du poisson pour le dîner
The cat is grey
Please come in
Jamais tu ne quittes la balle des yeux
Fish for supper again
Corpus Source Corpus Cible
Exemple de corpus parallèles alignés :Exemple de corpus parallèles alignés :
Description d’un système de traduction Parole-Parole
La traduction automatique statistique
Les modèles d’IBM
Positionnement en Traduction Automatique
Journée Atala 1er Décembre 2007 7
Les modèles d’ IBM (Brown et al, 1993)
P(s|t) = a P(s, a|t)Avec a, un alignement possible entre la phrase source s et la phrase cible t
Modèle 1 : tous les alignements sont équiprobables Modèle 2 : introduction de probabilités d’alignement Nombre conséquent de paramètres à estimer Modèles complexes et coûteux
EGYPT(Al-Onaizan, 1999 ), GIZA++ (Och, 2003)
Apprentissage des modèles de traduction :Apprentissage des modèles de traduction :
Description d’un système de traduction Parole-Parole
La traduction automatique statistique
Les modèles d’IBM
Positionnement en Traduction Automatique
Journée Atala 1er Décembre 2007 8
Boris Kasparov is a chess champion
Triggers classiques intra-langues calculés à partir de l’ Information Mutuelle (Kim et Khudanpur, 2004)
Rappel sur les triggers :Rappel sur les triggers :
Le concept de triggers inter-langues
Construction d’un dictionnaire bilingue
Construction d’une table de traduction
Nouvelle approche: les triggers inter-langues
Combinaison avec des modèles n-grammes en modélisation du langage
Journée Atala 1er Décembre 2007 9
Le concept de triggers inter-langues
Construction d’un dictionnaire bilingue
Construction d’une table de traduction
Nouvelle approche: les triggers inter-langues
Les triggers inter-langues :Les triggers inter-langues :
Pour chaque couple de mots (mot_source, mot_cible) et chaque paire k du corpus parallèle, calcul d’une IM partielle :
Pour chaque couple de mots (mot_source, mot_cible),
calcul d’une IM globale sur toutes les S paires du corpus :
Journée Atala 1er Décembre 2007 10
Boris Kasparov is a chess champion | Boris Kasparov est un champion d’échecs
Les triggers inter-langues :Les triggers inter-langues :
Pour chaque mot source, nous gardons comme triggers inter-langues, les n meilleurs mots cibles suivant la valeur de l’IM globale.
Le concept de triggers inter-langues
Construction d’un dictionnaire bilingue
Construction d’une table de traduction
Nouvelle approche: les triggers inter-langues
Triggers intra-langues
Triggers inter-langues
Journée Atala 1er Décembre 2007 11
Trigger(ei) : l’ensemble des mots déclenchés par ei
Trigger(fj) : l’ensemble des mots déclenchés par fj
Si fj Є Trigger(ei) et si ei Є Trigger(fj) alors ajout de l’entrée fj : ei
dans le dictionnaire A chaque mot sont associées ses p meilleures traductions possibles
suivant l’ IM
Le concept de triggers inter-langues
Construction d’un dictionnaire bilingue
Construction d’une table de traduction
Nouvelle approche: les triggers inter-langues
Méthode de construction du dictionnaire bilingue :Méthode de construction du dictionnaire bilingue :
fj : échecs
ei : chess
Échecs : chess
Dictionnaire
fj Є Trigger(ei) ei Є Trigger(fj)
fj : ei
Journée Atala 1er Décembre 2007 12
Les données Extrait des actes du Parlement Européen (Koehn,
2005) 598014 paires de phrases Français-Anglais Vocabulaires :
– 19588 mots anglais les plus fréquents
– 26811 mots français les plus fréquents
ei, fj Є Vocabulaires, génération des 10 meilleurs triggers anglais et des 10 meilleurs triggers français selon l’ IM
Apprentissage :Apprentissage :
Le concept de triggers inter-langues
Construction d’un dictionnaire bilingue
Construction d’une table de traduction
Nouvelle approche: les triggers inter-langues
Journée Atala 1er Décembre 2007 13
Exemples de triggers générés :Exemples de triggers générés :
Mots anglais
Mots français déclenchés
IM globale
Cooperation
Coopération 38
Collaboration 7
Développement 6
Difficulty
Difficulté 1.5
Difficultés 0.9
Problème 0.5
Disciplines
Disciplines 0.22
Règles 0.07
investissements 0.06
Mots français
Mots anglais déclenchés
IM globale
Coopération
Cooperation 38
Development 7
countries 6
Difficulté
Difficulty 1.5
Difficulties 0.9
Difficult 0.5
Disciplines
Disciplines 0.22
New 0.07
Different 0.06
Le concept de triggers inter-langues
Construction d’un dictionnaire bilingue
Construction d’une table de traduction
Nouvelle approche: les triggers inter-langues
Triggers inter-langues Ang-Fr
Triggers inter-langues Fr-Ang
Journée Atala 1er Décembre 2007 14
Dictionnaire Anglais/Français
Dictionnaire Français/Anglais
Extraits des dictionnaires bilingues obtenus :Extraits des dictionnaires bilingues obtenus :
Mots anglais Traductions possibles
Fish Pêche Pêcheurs Poissons
Fisherman Pêcheur Pêcheurs Pêche
Flag Pavillon Drapeau Navires
Flexible Flexible Souple Travail
Foods Alimentaires
Alimentaire Produits
Gender Femmes Hommes Genre
Henceforth Désormais Dorénavant Dès
Mots français Traductions possibles
Humide Wetland Wet Rainforest
Humble Humble Opinion Modest
Mécaniquement Automatically Systematically
Necessarily
Méconnaissance
Ignorance Lack Knwoledge
Royal Royal Family Navy
Sonnette Alarm Sound Bells
Urgence Urgent Urgency emergency
Le concept de triggers inter-langues
Construction d’un dictionnaire bilingue
Construction d’une table de traduction
Nouvelle approche: les triggers inter-langues
Dictionnaire inter-langues Ang-Fr
Dictionnaire inter-langues Fr-Ang
Journée Atala 1er Décembre 2007 15
Comparaison de notre dictionnaire automatique Français-Anglais TrigDic avec deux dictionnaires existants :
– Un dictionnaire distribué par ELRA de 70832 entrées françaises ( dont 10405 se retrouvent dans notre vocabulaire français)
– Un dictionnaire du projet XDXF de 41398 entrées (dont 11265 se retrouvent dans notre vocabulaire français)
Évaluation du dictionnaire Français-Anglais :Évaluation du dictionnaire Français-Anglais :
Le concept de triggers inter-langues
Construction d’un dictionnaire bilingue
Construction d’une table de traduction
Nouvelle approche: les triggers inter-langues
Journée Atala 1er Décembre 2007 16
Test A Test B
ELRA 53% 68%
XDXF 41% 49%
Le concept de triggers inter-langues
Construction d’un dictionnaire bilingue
Construction d’une table de traduction
Nouvelle approche: les triggers inter-langues
Résultats en terme de Rappel :Résultats en terme de Rappel :
Rappel = Nombre de mots français correctement traduits dans TrigDic
Nombre de mots français en commun avec ELRA ou XDXF
Pour chaque entrée française de notre dictionnaire automatique:
Test A : seule la meilleure traduction possible est prise en compte
Test B : ses 5 meilleures traductions possibles sont prises en compte
Journée Atala 1er Décembre 2007 17
Mot Français Traduction proposée par ELRA Traductions à partir des triggers
Chevaux Horsefles horses, animals, horse
Chimère Bubble illusion, fantasy, dream, fancy
Déléguée Deputy delegated, united, delegate
Analyse et perspectives :Analyse et perspectives :
• Analyse :
• Seulement 5 traductions possibles par mot
• Certaines traductions possibles dans TrigDic sont pertinentes mais n’apparaissent pas dans le dictionnaire ELRA
• Les traductions proposées par le dictionnaire ELRA ne sont pas toujours très courantes
• Perspectives :
• Augmenter le nombre de traductions possibles dans TrigDic
• Comparer TrigDic à un dictionnaire construit manuellement
Le concept de triggers inter-langues
Construction d’un dictionnaire bilingue
Construction d’une table de traduction
Nouvelle approche: les triggers inter-langues
Journée Atala 1er Décembre 2007 18
Le concept de triggers inter-langues
Construction d’un dictionnaire bilingue
Construction d’une table de traduction
Nouvelle approche: les triggers inter-langues
Du dictionnaire bilingue à la table de traduction :Du dictionnaire bilingue à la table de traduction :
Dictionnaire TrigDic
f Є Vocabulaire, f : e1(IMG(f,e1)), … ep(IMG(f,ep))
Table de traduction TrigDic
f Є Vocabulaire, P(e1|f) = , …, P(ep|f) =
e f IMG(f,e) P(e/f)
Cooperation Coopération 38 0.73
Development Coopération 6 0.11
Countries Coopération 5 0.10
Agreement Coopération 3 0.06
IMG(f, e1)
IMG(f, ei)j=1 …p
IMG(f, ep)
IMG(f, ei)j=1 …p
Journée Atala 1er Décembre 2007 19
Le concept de triggers inter-langues
Construction d’un dictionnaire bilingue
Construction d’une table de traduction
Nouvelle approche: les triggers inter-langues
Évaluation de la table de traduction TrigDic :Évaluation de la table de traduction TrigDic :
Intégration dans un module de traduction automatique Anglais vers Français
Table de Traduction
DécodeurDécodeur
Modèle de Langage Français
59530 phrases Anglaises
Table de traduction TrigDic
Table de traduction générée à l’aide de
Giza++
59530 traductions candidates
Modèle trigramme BLEU
Pharaoh (Koehn, 2004)
Journée Atala 1er Décembre 2007 20
Le concept de triggers inter-langues
Construction d’un dictionnaire bilingue
Construction d’une table de traduction
Nouvelle approche: les triggers inter-langues
Évaluation de la table de traduction TrigDic :Évaluation de la table de traduction TrigDic :
Comparaison en terme de score BLEU (Papineni, 2002) Entre les traductions références et les traductions produites par
Pharaoh avec la table de traduction TrigDic Entre les traductions références et les traductions produites par
Pharaoh avec la table de traduction générée par l’outil Giza++ avec le
modèle 2 d’IBM (G)
T1 : 10 meilleurs triggers Fr-Ang, 10 meilleurs triggers Ang-Fr, 5
meilleures traductions probables pour chaque mot f du Vocabulaire
Traductions Candidates Bleu
T1 0.18
G 0.24
Journée Atala 1er Décembre 2007 21
Le concept de triggers inter-langues
Construction d’un dictionnaire bilingue
Construction d’une table de traduction
Nouvelle approche: les triggers inter-langues
Améliorations apportées :Améliorations apportées :
T2 : 50 meilleurs triggers Fr-Ang, 50 meilleurs triggers Ang-Fr, 10 traductions probables pour chaque mot Français f du vocabulaire
T3 : T2 + ajout d’une probabilité P(null | f) pour chaque mot Français f du vocabulaire
Traductions Candidates Bleu
T1 0.18
T2 0.19
T3 0.21
G 0.24
Journée Atala 1er Décembre 2007 22
Comparaison des tables de traduction pour le mot Français Coopération
Le concept de triggers inter-langues
Construction d’un dictionnaire bilingue
Construction d’une table de traduction
Nouvelle approche: les triggers inter-langues
Comparaison TrigDic-Giza++ :Comparaison TrigDic-Giza++ :
e P(e/f)
Cooperation 0.73
Development 0.11
Countries 0.10
Agreement 0.06
e P(e/f)
Cooperation 0.87
Co-operation 0.04
Collaboration 0.008
Together 0.008
Cooperate 0.012
e P(e/f)
Cooperation 0,59
Development 0,10
Countries 0,08
Agreement 0,05
International 0,04
Area 0.03
Co-operation 0.03
Regional 0.03
Framework 0.03
Through 0.03
Modèle 2 d’IBM
T1
T2
654 traductions probables pour Coopération avec le modèle 2 d’IBM
Journée Atala 1er Décembre 2007 23
Conclusion et perspectivesConclusion
Conclusion :Conclusion :
Résultats encourageants Les triggers inter-langues permettent de construire une table de
traduction appropriée pour la traduction automatique Résultats en terme de BLEU proches de ceux des méthodes
classiquement utilisées Modèles d’IBM : complexes, calculs itératifs longs Triggers inter-langues : simple (une seule itération) et rapide à
mettre en œuvre
Travaux sur des corpus de sous-titres Meilleures performances que le modèle 3 d’IBM
Journée Atala 1er Décembre 2007 24
Conclusion et perspectivesConclusion
Perspectives :Perspectives :
Traduction automatique basée sur les séquences Triggers de séquences (plusieurs mots déclenchent plusieurs
mots)
Mise en place de triggers de traits Singulier déclenche Singulier Adj-Nom en Anglais déclenche Nom-Adj en Français Will en Anglais déclenche verbe futur en Français Etc …
Mise en place d’un décodeur dédié aux triggers (en cours de test)