Upload
eloise-seguin
View
107
Download
1
Embed Size (px)
Citation preview
Rouen, le 24 mai 2003
Phonétisation, alignement et Phonétisation, alignement et associationassociation
dans les grands corpus oraux en dans les grands corpus oraux en anglaisanglaisCaroline Bouzon, Cyril Auran
& Daniel Hirst
Laboratoire Parole et Langage, UMR 6057 CNRS
INTO 01 : Intonation, Notation et Transcription de l’Oral
Disponible sur le site: http://www.lpl.univ-aix.fr/~EPG/
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
IntroductionIntroduction
Problématique Alignement / Association d’actualité dans les études sur l’intonation (Session Spéciale de SP2002)
Segmentation au niveau phonétique
Recherches actuelles en linguistique et en phonétique souvent fondées sur l’analyse de corpus oraux
Intérêt particulier pour les corpus oraux phonétisés et alignés au niveau des phonèmes
Méthodologie Aix-MARSEC
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
PlanPlan
La méthodologie Aix-MARSEC
Phonétisation brute
Optimisation de la phonétisation
Alignement automatique
Autres niveaux d’analyse
Perspectives et Conclusion
Aix-MARSEC : les origines
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Aix-MARSECAix-MARSEC
Les originesLes origines
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Aix-MARSEC : les originesAix-MARSEC : les origines
SEC MARSEC
Spoken English Corpus MAchine Readable SEC
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Aix-MARSEC : les originesAix-MARSEC : les origines
55 000 mots, 339 min. et 18 sec.
Archives de la BBC (années 1980)
11 styles de parole
Parole naturelle
53 locuteurs (17 locutrices et 36 locuteurs)
Transcription orthographique
Annotation prosodique: 14 symboles de type tonetic stress marks
Spoken English CorpusSpoken English Corpus
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Aix-MARSEC : les originesAix-MARSEC : les origines
Annotation prosodique: les 14 symboles utilisés pour le SEC sont remplacés par 14 symboles ASCII (G. Knowles & B. Williams)
→tonetic stress marks
MAchine Readable Spoken English CorpusMAchine Readable Spoken English Corpus
Alignement temporel au niveau du mot et de l’unité intonative (mineure & majeure)
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Aix-MARSEC : les originesAix-MARSEC : les origines
14 symboles ASCII pour l’annotation prosodique :
_ low level~ high level< step-down> step-up/’ (high) rise-fall
‘/ high\ high fall fall-rise/ high rise
, low rise‘ low fall,\ (low rise-fall – not used)\, low fall-rise* stressed but unaccented| minor intonation unit boundary|| major intonation unit boundary
(Roach, 1994)
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Aix-MARSEC : les originesAix-MARSEC : les origines
Pré-traitements et homogénéisation du corpus
Suppression des fichiers son défectueux ou étiquettes
manquantes
Conversion des fichiers étiquettes au format ‘textgrid’ (Praat)
Vérification et correction des étiquettes de mot avec Praat
(fenêtre minimale de correction: 50ms)
Modification d’étiquettes dans 82 fichiers
Marquage des fichiers modifiés par ajout de ‘mod’ dans le nom
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Aix-MARSEC : les originesAix-MARSEC : les origines
Pré-traitements: prédiction de la durée des phonèmesCampbell (1992)
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Méthodologie Méthodologie
Aix-MARSECAix-MARSEC
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Méthodologie Aix-MARSECMéthodologie Aix-MARSEC
1. Phonétisation brute
2. Optimisation de la phonétisation
3. Alignement automatique
4. Autres niveaux d’analyse
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Méthodologie Aix-MARSEC :Méthodologie Aix-MARSEC :
Phonétisation brutePhonétisation brute
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Phonétisation brutePhonétisation brute
Méthode par dictionnaires
Fonctionnement général :
Recherche automatique dans le dictionnaire de prononciation
(‘Advanced Learners’ Dictionary’, Oxford University Press):
71 000 mots en entréeConversion en SAMPA (exemples des voyelles simples)
I - e - e { -
Q - V - U -
A: - : O: - :3: - :
@ - i: - i: u: - :
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Phonétisation brutePhonétisation brute
Chiffres et combinaisons de lettres + chiffres
Suites de majuscules (abréviations)
Génitifs et les formes contractées
Pluriel/3ème pers. sing. & part. passé/prétérit réguliers
Fonctions PERL traitant :
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Phonétisation brutePhonétisation brute
Utilisation de quatre dictionnaires différents
Dictionnaire "général" Advanced Learners’ Dictionary(formes phonologiques sous-jacentes)
Dictionnaire "mots inconnus" (700 mots transcrits manuellement)
Dictionnaire "formes problématiques" (hésitations, coupures)
Dictionnaire "formes réduites"
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Phonétisation brutePhonétisation brute
Traitement des formes réduites
Création d’un dictionnaire des formes réduites en anglais à partir de O’Connor (1967) et Faure (1975)
Condition de réduction: absence de marque prosodique (TSM)
Exemple: précédé d’une TSM, ‘/and -> transcrit /{nd/non précédé d’une TSM, and -> transcrit /@nd/ (dictionnaire de formes réduites)
But: améliorer la phonétisation
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Phonétisation brutePhonétisation brute
Problèmes non résolus
1. Doublons (mots avec deux entrées dans le dictionnaire)Exemples: object, wind
Aucune solution automatique (pas d’accent lexical, 1er cas)…… mais possibilité de différenciation avec un système de
reconnaissance
2. Dates (chiffres entre 1000 et 1999 traités comme des dates)
Système de reconnaissance
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Méthodologie Aix-MARSEC :Méthodologie Aix-MARSEC :
Optimisation de la phonétisationOptimisation de la phonétisation
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Optimisation de la phonétisationOptimisation de la phonétisation1) Méthode "brute" fondée sur l’extraction de lexique
Récupération de formes phonologiques (« citation forms »)
2) L’oral est caractérisé par certains phénomènes de production (élisions, réductions, assimilations,
métathèses, …)
Nécessité de modéliser ces phénomènes pour générer une phonétisation plus proche du signal : optimisation de la phonétisation « phonologique »
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Optimisation de la phonétisationOptimisation de la phonétisation
Utilisation de règles contraintes :
Paramètres intonatifs
Paramètres temporels
Paramètres phonotactiques
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
2. Paramètres temporels
Seuil minimal: 5ms
Seuils pour certains phonèmes (Klatt, 1979)
/t – d/= 55ms; /@/= 55ms; /T/= 110ms
Transformé z: z < 0 élision
z ≥ 0 pas d’élision
3. Paramètres phonotactiques
Optimisation de la phonétisationOptimisation de la phonétisation
1. Paramètres intonatifs: présence / absence de TSM
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Optimisation de la phonétisationOptimisation de la phonétisation
Paramètres phonotactiques : règles d’élision de phonèmes
Littérature : Jones (1990), Wells (1990) et Gimson (réédité par Cruttenden, 1997)
Observation d’un échantillon des données du corpus
15 règles d’élision
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Optimisation de la phonétisationOptimisation de la phonétisation
Règles d’élision de phonèmes (1)
Règle n°1: élision du phonème /d/ dans and
Si z < 0, alors:
Règle n°5 : élision de /d/ dans le contexte /d/ # /t-d/, hors terminaison -ed /Id/
Règle n°4 : élision de /t/ dans le contexte /t/ # /t-d/ (seuil)
Règle n°3: élision de /h/ dans la forme her (mêmes conditions)
Règle n°2: élision de /h/ dans les formes he, he’d, he’ll, he’s, his, him(position non-initiale d’UI; TSM)
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Optimisation de la phonétisationOptimisation de la phonétisation
Règles d’élision de phonèmes (2)
Règle n°6 : élision de /t/ et /d/ dans le contexte C1 + /t-d/ # C2 -/hj/
Règle n°7 : élision de /p/ dans le contexte /mp/ (#) + C-/r-l-j/
Règle n°8 : élision de /k/ dans le contexte /Nk/ (#) [ptksSTf]
Règle n°9 : élision de /l/ dans le contexte /O:/ + /l/ (#) + C
Règle n°10 : élision du phonème /T/ dans le contexte C + /T/ (#) + /s/ (seuil)
Règle n°11 : élision dans le contexte /s/ + /p - t - k/ (#) + /s/
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Optimisation de la phonétisationOptimisation de la phonétisation
Règles d’élision de phonèmes (3)
Règle n°12 : élision du schwa dans le contexte /@/ + /l - r/ + voyelle réduite /I - @/ (seuil)
mais évitement d’enchaînement /rl/ et simplification des séquences /rr/ et /ll/
Règle n°13 : élision du schwa dans /k@n/'Syll en position initiale (seuil)Règle n°14 : élision du schwa dans l’auxiliaire de modalité can (seuil)Règle n°15 : élision du schwa dans le contexte /k-p/ + /@/ + /n/ # (seuil)
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Optimisation de la phonétisationOptimisation de la phonétisation
Évaluation des règles d’élision de phonèmes(comparaison avec fichiers observés)
4083 phonèmes élidés sur les 199.770 du corpus (≈ 2 %)
MESURES
RAPPEL 50,51 %
PRECISION 74,44 %
SILENCE 49,49 %
BRUIT 25,56 %
F-MESURE 60,18 %
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Méthodologie Aix-MARSEC :Méthodologie Aix-MARSEC :
Alignement automatiqueAlignement automatique
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Alignement automatiqueAlignement automatique
On considère généralement (Di Cristo et Hirst, 1997) qu’il faut 16 h pour transcrire et aligner 1 minute de
parole au niveau phonématique
Soit 5280 heures pour les 5h30 du corpus
(plus de 1 an et demi à raison de 10h par jour
7 jours par semaine)
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Alignement automatiqueAlignement automatique
Méthode
Modèles de Markov Cachés (HMMs) entraînés sur le corpus TIMIT
Alignement par application de l’algorithme Viterbi contraint par la phonétisation (« force
Viterbi »)
Alignement réalisé par Christophe Lévy et Pascal Nocéra du Laboratoire d’Informatique d’Avignon (cf. Nocéra et al., 2000)
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Alignement automatiqueAlignement automatique
Évaluation (1)Absence de biais lié aux élisions lors de la phase d’alignement
(Tests de Wilcoxon et de Kolmogorov-Smirnov sous R)
P valeursP valeurs
WilcoxonWilcoxon 0.77570.7757
Kolmogorov-SmirnovKolmogorov-Smirnov 11
INTO 01 : Intonation, Notation et Transcription de l’Oral
-300 -200 -100 0 100 200
-300
-200
-100
010
020
0
Graphique Quantile-Quantile
Avec élisions
San
s él
isio
ns
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Alignement automatiqueAlignement automatique
Évaluation (2)
SeuilSeuil % de décalages inférieurs au seuil% de décalages inférieurs au seuil
64 ms64 ms 93.25 %93.25 %
32 ms32 ms 82.02 %82.02 %
20 ms20 ms 68.37 %68.37 %
16 ms16 ms 59.97 %59.97 %
115 ms5 ms 57.40 %57.40 %
10 ms10 ms 42.43 %42.43 %
5 ms5 ms 23.72 %23.72 %
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Méthodologie Aix-MARSEC :Méthodologie Aix-MARSEC :
Autres niveaux d’analyseAutres niveaux d’analyse
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Autres niveaux d’analyseAutres niveaux d’analyse
Regroupements et alignements automatiques
Syllabes (Principe d’Attaque Maximale; Pulgram, 1970)
Constituants syllabiques (Attaque, Noyau et Coda)
Pieds Accentuels (Abercrombie, 1967)
Unités rythmiques (Jassem, 1952)
Mots
Unités intonatives (mineures & majeures)
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Autres niveaux d’analyseAutres niveaux d’analyse
Autres traitements
(cf. Présentation D. Hirst, 22 mai 2003)
Application de l’algorithme MOMEL
Codage des points cibles par l’algorithme INTSINT
Éléments pour le traitement de la problématique alignement / association sur parole naturelle
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Perspectives Perspectives
&&
conclusionconclusion
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Perspectives et ConclusionPerspectives et Conclusion
Amélioration de la phonétisation :
Nouvelles règles (exemple: the)
Affinement des contraintes
Suppression fondée sur l’alignement automatique
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Perspectives et ConclusionPerspectives et Conclusion
Amélioration de l’alignement :
Utilisation de modèles phonétiques plus adaptés
Application itérative d’un algorithme de programmation dynamique (DTW)
(cf. Di Cristo & Hirst, 1997)
INTO 01 : Intonation, Notation et Transcription de l’Oral
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Perspectives et ConclusionPerspectives et Conclusion
Aix-MARSEC : une méthodologie …
Un système de phonétisation fiable (94,79 % de phonèmes prédits correctement)
INTO 01 : Intonation, Notation et Transcription de l’Oral
Un ensemble d’outils de génération de granularités variables (regroupements automatiques à divers niveaux)
Un système portable (scripts multi-plateformes en langage Perl, dictionnaires modulaires)
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Perspectives et ConclusionPerspectives et Conclusion
… et un corpus :
- 5h30 de parole continue
- 52 locuteurs
- 11 styles de parole
- 195.687 phonèmes, 88.794 syllabes, 54.083 mots
- alignement aux niveaux du phonème, constituant syllabique, syllabe, mot, pied, unité rythmique, cibles MOMEL/INTSINT, unité intonative (mineure / majeure)
INTO 01 : Intonation, Notation et Transcription de l’Oral
IllustrationIllustration
Rouen, le 24 mai 2003
Phonétisation, alignement et association dans les grands corpus oraux en anglais
Merci de votre attentionMerci de votre attention
INTO 01 : Intonation, Notation et Transcription de l’Oral