1
La prosodie pour l’Identification
Automatique des Langues
DEA IIL - IRIT - équipe IHM-PT Directeur de recherche: Régine ANDRE-OBRECHT
Responsable de stage : François PELLEGRINO
Jérôme FARINAS
2
Plan de l’exposé
1 Cadre de l’étude2 La prosodie3 Evaluation des algorithmes d’extraction
de la fréquence fondamentale4 Une modélisation de la prosodie pour
l’IAL5 Conclusions et perspectives
3
1 Cadre de l’étude
Identification Automatique des Langues (IAL) Projet de recherche de l’équipe :
projet Discrimination Automatique Multilingue système complet d’IAL :
un module de décodage acoustico-phonétique un modèle de langage un module prosodique
Sujet de DEA : recherche des algorithmes d’extraction de la fréquence
fondamentale, étude multilingue de la structure prosodique
suprasegmentale (recherche d’unités prosodiques et modélisation)
4
2 La prosodie
définitions quelques fonctions difficultés liés à l’extraction de
paramètres et à la modélisation
5
2 La prosodie : définitions
Au niveau acoustique :Hauteur (fréquence fondamentale F0)intensité (énergie)durée
Au niveau perceptuel :rythmemélodieaccentuation
6
2 La prosodie : quelques fonctions
Distinction entre homonymesa segment to segment
plátano platano
Structuration de l’énoncéL’instituteur dit le directeur est un incapable
ModalitéIl va venir ? Il va venir. Il va venir !
Fonctions non linguistiquescalme ou énervé, triste ou gai, enthousiaste, surpris...
7
2 La prosodie : difficultés
Au niveau de la modélisation : nombreux modèles, pas de théorie unifiée apprentissage implicite :
enseignement implicite pour la langue naturelle prise en compte récente lors de l’apprentissage de langues
étrangères [Bagshaw 94]
Au niveau de l’extraction de paramètres : détection voisement confusion entre harmoniques signal téléphonique (F0 manquant, variabilité)
8Autocorrélation
9Peigne spectral
10
Évaluation algorithmes...
Comment évaluer un algorithme ?
Difficultés dues aux erreurs de détections
Autre source d’information pour évaluer
Bases de référence [Bagshaw 94]
Intérêt de la combinaison d’algorithmes
d’extraction de la fréquence fondamentale [Hess
83]
11Méthode combinatoire
12
4 Une modélisation de la prosodie pour l’IAL
Corpus utilisé Système général Extraction de paramètres Modélisation des unités prosodiques Modèle de langage résultats
13
4 Une modélisation… : corpus utilisé
OGI-MLTS (Oregon Graduate Institute - Multi Lingual Téléphone Speech Corpus)
corpus développé pour l’IAL 11 langues (Français et Japonais utilisés) Fichiers de parole non-contrainte : htl, htc, meal,
room, story-at, story-bt Divisé en corpus APP et TST
14
4 Une modélisation… : système général
Modélisations existantes :approche classique adaptée à la prosodie
[Muthusamy 93] [Hazen 97]approche basée sur F0 [Itahashi 95]
Vue générale du module prosodique :
Segmentation ParamétrisationModèle
prosodiqueModèle
de langageSignal Langue
15
4 Une modélisation... : extraction de paramètres
Dénivelé de E et de F0
Dérivée première de E et de F0
Dérivée seconde de E et de F0
Ecart-type de E et de F0
Skewness de E et de F0
Kurtosis de E et de F0
16
4 Une modélisation… : modèle prosodique
Unité : segment voisé
10 formes prosodiques : ST, BU, TR, UPlo,
UPmi, UPhi, UPen, DWlo, DWmi, DWhi
une forme = un Modèle de Markov Caché
1 état 3 états
17
18
4 Une modélisation… : modèle de langage
But : modéliser les enchaînements entre les formes contenues dans les «phrases»
Modèle langage bigramme (en utilisant le système multigramme [Deligne 96])
øi : Forme prosodique
)Pr()...Pr( )1(
1
21
t
T
t
tT
19
4 Une modélisation… : résultats
Modélisation des unités prosodiques :
Identification des langues :
Langue bonnes détections mauvaises détections TauxFrançais 83 11 88,3%Japonais 75 16 82,4%
Type de fichiers identifications identifications Tauxcorrectes incorrectes
tous 132 72 64,7%45 s 25 11 69,4%
20
5 Conclusion et perspectives
Recherche d’unités prosodiques spécifiques à chaque langue
Essayer d’autres modélisations des unités prosodiques
Modélisation de la durée pour prendre en compte le rythme de la parole