Upload
ngokien
View
222
Download
0
Embed Size (px)
Citation preview
Tecnologías del habla
Conversión de texto en habla
Tecnologías de la Información y Comunicaciones en Redes Móviles
2005/2006Eduardo Lleida [email protected] Navas [email protected]
Tecnologías del habla
Índice
IntroducciónEstructura de un sistema CTHModelado prosódico. Habla emocionalTécnicas de síntesis de vozBases de datos para CTHEvaluaciónAplicaciones Perspectiva históricaLenguajes de marcado para CTH
Tecnologías del habla
Índice
Metodología de obtención de un modelo prosódicoModelado de la entonaciónModelado de la duraciónModelado de las pausasModelado de la intensidadHabla emocional
Tecnologías del habla
Modelado prosódico: metodología
0
50
100
150
200
250
300
350
400
parte 1 parte 2
Obtención de la base de datos
Etiquetado de la base de datos
Estudio estadístico de los parámetros
Evaluación del modelo obtenido
calidad aceptable
base datos válida
Modelo
sí
sí
no
no
Edozer egingo nuke zu pozik ikusteagatik.
Edozer egingo nuke zu pozik ikusteagatik0
2000
4000
6000
8000
10000
12000
1 20 40 60 80 100 120 140 160 180 200 220
Inicio
Tecnologías del habla
Índice
Metodología de obtención de un modelo prosódicoModelado de la entonaciónModelado de la duraciónModelado de las pausasModelado de la intensidadHabla emocional
Tecnologías del habla
Modelado de la entonación
Entonación básica para lograr naturalidadEvita la monotonía de la voz sintéticaGeneración de curva de entonación:
Mediante patrones melódicos almacenadosA partir de sistemas estadísticosUtilizando reglas para definir la curva a partir de símbolos
Tipos de modelosFonológicosAcústico-fonéticos
Tecnologías del habla
Modelado de la entonaciónModelos existentesModelos basados en tonos
Modelo fonológico El más conocido ToBI (Tone and Break Index)
Acento tonal*
[Tono frontera inicial]%
Acento de frase-
Tono frontera final%
Tecnologías del habla
Modelado de la entonaciónModelos existentesAsignación automática de las etiquetas
Usan información lingüística y segmentación de la señalHay que definir a priori la secuencia de tonos posible en la lengua
Construcción de la curva a partir de los parámetros
Difícil transformar etiquetas categóricas en curva numérica
Modelo muy extendido para etiquetado de la curva de entonación, pero menos utilizado para la síntesis
Tecnologías del habla
Modelado de la entonaciónModelos existentesModelos superposicionales
Se forma la curva sumando componentesEl más representativo el modelo de Fujisaki:
Basado en la fisiologíaDescompone la curva en tres componentes en escala logarítmica:
Componente de fraseComponente de acentoComponente base ln(F0)
t
línea básica
componente de frase
componente de acento
Composición de la curva sintética
Tecnologías del habla
Modelado de la entonaciónModelos existentes
ln F0min +Aa
Mecanismo de control de
frase
Mecanismo de control de
acento
curva de pitchsintética
(dominio de ln(Hz))
t
t
Ap
ln(F0)
t
línea básica
componente de frase
componente de acento
t
Composición de la curva sintética
Parámetros de la curva de entonación
∑∑==
−−−+−+=J
jjajjajaj
I
iipipimin TtGTtGATtGAFF
121
1000 )}()({)(lnln
)()exp()( 2 tutttG ipi iαα −=
[ ]{ } )(.),exp()1(1)( tuttMintG jjjaj θββ −+−=
Tecnologías del habla
Modelado de la entonaciónModelos existentesObtención automática de los parámetros
Compleja separación de las diferentes componentes de la curvaExisten algunos métodos para hacerlo
Construcción de la curva a partir de los parámetros
SencillaConstrucción de la curva sintética
Necesario darles un significado lingüístico
Tecnologías del habla
Modelado de la entonaciónModelos existentesModelos perceptuales
El más conocido es el IPO (Instituut voorPerceptie Onderzoek Instituto de Estudios de Percepción)Se estiliza la curva en dominio logarítmico con rectas manteniendo los fenómenos relevantes desde el punto de vista perceptual
log(F0)
t
Curva natural
Curva estilizada
Tecnologías del habla
Modelado de la entonaciónModelos existentesPatrones de movimientos de pitch
Se extraen estudiando características de duración y rango del movimiento de F0Se estandarizan para obtener un inventario de patronesSe define una gramática de combinación de movimientosSe describen en función de
DirecciónPosición en el tiempo en relación con los límites de las sílabasVelocidad de cambioTamaño
Tecnologías del habla
Modelado de la entonaciónModelos existentesObtención de los movimientos de pitch
Estilización de la curva manualProceso largoResultados diferentes si se estiliza en distinto momento o por distinto etiquetador
Existen métodos automáticosConstrucción de la curva sintética
Compleja porque los movimientos de F0 no tienen significado lingüístico
Tecnologías del habla
Modelado de la entonaciónModelos existentesModelos de estilización acústica
Movimientos de F0 a lo largo del tiempoEl más representativo es el Tilt, evolución del RFC (Rise/Fall/Connection Model)
Curva de F0 Secuencia de eventos
Parámetros TILT describen cada eventoOtros modelos
INTSINT (INternational Transcription System forINTonation)PBD (Prominence-Based Description)
acentos
tonos frontera
Tecnologías del habla
Modelado de la entonaciónModelos existentes
Parámetros del modelo TILT:TiltAmplitud del evento en Hz (Aevent)
Suma de la amplitud de la subida y la bajadaDuración del evento en s (Devent )F0 inicial en HzPosición en s
Inicio o pico del evento
t
F0 (Hz)
Amplitud de la bajada
Amplitud de la subida
Inicio del evento
Fin del evento
Posición del pico
Duración del evento
F0 inicial
bajadasubida
bajadasubida
AA
AAtilt
+
−=
Tecnologías del habla
Modelado de la entonaciónModelos existentesTilt parámetro adimensional relacionado con la forma del evento
bajadasubida
bajadasubida
AA
AAtilt
+
−=
0 50 100 150 200 25020
40
60
80
100
120
140
160
180
0 50 100 150 200 250100
120
140
160
180
200
220
0 50 100 150 200 250170
180
190
200
210
220
230
240
250
0 50 100 150 200 250160
180
200
220
240
260
280
300
0 50 100 150 200 250160
180
200
220
240
260
280
300
320
340
tilt = -1 tilt = -0.5 tilt = 0 tilt = 0.5 tilt = 1
Tecnologías del habla
Modelado de la entonaciónModelos existentesAnálisis
Etiquetado RFC automáticoConversión RFC TILT
60
70
80
90
100
110
120
130
1 59 117
175
233
291
349
407
465
523
581
639
697
755
813
871
929
987
1045
t (ms)
f0 (H
z) natural f0synthetic f0R
RF
F
tilt=1 tilt= -1
tilt= -0.07
Tecnologías del habla
Modelado de la entonaciónModelos existentesSíntesis
Conversión TILT RFCUso de la ecuación monomial
50
70
90
110
130
150
170
1 34 67 100
133
166
199
232
265
298
331
364
397
430
463
496
529
562
595
628
661
694
727
760
793
826
t (ms)
f0 (H
z) natural f0synthetic f0
2
0 2)( ⎟⎠⎞
⎜⎝⎛−+=
DtAAAtf abs 2
0 Dt <<
2
0 22)( ⎟⎠⎞
⎜⎝⎛−+=
DtAAAtf abs DtD
<<2
Tecnologías del habla
Modelado de la entonaciónModelos existentesObtención automática de los parámetros
SencillaConstrucción de la curva a partir de los parámetros
SencillaConstrucción de la curva sintética
ComplejaFalta de significado lingüístico de los parámetrosDifícil predecir sus valores a partir del texto
Tecnologías del habla
Modelado de la entonaciónFactores a considerarNivel de frase:
Tipo de frase: enunciativa, interrogativa, exclamativa...Número de grupos entonativos que la componenLongitud de la frase
Nivel de grupo entonativo:Tipo de grupo: central, final, continuativo...Situación en la fraseLongitudNúmero de grupos acentuales que contiene
Nivel de grupo acentual:Tipo de grupo acentualSituación en el grupo entonativo o la fraseNúmero de sílabasSituación de la palabra acentuada
grupo acentual regulargrupo acentual final5 sílabasacento en la primera palabra
continuativoprimer grupo entonativo3106 ms2 grupos acentuales
Enunciativa, 2 grupos entonativos,5223 ms
Edozer egingo nuke, zu pozik ikusteagatik.
Tecnologías del habla
Índice
Metodología de obtención de un modelo prosódicoModelado de la entonaciónModelado de la duraciónModelado de las pausasModelado de la intensidadHabla emocional
Tecnologías del habla
Modelado de la duración
Estimar duración de cada sonido a partir de información presente en el textoDuración depende de:
Factores intrínsecos esfuerzo para articularloFactores extrínsecos contexto, acento…
Unidad de cálculo de duración:FonemaDifonemaSílabaPalabra
Tecnologías del habla
P: sonido del que se calcula la duraciónf: vector de factoresDinherente,P: duración inherente sonido PDminima,P: duración mínima sonido Pkfi: contribución del factor fi
( )∑∏∈ ∈
=Ti iTj
iji fSfDUR ,)(
PmínimaPmínimaPinherentenff DDDkkfPDUR ,,,1 )(...),( +−×××=Modelo por regla (Klatt, 1976)
SoP, Sumas de Productos (van Santen, 1994)
Modelos estadísticosÁrboles de regresiónRedes neuronalesSplines de adaptación múltiple…
Modelado de la duración Modelos existentes
f: vector de factoresSi,j(fi): influencia del factor fi
Tecnologías del habla
Modelado de la duraciónFactores para la predicciónIdentidad del sonido y características articulatoriasContexto fonéticoPosición del sonido en la sílaba y la palabraPertenencia a la última sílaba o palabraNivel de acento
i vocal, anterior, cerradag oclusiva, velar, sonora
Ejemplo: Edozer egingo nuke zu pozik ikusteagatik.
n, nasal, alveolar, sonora…final de sílabacentral en la palabrano finalno acentuada
Tecnologías del habla
Modelado de la duraciónEjemplo de modelo con CART
Árbol para predecir la raíz cuadrada de la duraciónutilizando un contexto de 4 sonidosconsiderando identidad del sonidosin clasificación previa de los sonidos
Tecnologías del habla
Modelado de la duraciónResultados
Medidas del error entre duraciónreal y predicha:
RMSECoeficiente de correlaciónError relativo
Tecnologías del habla
Modelado de la duraciónResultados
Idioma Método Error
Árboles de regresión RMSE = 22.72 ms
MARS RMSE = 18.79 ms
SoP RMSE = 19 ms
Chino SoP RMSE = 26 ms
Gallego Tabla de búsqueda RMSE = 19.6 ms
Holandés SoP RMSE = 26.96 ms
Inglés Redes neuronales Coef. Corr. = 0.78
Árboles de regresión %Error = 19.43%Italiano
Redes neuronales Coef. Corr. = 0.84
Redes neuronales Coef. Corr. = 0.78
Checo Árboles de regresión RMSE = 20.3 ms
Francés SoP RMSE = 25 ms
Alemán
Árboles de regresión
12.9 msRMSE
0.804Coef. Corr.
17.7%%Error
Euskera
Tecnologías del habla
Índice
Metodología de obtención de un modelo prosódicoModelado de la entonaciónModelado de la duraciónModelado de las pausasModelado de la intensidadHabla emocional
Tecnologías del habla
Modelado de las pausas
Al hablar se hacen pausas:Fisiológicas para respirarLingüísticas para marcar el fin de una expresión
Pausas necesarias para lograr naturalidadNo siempre indicadas por signos de puntuaciónImportante ubicarlas bienDuración de la pausa:
Menos influyenteRelación inversa con el grado de relación entre palabras separadas
Tecnologías del habla
Modelado de las pausasIntroducciónModelos utilizados para predecir la ubicación de las pausas:
Por regla signos de puntuaciónpalabra función/contenidonúmero sílabas…
Estadísticos árboles de clasificaciónmodelos Markovprobabilísticos
Tecnologías del habla
Modelado de las pausasFactores para predecir su ubicaciónInformación morfosintáctica:
Etiqueta morfológica en contexto de 5 palabrasEtiqueta sintáctica en contexto de 3 palabrasIndicación de pertenencia a la misma cadena sintáctica que la anterior y la siguienteTipo de sintagma
Información de longitud de las cadenas:Nº de sílabas hasta siguiente signo de puntuaciónNº de sílabas desde la última pausa
sintagma verbalmisma cadena anteriordistinta cadena siguiente0 sílabas hasta el siguiente8 sílabas desde anteriorVerb. ppal sin declinar, verb. aux. sin declinar, sujeto
Ejemplo: Edozer egingo nuke, zu pozik ikusteagatik.
Pronombre, verb. ppal, verb. aux., pronombre, adjetivo
Tecnologías del habla
Modelado de las pausasExperimentos
Tipos de errores de predicción en la localización de las pausas:
InserciónOmisión
Más graves los de inserción
Tecnologías del habla
Modelado de las pausasResultados
Medida del error:Puntuación total S
Estadístico kappa
100*(%) NIONS −−=
N
NPTN
NPTS
−
−=
1κ
Porcentaje de fronteras bien clasificadas N nº de fronteras
O nº errores por omisión
I nº errores por inserción
N nº de fronteras
NPT nº de ‘No Pausa’
S puntuación total
Ninguna pausa introducida κ=0
Todas las pausas correctas κ=1
Tecnologías del habla
Modelado de las pausasResultados
Idioma Método S κ
Árboles de clasificación 84.9%
Probabilístico + árboles de clasificación 85.5% 0.64
Probabilístico 77% 0.56
Probabilístico 90% 0.5
Euskera Árboles de clasificación 91.7% 0.68
Italiano Analizador prosódico 97% 0.68
Modelos de Markov 91.5% 0.53Inglés
Aprendizaje basado en reglas 87% 0.54
Aprendizaje basado en memoria 90.8% 0.59
89.9%
Coreano
0.62
Japonés Probabilístico -
Tecnologías del habla
Índice
Metodología de obtención de un modelo prosódicoModelado de la entonaciónModelado de la duraciónModelado de las pausasModelado de la intensidadHabla emocional
Tecnologías del habla
Modelado de la intensidad
Menos influyente en la calidad de la señal sintetizadaEn síntesis por concatenación se normaliza la intensidad de la base de datos para evitar distorsionesExisten algunos modelos: modificar la intensidad intrínseca según parámetros prosódicos y sintácticos
Tecnologías del habla
Índice
Metodología de obtención de un modelo prosódicoModelado de la entonaciónModelado de la duraciónModelado de las pausasModelado de la intensidadHabla emocional
Tecnologías del habla
Habla emocional
Posibilidad de expresar emocionesProporciona gran naturalidad al CTH
Prosodia Fundamental para conseguir expresar emocionesNo suficiente
Qué se entiende por emociónDifícil de definir expresar en palabras conceptos abstractos relacionados con sentimientosMuchas veces se toma como equivalente a estado de ánimo, aunque no lo sea
Tecnologías del habla
Habla emocional
Rasgos presentes en la definición de varios autores
Son estados mentales conscientes o no, breves y de cierta intensidadPueden actuar de catalizador, inhibidor, favorecedor u obstaculizador de las relaciones humanasPueden provocar alteraciones fisiológicas
Tecnologías del habla
Habla emocional
Estudios sobre efectos de las emociones en el comportamiento y el lenguaje
1872 – Darwin “La expresión de las emociones en el hombre y los animales”Más recientemente:
Estudios acústicosEstudios léxicosEstudios prosódicosEstudios psicológicos
Tecnologías del habla
Habla emocional
Expresión de las emocionesCambios fisiológicosDiferentes rasgos prosódicos y espectrales
Parámetros prosódicos habitualmente considerados
PitchDuraciónEnergía
Parámetros espectrales:Distribución de energía por bandas
Tecnologías del habla
Habla emocional
Datos de la base de datos en euskeraEmoción Duración media
Enfado 88.5 ± 51.4
Asco 85.0 ± 45.3
Miedo 97.7 ± 61.1
Alegría 81.5 ± 46.7
Tristeza 78.8 ± 37.6
Sorpresa 95.7 ± 61.1
Emoción RMS RMS Banda baja
RMS Banda alta
Enfado 20.5 ± 1.5 20.0 ± 1.7 15.6 ± 1.8
Asco 19.3 ± 2.1 19.0 ± 2.1 13.4 ± 2.9
Miedo 19.8 ± 1.3 19.5 ± 1.3 14.0 ± 2.4
Alegría 20.2 ± 1.3 19.6 ± 1.3 15.9 ± 1.7
Tristeza 16.0 ± 2.1 15.8 ± 2.1 8.2 ± 2.7
Sorpresa 20.1 ± 1.6 19.7 ± 1.6 15.1 ± 1.9
Emoción F0 Media Rango F0 Max. PendientePositiva F0
Enfado 256.7±51.9 282.5±79.1 12.3±5.3
Asco 206.8±33.7 201.4±59.7 9.5±3.9
Miedo 322.2±44.2 265.6±104.6 5.5±1.3
Alegría 306.6±32.1 320.0±80.0 10.9±4.4
Tristeza 175.7±21.1 144.0±44.2 2.3±0.7
Sorpresa 280.0±33.9 371.8±52.3 5.6±1.3
Tecnologías del habla
Habla emocional
EjemplosCTH de formantes con emoción por regla (UPM)
neutro enfado alegría tristeza
Tecnologías del habla
Habla emocional
Proyectos relacionados con habla emocional:HUMAINE (2004-2008)
http://emotion-research.net/NECA (2001-2003)
http://www.ofai.at/research/nlu/NECA/INTERFACE (2000-2002)
http://gps-tsc.upc.es/imatge/_Montse/INTERFACE.htmlJST/CREST ESP (2000-2005)
http://feast.atr.jp/