Autor: Carlos Martín Valle Tutor: Juan Manuel Montero Martínez

1

MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES

NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO

Autor: Carlos Martín Valle

Tutor: Juan Manuel Montero Martínez

Grupo de Tecnología del HablaDepartamento de Ingeniería Electrónica

ETSIT

Carlos Martín Valle 2

Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido

INTRODUCCIÓN

Proyecto inicial para Natural Vox

Base de datos en dominio restringido

Objetivo: modulación de la frecuencia fundamental (f0)

Base: tesis doctoral de J. A. Vallejo y J.M. Montero, PFC de J. Sánchez, software de R. San Segundo

Soporte: Red Neuronal y scripts *.bat y *.per



LA RED NEURONALPerceptrón multicapa

Función de salida sigmoidea

Algoritmo de aprendizaje mediante retropropagación

Unidad: sílaba

Parámetros: ZSCORE MODO_NORM INI FIN ACENT TERMINAC TERM_ANT SILABAS

PAL_FUNC NUM_PAL POS_PAL FIN_PAL CONTEXTO OCULTA NUM_FRASE



LA BASE DE DATOS (I)

Dominio restringido con voz femenina

Proyecto de mejora de voz femenina para Natural Vox

Unidad: fonema

Inicialmente 22 frases-patrón

Finalmente 19 frases-patrón

Campos variables: Nombre propio enunciativa Sintaxis simple enunciativa Nombre propio o sintaxis simple interrogativa



LA BASE DE DATOS (II)Grabaciones Nombres propios y apellidos en oraciones enunciativas (660 frases)

Frases 1, 2, 3, 4, 5, 6, 7, 17 y 19 Sintagmas nominales en oraciones enunciativas (307 frases)

Frases 8, 9, 10, 11, 12 y 14 Sintagmas nominales, movimientos bancarios y apellidos y pueblos

en oraciones interrogativas (600 frases) Frases 13, 15, 16 y 18

Agrupaciones 1, 2, 3, 4, 5, 10, 11, 17 y 19 8, 9, 12 y 14 13, 16 y 18 15 6 y 7



LOS PROGRAMAS (I)

Lenguajes: C, Perl y scripts de MS-DOS

2 grupos Para generar ficheros

con parámetros de entrada de la Red

Para realizar los experimentos y obtener el modelado de la f0

1 2

1 2 3 4 1 2 1 2 3

PRENEWEXPER.BAT

NEWEXPER.BAT

SUSTITUY.PER

AL3EXPER.BAT

AL22EXPER.BAT

EXPERIM.BAT

EJEMPLO.EXE

WC.BAT

NEWCODE22.PER

EXCEL.BAT

WC.PER

EXCEL.PER

SUSTITUY.PER

MEDIA.PER

RESULT.PER



LOS PROGRAMAS (II)

Estructura: “Superprograma”: generación de ficheros *.f0, extracción

difonemas y resíntesis de frases Generación de experimentos

Selección de parámetros (ficheros *.lis) Nueva codificación para la Red Neuronal (ficheros *.in)

Cross validation, leave-one-out : Por cada experimento se generan 10 subexperimentos 7 para entrenamiento, 1 para evitar sobreentrenamiento y 2 para test

Red Neuronal: entrenamiento, evaluación y test Obtención y elección de resultados

Procesamiento y presentación de los resultados



LOS EXPERIMENTOS Y SUS RESULTADOS

Metodología: Se parte del experimento “Vallejo19” y se van modificando

los valores de los parámetros Se buscan resultados con diferencias significativas en sus

parámetros Se eliminan definitivamente los peores valores de los

parámetros (NUM_FRASE=0, CONTEXTO=0) Si no hay diferencias significativas se buscan diferencias

consistentes

Diferentes tipos de estrategias Cuando se pueden eliminar valores de los parámetros Cuando no se pueden eliminar valores de los parámetros



ANÁLISIS DE LOS RESULTADOSFRASES 1, 2, 3, 4, 5, 10, 11, 17 Y 19 (I)

Oraciones enunciativas

Experimento “Vallejo19”neu1_2neu1_3acent ini fin context4_4silab4_5terminacPAL_FUNCNUM_PALPOS_PALFIN_PALTERM_ANTnum_frasete_Error_absolutoNumEj

15 1 1 1 1 1 1 4 1 0 0 0 0 19 12,3131841 209915 1 1 1 1 1 1 4 1 0 0 0 0 0 13,5129074

Resultados definitivos para todos los experimentos: Se elimina NUM_FRAS=0->NUM_FRAS=19 Se elimina CONTEXTO=0 Se elige ACENT=INI=FIN=1



ANÁLISIS DE LOS RESULTADOSFRASES 1, 2, 3, 4, 5, 10, 11, 17 Y 19 (II)

Resultados finales: Tamaño intermedio de la capa oculta Contextos pequeños SÍLABAS: diferencias no consistentes Se marcan las terminaciones: TERMINAC=4 TERM_ANT es innecesario Codificación fina para PAL_FUNC FIN_PAL y POS_PAL: diferencias no consistentes NUM_PAL: no es necesario usar la codificación

neu1_2neu1_3acent ini fin context4_4silab4_5terminacPAL_FUNCNUM_PALPOS_PALFIN_PALTERM_ANTnum_frasete_Error_absolutoNumEj18 1 1 1 1 1 2 4 3 0 0 3 0 19 12,09507 209919 1 1 1 1 1 2 4 3 0 0 3 0 19 12,0979217 1 1 1 1 1 2 4 3 0 1 1 0 19 12,1003616 1 1 1 1 1 0 4 3 0 0 3 0 19 12,10424



ANÁLISIS DE LOS RESULTADOSFRASES 13, 16 Y 18 (I)

Oraciones interrogativas

Experimento “Vallejo19”neu1_2neu1_3acent ini fin context4_4silab4_5terminacPAL_FUNCNUM_PALPOS_PALFIN_PALTERM_ANTnum_frasete_Error_absolutoNumEj

15 1 1 1 1 1 1 4 1 0 0 0 0 19 13,258 201815 1 1 1 1 2 1 4 1 0 0 0 0 19 13,26425 1 1 1 1 2 1 4 1 0 0 0 0 19 13,269

Frases cortas -> Contextos pequeñosneu1_2neu1_3acent ini fin context4_4silab4_5terminacPAL_FUNCNUM_PALPOS_PALFIN_PALTERM_ANTnum_frasete_Error_absolutoNumEj

10 1 1 1 1 2 1 0 1 0 0 0 0 19 13,164 201820 1 1 1 1 2 1 0 1 0 0 0 0 19 13,22110 1 1 1 1 3 1 0 1 0 0 0 0 19 13,29510 1 1 1 1 4 1 0 1 0 0 0 0 19 13,333



ANÁLISIS DE LOS RESULTADOSFRASES 13, 16 Y 18 (II)

Resultados finales: Capa oculta con pocas neuronas Contextos pequeños SÍLABAS: diferencias no consistentes TERMINAC: no hace falta usar la codificación TERM_ANT: mejora no consistente PAL_FUNC y NUM_PAL: usar codificación POS_PAL: no es necesario usar la codificación FIN_PAL: no usar codificación con ventana

neu1_2neu1_3acent ini fin context4_4silab4_5terminacPAL_FUNCNUM_PALPOS_PALFIN_PALTERM_ANTnum_frasete_Error_absolutoNumEj12 1 1 1 1 2 0 0 1 1 0 0 5 19 13,04374 201811 1 1 1 1 2 0 0 1 1 0 0 5 19 13,050839 1 1 1 1 2 1 0 1 1 0 0 0 19 13,05603

11 1 1 1 1 2 1 0 3 1 0 1 0 19 13,06819



ANÁLISIS DE LOS RESULTADOSFRASES 6 Y 7 (I)

Oraciones enunciativas

Causa: marcado diferente al del resto de frases

Objetivo: determinar la conveniencia de esta agrupación

FRASE 6

Resultados: TERMINAC es indiferente TERM_ANT es importante. CONTEXTO=3 Capa oculta de la Red Neuronal con tamaño pequeño



ANÁLISIS DE LOS RESULTADOSFRASES 6 Y 7 (II)

FRASE 7

Resultados: TERMINAC=4 TERM_ANT es indiferente. CONTEXTO=1 Capa oculta de la Red Neuronal con tamaño pequeño

No es aconsejable mezclar las frases 6 y 7 (14,552*437 + 17,265*413) / (437 + 413) = 15,854 < 16,417

neu1_2neu1_3acent ini fin context4_4silab4_5terminacPAL_FUNCNUM_PALPOS_PALFIN_PALTERM_ANTnum_frasete_Error_absolutoNumEjFrase 6 10 1 1 1 1 3 1 0 1 0 0 0 5 19 14,552 437Frase 7 25 1 1 1 1 1 1 4 1 0 0 0 5 19 17,265 413Frases 6 y 7 10 1 1 1 1 1 1 4 1 0 0 0 5 19 16,417 850

FRASES 6 Y 7



ANÁLISIS DE LOS RESULTADOSFRASES 8, 9, 12 Y 14 (I)

Oraciones enunciativasneu1_2neu1_3acent ini fin context4_4silab4_5terminacPAL_FUNCNUM_PALPOS_PALFIN_PALTERM_ANTnum_frasete_Error_absolutoNumEj

Frase 8 5 1 1 1 1 5 1 4 1 0 0 0 0 19 20,831 393Frase 9 5 1 1 1 1 4 1 4 1 0 0 0 0 19 17,913 637Frase 12 5 1 1 1 1 5 1 4 1 0 0 0 5 19 16,119 1503Frase 14 15 1 1 1 1 2 1 0 1 0 0 0 5 19 16,526 186Frases 8, 9, 12 y 14 15 1 1 1 1 5 1 4 1 0 0 0 5 19 16,879 2719

Se descarta la frase 8 por su gran error al modelar

Cambio de estrategia en los experimentos

Se fijan inicialmente los valores de las siguientes variables: TERMINAC=4 TERM_ANT=5

Frases cortas y largas Se elimina CONTEXTO=1



ANÁLISIS DE LOS RESULTADOSFRASES 8, 9, 12 Y 14 (II)

Resultados finales: Tamaño intermedio de la capa oculta CONTEXTO: 2 y 5 SÍLABAS: diferencias no consistentes Se marcan las terminaciones: TERMINAC=4 TERM_ANT=5: se usa la codificación PAL_FUNC y POS_PAL: diferencias no consistentes NUM_PAL: se usa la codificación FIN_PAL: codificación con ventana

neu1_2neu1_3acent ini fin context4_4silab4_5terminacPAL_FUNCNUM_PALPOS_PALFIN_PALTERM_ANTnum_frasete_Error_absolutoNumEj16 1 1 1 1 2 0 4 3 1 1 3 5 19 16,2233 232616 1 1 1 1 2 0 4 1 1 1 3 5 19 16,3281217 1 1 1 1 5 0 4 0 1 1 3 5 19 16,3499716 1 1 1 1 5 1 4 1 1 0 3 5 19 16,3564



ANÁLISIS DE LOS RESULTADOSFRASE 15 (I)

Oraciones interrogativas

Los grupos fonéticos marcados no se sitúan al final de las frasesneu1_2neu1_3acent ini fin context4_4silab4_5terminacPAL_FUNCNUM_PALPOS_PALFIN_PALTERM_ANTnum_frasete_Error_absolutoNumEj

32 1 1 1 1 1 0 4 0 0 0 0 5 19 13,25401 94633 1 1 1 1 1 0 4 0 0 0 0 5 19 13,3447215 1 1 1 1 1 0 4 1 0 0 0 0 19 14,07103

Resultados finales: Tamaño grande de la capa oculta CONTEXTO=1 SÍLABAS=0 Se marcan las terminaciones: TERMINAC=4 TERM_ANT=5: se usa la codificación PAL_FUNC, NUM_PAL, POS_PAL y FIN_PAL: 0 ligeramente mejor



ANÁLISIS DE LOS RESULTADOSFRASE 15 (II)

FRASE 15 JUNTO CON 1, 2, 3, 4, 5, 10, 11, 17 Y 19

La inclusión de la frase 15 empeora el modelo de entonación 13,06630 > 12,09507

neu1_2neu1_3acent ini fin context4_4silab4_5terminacPAL_FUNCNUM_PALPOS_PALFIN_PALTERM_ANTnum_frasete_Error_absolutoNumEj30 1 1 1 1 1 0 4 3 0 0 0 0 19 13,0663 3045

FRASE 15 JUNTO CON 9, 12 Y 14


La inclusión de la frase 15 empeora el modelo de entonación (13,254*946 + 16,223*2326) / (946 + 2326) = 15,364 < 15,598



ANÁLISIS DE LOS RESULTADOSFRASE 15 (III)

FRASE 15 JUNTO CON 13, 16 y 18


La inclusión de la frase 15 empeora el modelo de entonación 13,65628 > 13,04374



ANÁLISIS DE LOS RESULTADOSFRASE 15 (IV)

FRASE 15 JUNTO CON TODAS LAS DEMÁSneu1_2neu1_3acent ini fin context4_4silab4_5terminacPAL_FUNCNUM_PALPOS_PALFIN_PALTERM_ANTnum_frasete_Error_absolutoNumEj

Sin frases 6, 7 y 8 30 1 1 1 1 2 1 4 1 0 1 1 0 19 14,51819 7389Con frases 6, 7 y 8 20 1 1 1 1 2 1 4 1 0 1 1 0 19 15,0944 8632

La separación de las frases y su posterior agrupación mejoran el reconocimiento Sin frases 6, 7 y 8

(12,095*2099 + 13,043*2018 + 16,222*2326 + 13,254*946) / (2099 + 2018 + 2326 + 946) = 13,802 < 14,518

Con frases 6, 7 y 8 (12,095*2099 + 13,043*0218 + 16,223*2326 + 13,254*946 + 14,521*437 +

17,265*413 + 20,831*393) / (2099 + 2018 + 2326 + 946 + 437 + 413 + 393) = 14,324 < 14,518

Respecto al mejor número de J. Sánchez: 14,324 < 15,975



CONCLUSIONES

Entorno automatizado

Leave-one-out

Parámetros obtenidos directamente del sintetizador

Utilidad de los parámetros

Reagrupación de las frases



LÍNEAS FUTURAS

Completar la reestructuración de los programas

Usar MUME en lugar del perceptrón usado

Experimentar con otros parámetros de la Red

Aplicar el sistema a fonemas

Evaluación con oyentes

Documents

Autor: Carlos Martín Valle Tutor: Juan Manuel Montero Martínez