Upload
others
View
9
Download
0
Embed Size (px)
Citation preview
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Departamento de Ciencias de la ComputaciónInstituto de Invesitgaciones en Matemáticas Aplicadas y Sistemas
UNAM, México, 7 de noviembre de 2003
Facultad de Filosofía y LetrasColegio de Letras Hispánicas
UNAM, México, 4 de noviembre de 2003
Facultad de Filosofía y LetrasColegio de Letras Hispánicas
UNAM, México, 4 de noviembre de 2003
El papel de la fonEl papel de la fon éética en el desarrollotica en el desarrollode las tecnologde las tecnolog íías del hablaas del habla
Joaquim LlisterriJoaquim Llisterri
Departament de Filologia EspanyolaDepartament de Filologia EspanyolaUniversitat AutUniversitat Autòònoma de Barcelonanoma de [email protected]@uab.eshttp://liceu.uab.es/~joaquimhttp://liceu.uab.es/~joaquim
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Departamento de Ciencias de la ComputaciónInstituto de Invesitgaciones en Matemáticas Aplicadas y Sistemas
UNAM, México, 7 de noviembre de 2003
El papel de la fonEl papel de la fonéética en eltica en eldesarrollo de las tecnologdesarrollo de las tecnologíías delas del
hablahablahttp://liceu.uab.es/
~joaquim/speech_technology/UNAM_03/UNAM_03.html
Facultad de Filosofía y LetrasColegio de Letras Hispánicas
UNAM, México, 4 de noviembre de 2003
Facultad de Filosofía y LetrasColegio de Letras Hispánicas
UNAM, México, 4 de noviembre de 2003
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
El papel de la fonética en el desarrollo delas tecnologías del habla
El papel de la fonética en el desarrollo delas tecnologías del habla
�Las tecnologías del habla
�La conversión de texto en habla
�El reconocimiento del habla
�Los sistemas de diálogo
�El papel de la fonéticaJoaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
La interacción con los ordenadoresLa interacción con los ordenadores
�Pantalla�Teclado�Ratón�Lápiz�Tacto
Canal visualLengua escrita
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
La interacción humanaLa interacción humana
• Hace unos 5.000 años queescribimos
… pero hace unos 100.000 añosque hablamos (250.000 -50.000 años según los autores)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
CHAPANIS, A. (1975) "InteractiveHuman Communication", ScientificAmerican 232: 36-42.
Medio de comunicación naturalMedio de comunicación natural
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
• Visual• Micrófono y altavoz• Mecanismo de transmisión de
escritura manuscrita• Máquina de escribir e impresora
a distancia (Telex)
Canales de comunicaciónCanales de comunicación
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
• Cualquier canal en combinación con elhabla: menos de 15 minutosmenos de 15 minutos
• Únicamente el habla : 16 minutos16 minutos
• Cualquier canal, sólo o combinado conotros: más de 20 minutos
• Únicamente escritura a mano omecanografiada: mmáás de 30 minutoss de 30 minutos
Tiempo de resolución de problemasTiempo de resolución de problemas
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Las nuevas necesidadesLas nuevas necesidades
• Desarrollo de la Sociedad dela Información “para todos”
• Automatización de serviciostelefónicos: información,transacciones…
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
¿Qué quisiéramos tener?¿Qué quisiéramos tener?
Un ordenador que…
� Habla� Reconoce
� El habla
� El usuario� Entiende
�Ayuda al usuario�Traduce�La lengua
escrita�La lengua oral
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
HalClarke (1950) - Kubrick (1968)
HalClarke (1950) - Kubrick (1968)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
LingWear - Interactive System Labshttp://www.is.cs.cmu.edu/LingWear/movie.html
LingWear - Interactive System Labshttp://www.is.cs.cmu.edu/LingWear/movie.html
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
¿Qué tecnologías necesitamos?¿Qué tecnologías necesitamos?
Un ordenador que…
� Habla SSííntesis (CTH)ntesis (CTH)� Reconoce� El habla ReconocimientoReconocimiento� El usuario IdentificaciIdentificaci óónn
� “Entiende” Comprensión
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
¿Qué tecnologías necesitamos?¿Qué tecnologías necesitamos?
Un ordenador que…
� Ayuda Sistema de diSistema de di áálogologo
� Traduce El escrito TA� El habla TA oralTA oral
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
“The domain of speech technology is thedevelopment of automatic systems to allowhuman users and computers to interactdirectly through the medium of speech”
New Horizons in European Speech technology,Report of the ESPRIT Workshop on SpeechTechnology, Aarhus, Denmark, May 1987.
Tecnologías del hablaTecnologías del habla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Tecnologías del hablaTecnologías del habla
• Salida vocal� Síntesis del habla
• Entrada vocal�Reconocimiento del habla
• Interacción vocal� Sistemas de diálogo
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
La síntesis del hablaLa síntesis del habla
�Objetivos�Nociones generales sobre la síntesis
�Líneas de investigación actuales�Resultados conseguidos en síntesis del habla
�Aplicaciones de la síntesis del habla�Diseño de una aplicación en síntesis del habla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
ObjetivosObjetivos
• El objetivo de la síntesis del habla esla producción (generación) artificialde mensajes orales
• La síntesis es una técnicacomplementaria del reconocimientoen la comunicación persona -máquina
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
La síntesis del hablaLa síntesis del habla
GeneraciGeneracióón de una sen de una seññal vocalal vocal
• Síntesis a partir de la decodificación deunidades sonoras previamente codificadas
• Síntesis a partir de un texto escrito (CTHconversión de texto en habla - TTS Text toSpeech Synthesis)
• Síntesis a partir de representacionesconceptuales
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Del texto ... … al habla
La síntesis del hablaLa síntesis del habla
GTP-UPCGTP-UPC
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
La síntesis del hablaLa síntesis del habla
““CarlosCarlos””,,incorporado alincorporado alsistemasistemaoperativooperativoMacOS MacOS dedeAppleApple
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Parámetros para la caracterización de lossistemas de síntesis
Parámetros para la caracterización de lossistemas de síntesis
• La voz• Inteligibilidad• Naturalidad
• Versatilidad• Mensajes limitados• Mensajes ilimitados
• Complejidad del procesamiento
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Síntesis de palabras aisladasSíntesis de palabras aisladas
• Aplicaciones industriales• Generación de mensajes sobre el
estado de un sistema: alarmas• Aplicaciones a servicios públicos
• Generación de anuncios:transportes, lugares públicos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Síntesis de palabras aisladasSíntesis de palabras aisladas
• Aplicaciones domésticas• Electrodomésticos• Juguetes• Juegos• Coches• Distribuidores de bebidas, tabaco
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Síntesis de palabras aisladasSíntesis de palabras aisladas
• Aplicaciones a invidentes• Reloj, calculadora,
termómetro, despertador...hablantes
• Indicadores de planta,semáforos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Síntesis a partir del texto(conversión de texto en habla)
Síntesis a partir del texto(conversión de texto en habla)
• Sistemas de información telefónica• Páginas Amarillas• Información meteorológica, noticias• Información ciudadana: transportes,
farmacias, museos, cines
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Síntesis a partir del texto(conversión de texto en habla)
Síntesis a partir del texto(conversión de texto en habla)
• Acceso telefónico a textos escritos• Consulta a distancia de bases de
datos• Mensajería vocal, correo
electrónico• Portales de voz
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Acceso al ordenador mediante el teléfonoAcceso al ordenador mediante el teléfono
• Portales de voz
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Portal de vozPortal de voz
Grabación previa
Selección por voz
Informaciónsolicitada
RestaurantesRestaurantes
Restaurantes de Ávila
Restaurantes de Ávila
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Portal de vozPortal de voz
Restaurantesde _________
ÁvilaMadrid
SalamancaCuenca…
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Portal de vozPortal de voz
Sistema automático
Selección por voz
Informaciónsolicitada
Farmacias de guardia
Farmacias de guardia
Existe unafarmacia…Existe unafarmacia…
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Portal de vozPortal de voz
ochoHe encontrado nueve
diez
Existe una farmacia de guardia
Mensajes pregrabadospara insertar palabras
procedentes de unalista
Conversión de texto escrito en habla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Lectura del correo electrónicoLectura del correo electrónico
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Síntesis a partir del texto(conversión de texto en habla)
Síntesis a partir del texto(conversión de texto en habla)
• Aplicaciones a los invidentes• Lectura de textos en soporte electrónico• escáner + reconocimiento óptico de caracteres +
conversión de texto en habla• Aplicaciones a los disminuidos vocales
• Prótesis vocales• Síntesis a partir de conceptos para simplificar la
tarea de teclear• Síntesis a partir de ideogramas Bliss
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Kurzweil 1000, Kurzweil Educationsl Systemshttp://www.kurzweiledu.com/products_k1000.asp
Kurzweil 1000, Kurzweil Educationsl Systemshttp://www.kurzweiledu.com/products_k1000.asp
200 palabras/segundo
400 palabras/segundo
600 palabras/segundo
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Crespeaker, Crestwood Communication Aidshttp://www.communicationaids.com/crespeaker.htm
Crespeaker, Crestwood Communication Aidshttp://www.communicationaids.com/crespeaker.htm
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
La conversión de texto en hablaLa conversión de texto en habla
Del texto… …al habla GTP-UPC
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
text-to-speech, TTS• Un sistema de conversión de texto en habla
transformatransforma cualquier texto escrito en su realizaciónsonora
• La estructura de un conversor suele ser modularmodular• Cada módulo se ocupa de un aspecto de la
transformación de la cadena de caracteres inicialhasta llegar a la señal sonora
La conversión de texto en hablaLa conversión de texto en habla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Esquema general de unconversor de texto en habla
Esquema general de unconversor de texto en habla
Pre-procesado y normalización
Análisis lingüístico Transcripción fonética
Asignación de prosodia Selección de unidades
Conversión en parámetros acústicos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Un ejemplo en españolUn ejemplo en español
CASTEJÓN LAPEYRA, F.- ESCALADASARDINA, G.- MONZÓN SERRANO, L.-RODRÍGUEZ CRESPO, M.A.- SANZVELASCO, P. (1994) "Un conversor texto-vozpara el español", Comunicaciones de TelefónicaI+D, 5, 2: 114-131.http://www.tid.es/presencia/publicaciones/comsid/esp/articulos/vol52/artic8/8.html
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
�Procesamiento previo del texto
�Transcripción fonética automática
�Análisis lingüístico
�Asignación de elementos prosódicos
�Conversión en parámetros acústicos
Las etapas en la conversiónde texto en habla
Las etapas en la conversiónde texto en habla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
�Procesamiento previo del texto
�Transcripción fonética automática
�Análisis lingüístico
�Asignación de elementos prosódicos
�Conversión en parámetros acústicos
Las etapas en la conversiónde texto en habla
Las etapas en la conversiónde texto en habla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
• El módulo de procesamiento previodel texto realiza las mismasoperaciones que un hablante leyendoen voz alta
• El objetivo es preparar el texto parala transcripción fonética automática
Procesamiento previo del textoProcesamiento previo del texto
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
• Elementos que se convierten en texto'deletreado'• Abreviaturas (Sr. D., Exmo., pts...)• Siglas (UE, ONU...)• Cifras y ordinales (3, 1º, 2ª...)• Fechas (13.06.1959)• Horas (15.30h...)• Medidas (m., cm., Km....)• Números romanos (Pedro IV...)• Letras aisladas• Símbolos especiales ($...)
Procesamiento previo del textoProcesamiento previo del texto
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Problemas en el preprocesado del texto• Siglas y acrónimos
OTAN [otan] *[oteaene] PP [pepe] *[pp] PSOE [pesoe] *[peeseoe] *?[psoe]
Procesamiento previo del textoProcesamiento previo del texto
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Problemas en el preprocesado deltexto• Abreviaturas
VO *[bo] versión originalCV “caballos” - “curriculumvitae”
Procesamiento previo del textoProcesamiento previo del texto
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Problemas en el preprocesado del texto• Concordancia en expresiones numéricas
* trescientos sesenta y cinco líneas* quinientos pesetas
• Formas apocopadas100 casos: cien casos10%: diez por ciento
Procesamiento previo del textoProcesamiento previo del texto
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Problemas en el preprocesado del texto• Números de teléfono
93581686: * Noventa y tres millonesquinientos ochenta y uno mil seis cientosochenta y seis
• Horas4.15: *cuatro punto quince
Procesamiento previo del textoProcesamiento previo del texto
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Problemas en el preprocesado del texto• Códigos postales
28002 Madrid: *veintiocho mil dosMadrid
• Fechas13-11-98: *trece once noventa y ocho
Procesamiento previo del textoProcesamiento previo del texto
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Problemas en el preprocesado del texto• Lectura del correo electrónico
• Errores mecanográficos• Errores ortográficos• Falta de signos de puntuación
• Lectura de SMS• “Abreviaturas” nuevasstoy n ksa 2# y slgo xa MAD tq
Procesamiento previo del textoProcesamiento previo del texto
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulo normalizador Telefónica I+D (Castejón et al., 1994)
Módulo normalizador Telefónica I+D (Castejón et al., 1994)
Texto: El Sr. JosTexto: El Sr. Joséé Luis L Luis Lóópez tiene 201 vipez tiene 201 viññas.as.
NORMALIZADORNORMALIZADOR
Frase normalizada: el Sr. josFrase normalizada: el Sr. joséé luis l luis lóópez tiene 201pez tiene 201viviññas.as.
Formato: mm abr Mm Mm Mm mm mm mm sig
Códigos: mm: palabra en minúscula, Mm: palabra coninicial mayúscula, abr: abreviatura, sig: signoortográfico
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulo de preproceso Telefónica I+D (Castejón et al., 1994)
Módulo de preproceso Telefónica I+D (Castejón et al., 1994)
Frase normalizada: el Sr. josé luis lópez tiene 201viñas.
Formato: mm abr Mm Mm Mm mm mm mm sig
PREPROCESOPREPROCESO
Palabras: el se#or josPalabras: el se#or jos’’e luis le luis l’’opez tiene doscientas unaopez tiene doscientas unavi#as.vi#as.
Palab_silab: el se. #or jo. sPalab_silab: el se. #or jo. s’’e luis le luis l’’o. pez tio. pez ti’’e.ne dos.e.ne dos.cici’’en. tas en. tas ‘‘u. na vu. na v’’i. #as.i. #as.
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Las etapas en la conversiónde texto en habla
Las etapas en la conversiónde texto en habla
�Procesamiento previo del texto
�Transcripción fonética automática
�Análisis lingüístico
�Asignación de elementos prosódicos
�Conversión en parámetros acústicos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
• Creación de una cadena de unidades fonéticas -fonemas o alófonos- a partir del texto escritopreprocesado
• “Un sistema de transcripción fonéticaautomática es un algoritmo que transforma untexto de entrada representado en caracteresgrafemáticos en una representación expresadamediante símbolos fonéticos”
Ríos (1993:381)
Transcripción fonética automáticaObjetivos
Transcripción fonética automáticaObjetivos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Transcripción fonética automáticaTranscripción fonética automática
• Implica una decisión sobre el inventariode alófonos que condiciona el inventariode unidades de síntesis
• Decisiones ortológicas• Decisión sobre el “estándar”• Decisión sobre variedad geográfica• Decisión sobre registro
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
• Estrategias para la transcripción• Diccionario ayudado por un analizador
en lenguas con una correspondenciamuy irregular entre grafía y sonido
• Reglas complementadas por undiccionario de excepciones en lenguascon una correspondencia regular entresonido y grafía
La transcripción fonética automáticaLa transcripción fonética automática
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Tipos de reglas de transcripciónRíos (1993)
Tipos de reglas de transcripciónRíos (1993)
• Reglas de fonemización• Reglas de transcripción grafía-fonema• Reglas de silabificación• Reglas de ajuste silábico aplicadas a
extranjerismos para adaptar su estructurasilábica a la fonotaxis del español
• Reglas de acentuación• Reglas de fonetización
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Características de las reglas de transcripciónRíos (1993)
Características de las reglas de transcripciónRíos (1993)
• Reglas dependientes del contexto• Reglas de substitución de un signo en otro
• p.ej.: regla de transcripción del grafema <g>como [x] ante <e,i>
• Reglas de elisión de un elemento• p.ej.: elisión de <u> en el dígrafo <gu> ante las
vocales <e,i>• Reglas de inserción de un elemento
• p. ej.: regla de inserción de [k] después delgrafema <x>
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Problemas de la transcripción fonéticaautomática
Problemas de la transcripción fonéticaautomática
• Nombres propios y palabras extranjeras<#g> <#j> [dZ] [Z] [j] (George, jeans, Jordi, Jaume)
<#w> [w] [gw] (whisky)<ph> [f] (Humphrey)<sh> [S] [tS] (show, squash)
<sch> [S] (Schiller)
<tg> [dZ] (Sitges)
<#sC> [#esC] (stop, squash)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Problemas de la transcripción fonéticaautomática
Problemas de la transcripción fonéticaautomática
• Nombres propios de persona en españolEsther <th>: [t]Lourdes <ou>: [u]Feijoo <oo>: [o]Desacentuación del primer elemento de los
nombres compuestos (implica detectar elnombre compuesto)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Forma de las reglas de conversión de grafía arepresentación fonética dependientes del contexto
Subirats, Llisterri & Poch (1988)
Forma de las reglas de conversión de grafía arepresentación fonética dependientes del contexto
Subirats, Llisterri & Poch (1988)
<c> --> [k] / #_ [a], [o], [u]casa, cosa, cuna
<c> --> [T] / # _ [e], [i]cena, cine
<c> --> [k] / V _ [a], [o], [u]oca, acoso, acuna
<c> --> [T] / V _ [e], [i]hace, fácil
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Forma de las reglas de conversión de grafía arepresentación fonética dependientes del contexto
Subirats, Llisterri & Poch (1988)
Forma de las reglas de conversión de grafía arepresentación fonética dependientes del contexto
Subirats, Llisterri & Poch (1988)
<c> --> [k] / # (c) V_# Cacción, actor
<c> --> [k] / # _ [l], [r]Vtecla, crío
<c> --> [k] / _ #coñac, vivac
<c> --> [tS] / _htecho
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulo conversor grafema-alófono Telefónica I+D (Castejón et al., 1994)
Módulo conversor grafema-alófono Telefónica I+D (Castejón et al., 1994)
Palab_silab: el se. #or jo. s’e luis l’o. pezti’e.ne dos. ci’en. tas ‘u. na v’i. #as.
CONVERSOR GRAFEMA-ALCONVERSOR GRAFEMA-ALÓÓFONOFONO
AlAlóófonos: el se. N~or xo. sfonos: el se. N~or xo. s’’e luis le luis l’’o. peTo. peT[sil] tj[sil] tj’’e.ne Dos. Tje.ne Dos. Tj’’en. tas en. tas ‘‘u. na Bu. na B’’i. N~asi. N~as[sil][sil]
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Las etapas en la conversiónde texto en habla
Las etapas en la conversiónde texto en habla
�Procesamiento previo del texto
�Transcripción fonética automática
�Análisis lingüístico
�Asignación de elementos prosódicos
�Conversión en parámetros acústicos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Análisis lingüísticoAnálisis lingüístico
• Necesidad del análisis lingüístico en laconversión de texto a habla• Transcripción fonética
• Predicción de la representación fonética apartir de reglas morfológicas /morfofonológicas que implican elreconocimiento de morfemas en lenguascon una correspondencia irregular entregrafías y alófonos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Análisis lingüísticoAnálisis lingüístico
• Necesidad del análisis lingüístico en laconversión de texto a habla• Asignación de elementos prosódicos
• La localización de las pausas no marcadasortográficamente, la asignación de acento yla determinación de las unidades melódicasrequieren un análisis sintáctico
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Análisis morfológicoAnálisis morfológico
• Objetivos• Segmentación del texto en
morfemas• Asignación de etiquetas
correspondientes a las partes de laoración a las palabras (POStagging)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulo categorizador Telefónica I+D (Castejón et al., 1994)
Módulo categorizador Telefónica I+D (Castejón et al., 1994)
Palabras: el se#or jos’e luis l’opez tiene doscientas unavi#as.Palab_silab: el se. #or jo. s’e luis l’o. pez ti’e.ne dos.ci’en. tas ‘u. na v’i. #as.
CATEGORIZADORCATEGORIZADOR
CategorCategoríías: ART N NP NP NP V NUM NUM N SIGas: ART N NP NP NP V NUM NUM N SIGCódigos: ART: artículo, N: nombre, NP: nombre propio,V: verbo, NUM: número, SIG: signo ortográfico
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Análisis sintácticoAnálisis sintáctico
• Para una asignación de elementos prosódicosque tenga como resultado una síntesis con unalto grado de naturalidad es necesario unanálisis sintáctico, semántico y pragmático deltexto
• Segmentación del texto en unidades sintácticas
• Asignación de una estructura de constituyentes(parsing)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulo de análisis sintáctico Telefónica I+D (Castejón et al., 1994)
Módulo de análisis sintáctico Telefónica I+D (Castejón et al., 1994)
Palabras: el se#or jos’e luis l’opez tienedoscientas una vi#as.
Categorías: ART N NP NP NP V NUMNUM N SIG
ESTRUCTURADORESTRUCTURADOR
ÁÁrbol sintrbol sintáácticoctico
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Las etapas en la conversiónde texto en habla
Las etapas en la conversiónde texto en habla
�Procesamiento previo del texto
�Transcripción fonética automática
�Análisis lingüístico
�Asignación de elementos prosódicos
�Conversión en parámetros acústicos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Asignación de elementos prosódicosObjetivos
Asignación de elementos prosódicosObjetivos
Conjunto de reglas que especifican
• Duración de los segmentos
• Intensidad de los segmentos / delenunciado
• Contorno melódico del enunciado• Colocación y duración de las pausas
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Las etapas en la conversiónde texto en habla
Las etapas en la conversiónde texto en habla
�Asignación de duración
�Asignación de intensidad
�Asignación de pausas
�Asignación de curva melódica
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Las etapas en la conversiónde texto en habla
Las etapas en la conversiónde texto en habla
�Asignación de duración
�Asignación de intensidad
�Asignación de pausas
�Asignación de curva melódica
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Asignación de duración segmentalAsignación de duración segmental
• Requiere un modelo de duraciónsegmental que considere
• Duración intrínseca de cadasegmento
• Modificaciones contextuales
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Factores que determinan la duraciónsegmental
Factores que determinan la duraciónsegmental
• Acento• Consonante que sigue al segmento• Vocal que sigue al segmento• Pausa después del segmento• Posición del segmento en el enunciado• Longitud de la palabra en la que se encuentra
el segmento• Velocidad de elocución
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Modelo de duración segmental para el inglésKlatt (1979)
Modelo de duración segmental para el inglésKlatt (1979)
DUR = [(INDUR-MINDUR)*PRCNT]/100+MINDUR
• INDUR: duración intrínseca del segmento (enms.) calculada a partir de un corpus en el quelos segmentos se analizan en frases marco
• MINDUR: duración mínima del segmento siestá acentuado
• PRCNT: porcentaje de reducción de laduración del segmento, determinado por regla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Modelo de duración segmental para el inglésKlatt (1979)
Modelo de duración segmental para el inglésKlatt (1979)
• Elementos que determinan el porcentaje dereducción de los segmentos• Inserción de pausas• Alargamiento al final de una frase• Acortamiento de sílabas que no se
encuentran al final de una palabra• Alargamiento debido al énfasis• Modificación de la duración en función del
contexto postvocálico de las consonantes
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Modelo de duración segmental para el inglésKlatt (1979)
Modelo de duración segmental para el inglésKlatt (1979)
• Acortamiento de sílabas pertenecientes apalabras polisilábicas
• Acortamiento de consonantes en posición noinicial de palabra
• Acortamiento de segmentos no acentuados• Acortamiento de los segmentos
pertenecientes a grupos consonánticos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Modelo de duración segmental para el inglésKlatt (1979)
Modelo de duración segmental para el inglésKlatt (1979)
• Alargamiento de vocales debido a lapresencia de una oclusiva sorda
• Acortamiento de sílabas que no seencuentran al final de una frase
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Las etapas en la conversiónde texto en habla
Las etapas en la conversiónde texto en habla
�Asignación de duración
�Asignación de intensidad
�Asignación de pausas
�Asignación de curva melódica
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Asignación de intensidad segmentalAsignación de intensidad segmental
• Determina la intensidad de cadasegmento en función de las variablesque afectan a este parámetro
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Modelo de intensidad vocálicapara el español y el catalán
Blecua & Acín (1995)
Modelo de intensidad vocálicapara el español y el catalán
Blecua & Acín (1995)
• Basado en el análisis de intensidad vocálica enun corpus de frases leídas
• Modelo en árbol que introduce una serie defactores que modifican la intensidad vocálica• Posición prepausal o no prepausal• Aparición de la vocal en sílaba tónica o átona• Posición inicial, medial o final de la vocal en el
enunciado• Aparición de la vocal en un enunciado corto o largo
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Las etapas en la conversiónde texto en habla
Las etapas en la conversiónde texto en habla
�Asignación de duración
�Asignación de intensidad
�Asignación de pausas
�Asignación de curva melódica
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Objetivos de la asignación de pausasObjetivos de la asignación de pausas
• Inserción de las pausas marcadasortográficamente en el texto
• Inserción las pausas no marcadasortográficamente en el texto
• Determinación de la duración de lapausa
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
La contribución de las pausasLa contribución de las pausas
• Texto sintetizado con pausas
• Texto sintetizado sin pausas
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Marcado ortográfico de pausas en uncorpus real
Marcado ortográfico de pausas en uncorpus real
• 1629 pausas en total
• 1260 pausas marcadas ortográficamente
•• 578 con punto; 527 con coma578 con punto; 527 con coma; 17 con punto ycoma; 51 con dos puntos; 63 con signo deinterrogación; 22 con signo de admiración; 2con puntos suspensivos
•• 369 pausas no marcadas ortogr369 pausas no marcadas ortográáficamenteficamente
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Modelo de duración y asignación de pausaspara el español
Puigví, Giménez & Fernández (1994)
Modelo de duración y asignación de pausaspara el español
Puigví, Giménez & Fernández (1994)
• Basado en al análisis de un corpus de lectura
• Determinación de la duración de las pausasmarcadas mediante signos de puntuación
• Factores fonéticos y sintácticos que determinanla aparición de pausas no marcadas por signosde puntuación
• Determinación de la duración de las pausas nomarcadas por signos de puntuación
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulo pausador Telefónica I+D (Castejón et al., 1994)
Módulo pausador Telefónica I+D (Castejón et al., 1994)
• Transforma en pausas laspalabras ortográficas
• Añade pausas no marcadasortográficamente
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulo pausador Telefónica I+D (Castejón et al., 1994)
Módulo pausador Telefónica I+D (Castejón et al., 1994)
Palabras: el se#or jos’e luis l’opez tiene doscientas unavi#as.
Categorías: ART N NP NP NP V NUM NUM N SIG
PAUSADORPAUSADOR
Palabras: el se#or josPalabras: el se#or jos’’e luis le luis l’’opez [pau_v] tiene doscientasopez [pau_v] tiene doscientasuna vi#as.una vi#as.
Palab_silab: el se. #or jo. sPalab_silab: el se. #or jo. s’’e luis le luis l’’o. pez [pau_v] tio. pez [pau_v] ti’’e.nee.nedos. cidos. ci’’en. tas en. tas ‘‘u. na vu. na v’’i. #as.i. #as.
Códigos: [pau_v]: pausa insertada ante el verbo
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Las etapas en la conversiónde texto en habla
Las etapas en la conversiónde texto en habla
�Asignación de duración
�Asignación de intensidad
�Asignación de pausas
�Asignación de curva melódica
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
La contribución de la curva melódicaLa contribución de la curva melódica
• Texto sintetizado con variaciones deF0
• Texto sintetizado sin variación de F0
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Asignación de curva melódicaAsignación de curva melódica
• En algunos sistemas laasignación de la curva melódicapuede utilizar un análisis previode la estructura entonativa de losenunciados (prosodic parsing)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Modelo de generación de patronesmelódicos para el español
Garrido (1996)
Modelo de generación de patronesmelódicos para el español
Garrido (1996)
• Desarrollado a partir del análisis de un corpus detextos leídos
• Modelo fonético por nivelesο Nivel global I: asignación de un patrón melódico al párrafo,
situación de los puntos de reset y delimitación de gruposmelódicos
ο Nivel global II: asignación de patrones a cada grupo melódicoy superposición de los movimientos locales de F0 que marcanlímites sintácticos o modalidad oracional
ο Nivel local: superposición de los movimientos de F0 asociadoscon el acento léxico
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
La estilización(Garrido 2001)
La estilización(Garrido 2001)
Puntos de inflexión
Puntos de inflexión
RRRRaaaa MMMMOOOONNNN lllllllleeee GGGGOOOO eeeennnn aaaa VVVVIIIIOOOONNNN
Reducción de la curvamelódica delenunciado ‘Ramónllegó en avión’,pronunciado por unlocutor masculino, auna serie de puntos deinflexión relevantes
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
La declinación(Garrido 2001)
La declinación(Garrido 2001)
Tiempo
60
80
100
120
140
160
180
200
Línea superior
Línea inferior
F0
(Hz)
Contorno melódico correspondiente a la oración ‘La reina delbaile bailaba la rumba de moda.’ (locutor masculino),
representado por medio de líneas de referencia. Ejemploextraído de Garrido et al. (1995)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Estructura jerárquica (Garrido 2001)
Estructura jerárquica (Garrido 2001)
+
Descomposición enpatrones melódicossuperpuestos de lacurva melódica delenunciado ‘Ramónllegó en avión’,pronunciada por unlocutor masculino
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Árbol prosódico inicial(Garrido, 2001)
Árbol prosódico inicial(Garrido, 2001)
[sofocó el fuego con el extintor del vehículo.]
[La dotación policial,]
[después de forzar una de las ventanas de la planta baja de la casa,]
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Nivel global(Garrido, 2001)
Nivel global(Garrido, 2001)
100
120
140
160
180
200
220
240
260
280
300
0 1 2 3 4 5 6Tiempo (seg.)
Líneas dereferencia: líneascontinuas de trazogruesocorrespondientes alos tres gruposfónicos de laoración.Líneas desupradeclinación:líneas discontinuasde distinto grosorCurva estilizadareal: puntos unidosmediante líneasrectas
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Nivel local(Garrido, 2001)
Nivel local(Garrido, 2001)
100
120
140
160
180
200
220
240
260
280
300
0 1 2 3 4 5 6Tiempo (seg.)
P
M
V
Líneas de referencia:líneas continuasPuntos de inflexión dela curva estilizadareal: puntos de colorclaroPuntos de inflexión dela curva estilizadagenerada por elmodelo: puntos decolor oscuro
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulo de generación de parámetros prosódicos Telefónica I+D (Castejón et al., 1994)
Módulo de generación de parámetros prosódicos Telefónica I+D (Castejón et al., 1994)
Alófonos: el se. N~or xo. s’e luis l’o. peT [sil] tj’e.ne Dos.Tj’en. tas ‘u. na B’i. N~as [sil]
Categorías: ART N NP NP NP V NUM NUM N SIGAlófonos: el se. N~or xo. s’e luis l’o. peT [sil] tj’e.ne Dos.
Tj’en. tas
PROSOPROSO
Duraciones (ms): 76 60 56 65 89 75 43 67 56 60 60Duraciones (ms): 76 60 56 65 89 75 43 67 56 60 60
EntonaciEntonacióón (Hz):n (Hz):
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Las etapas en la conversión de texto enhabla
Las etapas en la conversión de texto enhabla
�Procesamiento previo del texto
�Transcripción fonética automática
�Análisis lingüístico
�Asignación de elementos prosódicos
�Conversión en parámetros acústicos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Conversión en parámetros acústicosConversión en parámetros acústicos
• Conjunto de reglas que tiene como objetivo:• Asignar valores de parámetros acústicos a
cada segmento o a cada unidad de síntesis
• Especificar las transiciones entre segmentos
• Los valores de los parámetros acústicoscontrolan un sintetizador que produce laonda sonora correspondiente al mensaje
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Concatenación de unidades almacenadasmediante síntesis paramétrica
Concatenación de unidades almacenadasmediante síntesis paramétrica
• Creación de un diccionario de unidades dediccionario de unidades dessííntesisntesis
•• ParametrizaciParametrizacióónn de las unidades
•• Modelo del tracto vocalModelo del tracto vocal para la síntesis a partirde los parámetros utilizados�Síntesis por LPC (Linear Predictive Coding)
�Síntesis por formantes
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulo de conversión en parámetros acústicos Telefónica I+D (Castejón et al., 1994)
Módulo de conversión en parámetros acústicos Telefónica I+D (Castejón et al., 1994)
• Módulo de síntesis
• Transforma la información dela secuencia de unidades desíntesis y de los parámetrosprosódicos en una onda sonora
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulos de conversión en parámetros acústicos para laconversión de texto a habla
Telefónica I+D (Castejón et al., 1994)
Módulos de conversión en parámetros acústicos para laconversión de texto a habla
Telefónica I+D (Castejón et al., 1994)
Alófonos: el se. N~or xo. s’e luis l’o. peT [sil] tj’e.ne Dos.Tj’en. tas ‘u. na B’i. N~as [sil]Duraciones (ms): 76 60 56 65 89 75 43 67 56 60 60Entonación (Hz):
PARLAPARLA SelecciSeleccióón de unidades de sn de unidades de sííntesis en elntesis en elinventarioinventario
GeneraciGeneracióón de tramas de sn de tramas de sííntesisntesis
SSÍÍNTESISNTESIS ConversiConversióón en una onda sonora mediante eln en una onda sonora mediante elsintetizadorsintetizador
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Esquema general de unconversor de texto en habla
Esquema general de unconversor de texto en habla
Pre-procesado y normalización
Análisis lingüístico Transcripción fonética
Asignación de prosodia Selección de unidades
Conversión en parámetros acústicos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Actor 5, Loquendohttp://actor.loquendo.com/actordemo/
default.asp?language=es
Actor 5, Loquendohttp://actor.loquendo.com/actordemo/
default.asp?language=es
Es, m, f
EsCh, f
EsMx, f
EsAr, m
Cat, f
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
AT&T Labs Researchhttp://www.research.att.com/projects/tts/
demo.html
AT&T Labs Researchhttp://www.research.att.com/projects/tts/
demo.html
Engl, m
Engl, f
Engl, ch
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
AT&T Labs Natural Voiceshttp://www.naturalvoices.att.com/demos/
AT&T Labs Natural Voiceshttp://www.naturalvoices.att.com/demos/
EspMx, f
EspMx, f
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
BaBel Technologieshttp://www.babeltech.com/Demos.php?s=48&m=3&f=96
BaBel Technologieshttp://www.babeltech.com/Demos.php?s=48&m=3&f=96
Eng US, f
Eng UK, m
Es, m
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
BaBel Technologieshttp://www.babeltech.com/Demos.php?s=48&m=3&f=95
BaBel Technologieshttp://www.babeltech.com/Demos.php?s=48&m=3&f=95
Es, f
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Bell Labs - Lucent TechnologiesBell Labs - Lucent Technologies
Eng, m
Eng, f
EsMx, m
Es, m
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Elan Speechhttp://www.elan.fr/demos/interactive.html
Elan Speechhttp://www.elan.fr/demos/interactive.html
Eng, m
Es, f
Es, m
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Elan Speechhttp://sayso.elan.fr/interactive_vf.asp
Elan Speechhttp://sayso.elan.fr/interactive_vf.asp
Es, f
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
ETI Eloquence, ScanSoftETI Eloquence, ScanSoft
Eng
Es,m
EsMx, m
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Infovox, BaBel Technologieshttp://www.infovox.se/tdemo.htm
Infovox, BaBel Technologieshttp://www.infovox.se/tdemo.htm
AmEng, m
BrEng, m
Es, m
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
RealSpeak, ScanSofthttp://www.scansoft.com/realspeak/demo/
RealSpeak, ScanSofthttp://www.scansoft.com/realspeak/demo/
Eng, f
EsMx, f
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
El reconocimiento del hablaEl reconocimiento del habla
Del habla … … al texto
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Representación simbólica de unaseñal vocal
�Tipo de enunciados�Número de locutores�Tamaño del vocabulario�Entorno
El reconocimiento del hablaEl reconocimiento del habla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Tipo de enunciadosTipo de enunciados
• Reconocimiento depalabras aisladas
• Reconocimiento depalabras conectadas
• Reconocimiento de hablacontinua+ dificultad
- dificultad
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Número de locutoresNúmero de locutores
• Sistemas dependientesdel locutor
• Sistemasindependientes dellocutor
+ dificultad
- dificultad
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Tamaño del vocabularioTamaño del vocabulario
•Vocabulariorestringido
•Vocabulario sinrestricciones
+ dificultad
- dificultad
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
EntornoEntorno
• Entorno silencioso• Entorno con ruido
predictible• Entorno con ruido
aleatorio+ dificultad
- dificultad
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Ámbitos relacionados conel reconocimiento del hablaÁmbitos relacionados con
el reconocimiento del habla
• Identificación y verificación del locutor• Reconocimiento en entornos adversos /
ruidosos• Reconocimiento automático de la lengua• Comprensión del habla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Etapas en el reconocimientoEtapas en el reconocimiento
ADQUISICIÓN DE DATOS
EXTRACCIÓN DECARACTERÍSTICAS
CREACIÓN DE PLANTILLAS DEREFERENCIA
PROCEDIMIENTO DEDECISIÓN
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Reconocimiento de palabras aisladasReconocimiento de palabras aisladas
• Aplicación de técnicas decomparación de señalescontinuas
• Comparación entre la señal y elmodelo almacenado
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Reconocimiento de palabras aisladasReconocimiento de palabras aisladas
DIGITALIZACION DE LA SEÑAL DETECCIÓN DE PRINCIPIO Y FINAL DE PALABRA
CODIFICACIÓN EN FORMA DE PLANTILLADICCIONARIO
DE PLANTILLASDE REFERENCIA
COMPARACICOMPARACIÓÓNN
MEDIDA DE LA DISTANCIA ENTELA PLANTILLA DE REFERENCIAY LA PLANTILLA DE ENTRADA
DECISIÓN SOBRE ELRECONOCIMIENTO
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Reconocimiento de palabras aisladasReconocimiento de palabras aisladas
• Aplicacionesofimáticas• Control de un
procesador de textos
• Entrada de datos numéricos
• Encuestas automáticas
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Reconocimiento de palabras aisladasReconocimiento de palabras aisladas
• Aplicaciones industriales
• Procesos de control de calidad
• Inventario y mantenimiento deproductos
• Control de robots
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Reconocimiento de palabras aisladasReconocimiento de palabras aisladas
• Aplicaciones domésticas• Control de electrodomésticos• Marcación de números de teléfono por voz
• Aplicaciones militares• Comandos vocales en la navegación aérea
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Reconocimiento de palabras aisladasReconocimiento de palabras aisladas
• Aplicaciones a usuarios connecesidades especiales• Control del entorno doméstico
• Control de sillas de ruedas
• Control de accesorios de cochesJoaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Reconocimiento de grandes vocabulariosReconocimiento de grandes vocabularios
• Requiere la definición deunidades subléxicas (menoresque la palabra)
• Requiere la clasificación previade los elementos léxicos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Reconocimiento de habla continuaReconocimiento de habla continua
• Utilización de técnicas dedecodificación acústico-fonética
• Requiere la definición de un“modelo de lenguaje”
• Utilización de unidades dereconocimiento: difonema,semisílaba
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Reconocimiento de habla continua / hablaconectada
Reconocimiento de habla continua / hablaconectada
• Aplicaciones telefónicas• Servicios de centralita
automática• Nombres y apellidos• Número de DNI
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
ATLAS http://www.atlas-cti.com/es/demos.htm
ATLAS http://www.atlas-cti.com/es/demos.htm
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Reconocimiento de habla continuaReconocimiento de habla continua
habla secuencia de unidades más probablessegmentación de la señal
/do/ - /os/ /Tje/-/en/ /to/-/os/ /Dje/ - /eT/
dosTjentosDjeTconversión a transcripción fonética
(Mariño, 1993)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Modelo de reconocimiento de habla continuaModelo de reconocimiento de habla continua
voz texto
ENTRENAMIENTO algoritmo de entrenamiento
base de datos de modelos fonéticos
diccionariofonético
COMPILACIÓN DEMODELOS LÉXICOS
generador de modelos léxicos
base de datos de modelos léxicos
RECONOCIMIENTO
algoritmo de reconocimiento
gramática
procesadoracústico
hablasecuencia de
unidades
Mariño (1993)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Procesadoracústico
Algoritmode reconocimiento
Algoritmode comprensión
Reglasfonológicas
Modelosfonéticos
Diccionarioy gramática
Modelode la tarea
elocución significado
Hz
Mariño, 1999Mariño, 1999
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Procesadoracústico
Algoritmode reconocimiento
Algoritmode comprensión
Reglasfonológicas
Modelosfonéticos
Diccionarioy gramática
Modelode la tarea
Fonema k-1 Fonema k Fonema k+1
Modelo de Markov
Mariño, 1999Mariño, 1999
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Procesadoracústico
Algoritmode reconocimiento
Algoritmode comprensión
Reglasfonológicas
Modelosfonéticos
Diccionarioy gramática
Modelode la tarea
Pr{la puerta no estaba abierta} = Pr{la}Pr{puerta/la} Pr{no/la puerta}Pr{estaba/la puerta no} Pr{abierta/lapuerta no estaba} = Pr{la} Pr{puerta/la}Pr{no/la puerta} Pr{estaba/puerta no}Pr{abierta/no estaba}
Bigrama
Mariño, 1999Mariño, 1999
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Procesadoracústico
Algoritmode reconocimiento
Algoritmode comprensión
Reglasfonológicas
Modelosfonéticos
Diccionarioy gramática
Modelode la tarea
elocución significado
textovozBASE DE DATOS
Modeladofonético
Procesadoracústico
Modeladode lenguajeENTRENA-
MIENTO
Mariño, 1999Mariño, 1999
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Dictado automático“máquina de escribir vocal”
Dictado automático“máquina de escribir vocal”
• Usuarios específicos• Dictado de informes médicos: radiólogos,
dentistas• Dictado de informes legales• Dictado de cartas comerciales
• Usuarios generales• Periodistas• Dictado de traducciones
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Dictado automáticoDictado automático
ScanSoft Dragon Naturally Speaking
• 250.000 palabras• Vocabulario legal
• Vocabulario médico• Vocabulario de la seguridad
• Versión en español
http://www.lhsl.com/naturallyspeaking/
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Dictado automáticoDictado automático
IBM Via Voice
• 100.000 palabras de vocabulario básico• 475.000 palabras de vocabulario “de respaldo”
• Vocabulario legal• Vocabulario médico
• Versión en español
http://www-3.ibm.com/software/voice/viavoice/
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Dictado automáticoDictado automático
Philips FreeSpeech 2000• Vocabulario legal• Vocabulario médico• Vocabulario de seguros• Versión en español (Peninsular,
América Central y del Norte, Sudamérica) y encatalán
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Corrección fonética en lengua extranjeraCorrección fonética en lengua extranjera
• Comparación entre el modeloalmacenado en el sistema y elenunciado producido por elestudiante
• Puntuación• Detección de errores
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Corrección fonética en lengua extranjera http://www.auralog.com/en/talktome.htmlCorrección fonética en lengua extranjera http://www.auralog.com/en/talktome.html
Talk to Me™Auralog
Puntuación
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Corrección fonética en lengua extranjera http://www.auralog.com/en/talktome.htmlCorrección fonética en lengua extranjera http://www.auralog.com/en/talktome.html
Texto
Onda sonora
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Corrección fonética en lengua extranjera http://www-speech.sri.com/people/julia/webgrader.htmlCorrección fonética en lengua extranjera
http://www-speech.sri.com/people/julia/webgrader.html
• Integración en la web�WebGrader™ (SRI International)
�Práctica interactiva con frases�Puntuación para cada palabra ypara toda la frase
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Objetivos de un sistema de diálogoObjetivos de un sistema de diálogo
• Sistema de diálogo, Sistemaconversacional
• SLS, Spoken Language System
� Programa diseñado para facilitar lainteracción natural mediante el hablaentre una persona y un sistemainformático
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
El sistema de diálogo idealEl sistema de diálogo ideal
�Reconoce el habla espontánea�Comprende enunciados sin restricciones de
contenido�Proporciona respuestas con sentido,
gramaticalmente bien formadas ypragmáticamente adecuadas
�Responde con voz completamente natural�Es multimodal
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Los sistemas de diálogo actualesLos sistemas de diálogo actuales
• Sujetos a las limitaciones delreconocimiento
• Comprensión y respuesta restringidas adominios específicos
• Condicionados por la naturalidad delhabla sintetizada
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
BASURDE (1998-2001)Sistema de diálogo oral en dominios restringidos
http://gps-tsc.upc.es/veu/basurde/Home.htm
BASURDE (1998-2001)Sistema de diálogo oral en dominios restringidos
http://gps-tsc.upc.es/veu/basurde/Home.htm
• Reconocimiento• “Para conseguir una tasa de reconocimiento
aceptable es deseable que la frase se pronuncieevitando ruidos y a una velocidad de locuciónnormal”
• Comprensión• Información telefónica de horarios y precios de
trenes regionales y de grandes líneas
• Salida vocal
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Tareas de un sistema de diálogoTareas de un sistema de diálogo
� Reconocimiento de los enunciados del usuario� Gestión del diálogo� Análisis lingüístico (morfológico, sintáctico,
semántico, pragmático) de los enunciados� Creación de una representación interna� Tratamiento de la representación interna en
función de la tarea� Generación de secuencias de respuesta� Síntesis del habla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulos de un sistema de diálogoMódulos de un sistema de diálogo
• Estructura modular
• Cada módulo está especializado en una tarea• Reconocimiento del habla
• Comprensión del lenguaje• Gestión del diálogo
• Generación del lenguaje• Conversión de texto en habla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
ROE, D.B. - WILPON, J.G. (Eds.) (1994) Voice Communication BetweenHumans and Machines. Washington: The National Academies Press. p. 374http://www.nap.edu/books/0309049881/html/374.html
ROE, D.B. - WILPON, J.G. (Eds.) (1994) Voice Communication BetweenHumans and Machines. Washington: The National Academies Press. p. 374http://www.nap.edu/books/0309049881/html/374.html
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
MINKER, W.- BENNACEF, S. (2001) Parole et dialogue homme-machine. Paris: Éditions Eyrolles - CNRS Éditions. p. 11
MINKER, W.- BENNACEF, S. (2001) Parole et dialogue homme-machine. Paris: Éditions Eyrolles - CNRS Éditions. p. 11
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
LÓPEZ-CÓZAR, R. (2003) “Análisis y gestión del diálogo”, Curso deIndustrias de la Lengua “Conversar con el ordenador: el procesamiento del
lenguaje y del habla en los sistemas de diálogo”, Fundación Duques de Soria,Soria, 21-15 de julio de 2003.
LÓPEZ-CÓZAR, R. (2003) “Análisis y gestión del diálogo”, Curso deIndustrias de la Lengua “Conversar con el ordenador: el procesamiento del
lenguaje y del habla en los sistemas de diálogo”, Fundación Duques de Soria,Soria, 21-15 de julio de 2003.
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulos de un sistema de diálogoMódulos de un sistema de diálogo
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulos de un sistema de diálogoMódulos de un sistema de diálogo
Módulo de reconocimiento del habla
• Convierte la señal sonora de entrada -continua- en una representación escrita -discreta - de las palabras reconocidas
� Tecnologías del habla
• Reconocimiento automático del habla(ASR, Automatic Speech Recognition)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulos de un sistema de diálogoMódulos de un sistema de diálogo
Módulo de interpretación semántica
• Determina el “significado” (contenido) dela secuencia de palabras reconocida
� Procesamiento del lenguaje natural
• Comprensión del lenguaje (NLU,Natural Language Understanding)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulos de un sistema de diálogoMódulos de un sistema de diálogo
Comprensión del contenido� Comprensión del lenguaje natural (NLU)Eh, pues mire, quería saber a qué horasale la… el último tren, eh… haciaBarcelona, desde Madrid, el sábado
PETICIÓN, DESTINO=“Barcelona”, ORIGEN=“Madrid”, FECHA:DÍA=“28”, HORA=“Último”
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulos de un sistema de diálogoMódulos de un sistema de diálogo
Módulo de gestión del diálogo
• Gestiona la interacción entre la persona yel sistema para la realización de la tareadeseada
• Módulo central de control en un sistemade diálogo
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulos de un sistema de diálogoMódulos de un sistema de diálogo
Control del diálogo�coherencia entre la pregunta del
usuario y el sistema�resolución de anáforas y elipsis�predicción de las reacciones del
usuario�...
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulos de un sistema de diálogoMódulos de un sistema de diálogo
Módulo de generación de lenguaje
• Crea un enunciado bien formado a partirde la representación internaproporcionada por el sistema
� Procesamiento del lenguaje natural
• Generación del lenguaje (NLG, NaturalLanguage Generation)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulos de un sistema de diálogoMódulos de un sistema de diálogo
Creación de respuestas� Generación de lenguaje natural (NLG)
PETICIÓN, DESTINO=“Barcelona”,ORIGEN=“Madrid”, Fecha: DÍA=“28”,HORA=“Último”
El último tren sale a las 11 y 53minutos de la noche
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Módulos de un sistema de diálogoMódulos de un sistema de diálogo
Módulo de conversión de texto en habla
• Transforma en una señal sonoracontinua- el texto creado por el módulode generación de respuestas -discreto-
� Tecnologías del habla
• Conversión de texto en habla (TTS,Tex-to-Speech Synthesis)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Los sistemas de diálogoLos sistemas de diálogo
�Problemas de los sistemas de diálogo• Errores derivados del reconocimiento• Necesidad de estrategias de verificación• Problemas del diálogo espontáneo
• Elipsis• Anáfora• Deícticos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Diseño de un sistema de diálogoDiseño de un sistema de diálogo
�Modelo del entorno�Modelo de la tarea�Modelo del usuario�Bases de conocimiento�Técnicas de diseño
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Modelo del entornoModelo del entorno
• Modo de comunicación entre el usuario yel sistema� Modo de comunicación: vocal, visual,
auditiva, táctil� Características específicas de cada
modo: tiempo de procesamiento,disponibilidad, modalidad de entrada ysalida
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Modelo del entornoModelo del entorno
• Sistemas multimodales�Integración del habla con otras
modalidades�Locutores virtuales
• Animación de movimientosfaciales
• Sincronizada con hablasintetizada
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Locutor virtual en catalánhttp://www.salleurl.edu/~jmelen/rvsdemo.html
Locutor virtual en catalánhttp://www.salleurl.edu/~jmelen/rvsdemo.html
Secció de Teoria delSenyal, EnginyeriaLa Salle, UniversitatRamon Llull
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Modelo de la tareaModelo de la tarea
• Especificación del objetivo de la tarea yde sus características específicas� Obtención de información� Transacciones� Negociación
• Discriminación de sub-diálogos nopertenecienes a la tarea
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Modelo del usuarioModelo del usuario
• Tipología de usuarios� Características personales: edad,
sexo, estado físico, nivel cultural,estatus social� Experiencia del usuario con
sistemas de comunicación persona-máquina
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Bases de conocimientoBases de conocimiento
• Uso de la información prosódica� Desambiguación de oraciones� Identificación del cambio de tema� Detección de la intencionalidad o el
énfasis del hablante� Identificación de los cambios de turno
de palabra
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Técnicas de diseñoTécnicas de diseño
�Diseño a partir de la intuición
�Diseño a partir de la observación de diálogosnaturales entre hablantes humanos
�Diseño por simulación de la interacciónpersona-máquina
�Diseño mediante la interacción con un sistemade diálogo real
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Diseño a partir de la intuiciónDiseño a partir de la intuición
• Determinación por parte del investigador detodas las posibles respuestas a una pregunta
• Problemas� Variabilidad de las respuestas� Limitación de la clase de estructuras
lingüísticas utilizadas por el usuario
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Diseño a partir de la intuiciónDiseño a partir de la intuición
• Utilizado en determinadas condiciones
� Estructuración clara de la tarea� Introducción de frases determinadas
previamente por parte del sistema
� Las preguntas del sistema presuponenuna determinada respuesta por partedel usuario
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Diseño de un sistema de diálogoDiseño de un sistema de diálogo
• Estudio de la interacción naturalentre personas
• Perspectiva ling üística
• Pragmática
• Análisis de la conversación
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Diseño de un sistema de diálogoDiseño de un sistema de diálogo
• Estudio de corpus con diálogoscorrespondientes a la tarea que deberealizar el sistema
• Corpus persona-persona
• Corpus persona-máquina
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Diseño a partir de la observación de diálogosnaturales entre hablantes humanos
Diseño a partir de la observación de diálogosnaturales entre hablantes humanos
� Ayuda a la definición devocabularios y modelos lingüísticospropios de una tarea específica
� Diferencias entre la interacciónhumana natural y la interacciónpersona-máquina
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Diseño por simulaciónde la interacción persona-máquina
Diseño por simulaciónde la interacción persona-máquina
• Protocolo del Mago de Oz(Wizard of Oz)� Simulación de la interacción
en la que el papel de lamáquina lo realiza un humanosin que lo sepa el interlocutor
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Aplicaciones de los sistemas de diálogoAplicaciones de los sistemas de diálogo
�Sistemas de información�Sistemas de transacciones
�Traducción automática del habla
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Aplicaciones de los sistemas de diálogoAplicaciones de los sistemas de diálogo
• Obtener información
• Horarios y precios de transportes públicos• Información ciudadana
• Información turística• Información meteorológica
• Información académica
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Horarios y precios de transportes públicos http://gps-tsc.upc.es/veu/basurde/Horarios y precios de transportes públicos http://gps-tsc.upc.es/veu/basurde/
Basurde 976.76.21.13
Universitat Politècnica de Catalunya
Universitat Politècnica de ValènciaUniversidad del País Vasco
Universitat Jaume IUniversidad de Zaragoza
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
ARISE, Automatic Railway Information Systems for Europe
http://www.compuleer.nl/arise.htmARISE, Automatic Railway Information Systems for Europe
http://www.compuleer.nl/arise.htm
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
WAXHOLM, Dept. of Speech, Music and Hearing, KTH http://www.speech.kth.se/waxholm/waxholm2.html
WAXHOLM, Dept. of Speech, Music and Hearing, KTH http://www.speech.kth.se/waxholm/waxholm2.html
•Información de tráficomarítimo en elarchipiélago de Estocolmo
•Entrada mediantereconocimiento del habla
•Informaciónproporcionada mediantesíntesis del hablacomplementada porsíntesis visual y un interfazgráfico
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
WAXHOLM, Dept. of Speech, Music and Hearing, KTH http://www.speech.kth.se/waxholm/waxholm2.html
WAXHOLM, Dept. of Speech, Music and Hearing, KTH http://www.speech.kth.se/waxholm/waxholm2.html
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
MASK, LIMSI-CNRS http://www.limsi.fr/Recherche/TLP/mask.html
MASK, LIMSI-CNRS http://www.limsi.fr/Recherche/TLP/mask.html
MASK : Le systeme MASK vousécouteUSER : Euh... je voudrais allerdemain de Paris à Bordeaux...MASK : A quelle heure voulez-vous partir?USER : Vers 12:30MASK : Il y a un train a 12:43,voulez-vous réserver?USER : Oui en première classe
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
ATIS, SRI Internationalhttp://www.speech.sri.com/people/julia/atis.html
ATIS, SRI Internationalhttp://www.speech.sri.com/people/julia/atis.html
• Información sobre horarios y tarifas devuelos
• Incluye comprensión del lenguaje
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
ATIS, SRI InternationalATIS, SRI International
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
AdApt, Department of Speech, Music and Hearing, KTHhttp://www.speech.kth.se/multimodal/
AdApt, Department of Speech, Music and Hearing, KTHhttp://www.speech.kth.se/multimodal/
• Información sobre laciudad de Estocolmo
• Agentesconversacionalespara ayudar en elproceso de obtenciónde información
• Síntesis visual
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
AdApt, Department of Speech, Music and Hearing, KTHhttp://www.speech.kth.se/multimodal/
AdApt, Department of Speech, Music and Hearing, KTHhttp://www.speech.kth.se/multimodal/
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Información meteorológica http://gps-tsc.upc.es/veu/attemps/
Información meteorológica http://gps-tsc.upc.es/veu/attemps/
aTTempsUniversitat Politècnica de
CatalunyaUniversitat Autònoma de
Barcelona906.789.987
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Información académica http://ceres.ugr.es/sacc/
Información académica http://ceres.ugr.es/sacc/
SACC/STACCUniversidad de Granada
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Aplicaciones de los sistemas de diálogoAplicaciones de los sistemas de diálogo
• Realizar transacciones• Reserva y adquisición de billetes para
viajar en transportes públicos• Pedidos telefónicos• Venta de entradas• Banca telefónica• Atención telefónica al cliente
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Venta de entradas http://www.ydilo.com/esp/caseStudies.html
Venta de entradas http://www.ydilo.com/esp/caseStudies.html
CineEntradasYdilo Advanced Voice Solutions
902.888.902
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Banca Telefónica http://www.natvox.es/demos_bpt.html
Banca Telefónica http://www.natvox.es/demos_bpt.html
BpT, Banca por TeléfonoNatural Vox
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
TRAINS, Department of Computer Science, Rochester Universityhttp://www.cs.rochester.edu/research/trains/
TRAINS, Department of Computer Science, Rochester Universityhttp://www.cs.rochester.edu/research/trains/
• Gestión de itinerarios de trenes
� Síntesis y reconocimiento del habla� Diálogo
� Comprensión del lenguaje
� Interfaz visual� Integración en un sistema interactivo
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
TRAINS, Department of Computer Science, Rochester University http://www.cs.rochester.edu/research/trains/
TRAINS, Department of Computer Science, Rochester University http://www.cs.rochester.edu/research/trains/
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Aplicaciones de un sistema de diálogoAplicaciones de un sistema de diálogo
• Gestionar información
• Gestión del correo electrónico
• Gestión de recursos
• Centralitas telefónicasautomatizadas
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Gestión del correo electrónico http://www.gts.tsc.uvigo.es/telcorreo/
Gestión del correo electrónico http://www.gts.tsc.uvigo.es/telcorreo/
TelCorreoUniversidade de VigoUniversidade de Santiago
de Compostela
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Servicios de atención al cliente http://www.grupovoice.com/
Servicios de atención al cliente http://www.grupovoice.com/
GRU, Unidad de Respuesta GlobalGrupo Voice Consulting
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Teleface, Dept. of Speech, Music and Hearing, KTHhttp://www.speech.kth.se/teleface/
Teleface, Dept. of Speech, Music and Hearing, KTHhttp://www.speech.kth.se/teleface/
• Generación dehabla sintetizadacon apoyo visual(lectura labial)para personas condificultades deaudición
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Teleface, Dept. of Speech, Music and Hearing, KTHhttp://www.speech.kth.se/teleface/
Teleface, Dept. of Speech, Music and Hearing, KTHhttp://www.speech.kth.se/teleface/
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Traducción automática del hablaTraducción automática del habla
• Problemas del habla espontánea (disfluencies)
• Dudas• Pausas “llenas”
• Alargamientos vocálicos• Repeticiones
• Falsos principios• Velocidad de elocución
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Traducción automática del hablaTraducción automática del habla
• Problemas del diálogo
• Elementos anafóricos
• Elementos deícticos
• Elipsis
• Presuposiciones…
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Traducción automática del hablahttp://nespole.itc.it/public/deliverables/D3forWeb/D3forWeb.htm
Traducción automática del hablahttp://nespole.itc.it/public/deliverables/D3forWeb/D3forWeb.htm
"... I'm available on Friday the 19th...”
"...sí sí venerdì diciannoveposso, sì perchè sai oggi
vado via per il viaggio D, laverità è che questo mese è
pieno di viaggi parto ilgiorno sei per un viaggio estarò via fino al dodici ed è
per questo che il giornodiciannove mi va proprio
bene francamente..."
“...yes yes on fridaynineteen can, yes
because know I go me oftrip today, the truth such is
that this month is verytraveller I go me the day six
of trip and I am until thetwelve as soon as the daynineteen comes me very
well outspokenly”
=
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Traducción automática del hablahttp://www.is.cs.cmu.edu/papers/speech/1996/COMPUTER-alex.ps.gz
Traducción automática del hablahttp://www.is.cs.cmu.edu/papers/speech/1996/COMPUTER-alex.ps.gz
“...sí sí el viernes diecinueve puedo sí porque sabes mevoy de viaje d hoy la verdad así esque este mes es muy viajero me voy el día seis de viajey estoy hasta el doce así que el díadiecinueve me viene muy bien francamente...”yes yes on friday nineteen can yes because know I gome of trip D today the truth such isthat this month is very traveler I go me the day six of tripand I am until the twelve as soonas the day nineteen comes me very well outspokenly
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Reconocimiento del habla
Gestión del diálogo
Traducción automática de textos
Conversión de texto en habla
Traducción automática del habla(Spoken Language Translation)
Traducción automática del habla(Spoken Language Translation)
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Verbmobilhttp://verbmobil.dfki.de/overview-us.html
Verbmobilhttp://verbmobil.dfki.de/overview-us.html
• Sistema móvil de traducción de diálogosespontáneos
• Dominios restringidos: citas, preparaciónde viajes, reservas de hotel
• Lenguas: alemán, inglés y japonés
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
WAHLSTER, W. (2000) "Mobile Speech-to-Speech Translation of Spontaneous Dialogs: AnOverview of the Final Verbmobil System", in WAHLSTER, W. (Ed.) Verbmobil: Foundations ofSpeech-to-Speech Translation. Heidelberg - New York: Springer Verlag (Artificial Intelligence).http://verbmobil.dfki.de/ww.html
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Verbmobilhttp://verbmobil.dfki.de/overview-us.html
Verbmobilhttp://verbmobil.dfki.de/overview-us.html
• Independiente del locutor• Bidireccional• Teléfono móvil GSM• Más de 10.000 palabras• 75% de reconocimiento de palabras• 80% de traducciones correctas• 90% de éxito en tareas• Generación de resúmenes de conversaciones
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
WAHLSTER, W. (2000) "Mobile Speech-to-Speech Translation of Spontaneous Dialogs: AnOverview of the Final Verbmobil System", in WAHLSTER, W. (Ed.) Verbmobil: Foundations ofSpeech-to-Speech Translation. Heidelberg - New York: Springer Verlag (Artificial Intelligence).http://verbmobil.dfki.de/ww.html
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Verbmobilhttp://verbmobil.dfki.de/verbmobil/2EN.MPG
Verbmobilhttp://verbmobil.dfki.de/verbmobil/2EN.MPG
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
JANUShttp://www.is.cs.cmu.edu/mie/janus.html
JANUShttp://www.is.cs.cmu.edu/mie/janus.html
• Dominios limitados: citas, reserva dehoteles, itinerarios de viajes
• Lenguas de entrada: inglés y alemán
• Lenguas de salida: inglés, alemán yjaponés
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Janus - Videoconferenciahttp://www.is.cs.cmu.edu/mie/janus2.html
Janus - Videoconferenciahttp://www.is.cs.cmu.edu/mie/janus2.html
• Reservas de viajes entre un cliente yuna agencia local
• Traducción oral y escrita de laconversación
• Interacción establecida porvideoconferencia
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Janus - Traductor portátilhttp://www.is.cs.cmu.edu/mie/janus3.html
Janus - Traductor portátilhttp://www.is.cs.cmu.edu/mie/janus3.html
• Información y ayuda para una personaque viaja por un país extranjero
• Traducción oral y escrita y acceso a basesde datos de información turística
• Independiente del locutor• Dominio restringido• Versiones portátil y móvil
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Janus - Traductor portàtilhttp://www.is.cs.cmu.edu/mie/janus3.html
Janus - Traductor portàtilhttp://www.is.cs.cmu.edu/mie/janus3.html
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Janus - Traductor de conversacioneshttp://www.is.cs.cmu.edu/mie/janus3.html
Janus - Traductor de conversacioneshttp://www.is.cs.cmu.edu/mie/janus3.html
• Lenguas: inglés y castellano
• Seguimiento de la conversación• Traducción presentada en forma escrita
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
LingWearhttp://www.is.cs.cmu.edu/LingWear/intro.html
LingWearhttp://www.is.cs.cmu.edu/LingWear/intro.html
• Sistema móvil de traducción,información, ayuda y navegación
• Dominio: turismo en un país extranjero• Lenguas: inglés, alemán y japonés• Multimodal: habla, texto, escritura
manuscrita, imagen y gesto
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
LingWearhttp://www.is.cs.cmu.edu/LingWear/intro.html
LingWearhttp://www.is.cs.cmu.edu/LingWear/intro.html
Integrado enel ordenadorportátilXybernautMobileAssistant IV
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
LingWearhttp://www.is.cs.cmu.edu/LingWear/tourist2.html
LingWearhttp://www.is.cs.cmu.edu/LingWear/tourist2.html
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
SRI Internationalhttp://www.speech.sri.com/
SRI Internationalhttp://www.speech.sri.com/
• Dominio restringido: información sobrevuelos
• Lenguas: del inglés al francés
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
SRI Spoken Language Translationhttp://www.speech.sri.com/star-videos.html
SRI Spoken Language Translationhttp://www.speech.sri.com/star-videos.html
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Nespole!http://nespole.itc.it/
Nespole!http://nespole.itc.it/
• Negotiating through Spoken Language inE-Commerce
• Traducción automática del habla paracentros de videoconferencia
• Lenguas: italiano con traducción alinglés, alemán y francés
• Dominio: turismo
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Nespole!http://nespole.itc.it/public/frames/f_video.htm
Nespole!http://nespole.itc.it/public/frames/f_video.htm
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Eutranshttp://prhltdemos.iti.es/demo/spanish_demo.html
Eutranshttp://prhltdemos.iti.es/demo/spanish_demo.html
• Example Based Undestanding and TranslationSystems
• Lenguas: del castellano o del italiano al inglés
• Dominio: centralita y recepción de hoteles• Accesible por teléfonoPattern Recognition and Human Language Technology Group,
Universitat Politècnica de València
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Eutranshttp://www.iti.upv.es/~fcn/Talks/tah/EuTransI.avi
Eutranshttp://www.iti.upv.es/~fcn/Talks/tah/EuTransI.avi
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Traducción automática del hablaTraducción automática del habla
• Dominios restringidos
• Interacción pregunta-respuesta• Accesible por teléfono
• Multimodalidad
• Complementariedad del conocimientolingüístico y del conocimiento técnico
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
¿Quién desarrolla las tecnologías delhabla?
¿Quién desarrolla las tecnologías delhabla?
• Surgidas en un principio del ámbito de laingeniería de telecomunicaciones
• Desarrolladas siguiendo la evolución de lainformática
Ingenieros de telecomunicación
Informáticos
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
El papel del lingüistaEl papel del lingüista
• Conocimiento de la interacción oralhumana
• Conocimiento de los mecanismos dede producción y percepción delhabla
• Conocimiento del sistema lingüístico
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
La conversión de texto en hablaLa conversión de texto en habla
• Tratamiento previo del texto• Análisis lingüístico del texto• Transcripción fonética automática• Diccionarios de unidades de síntesis• Modelos prosódicos• Evaluación de sistemas
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
El reconocimiento del hablaEl reconocimiento del habla
• Selección de locutores para elentrenamiento del sistema
• Segmentación y transcripción delcorpus de entrenamiento
• Diccionarios de pronunciación
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Los sistemas de diálogoLos sistemas de diálogo
• Estudio y anotación de corpus de interaccionesnaturales entre personas
• Estudio y anotación de corpus de interaccionesficticias entre personas y sistemas informáticos
• Diseño de escenarios para el desarrollo delsistema
• Diseño de estrategias de diálogo• Adecuación pragmática del diálogo• Corrección lingüística del sistema
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Algunos obstáculosAlgunos obstáculos
• “Cultura” tecnológica vs. “cultura”humanística (“aplicación” vs. “teoría”)
• El vocabulario común
• La “formación” filológica
• El lingüista como “proveedor de datos”
• El lingüista como “revisor”
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Departamento de Ciencias de la ComputaciónInstituto de Invesitgaciones en Matemáticas Aplicadas y Sistemas
UNAM, México, 7 de noviembre de 2003
El papel de la fonEl papel de la fonéética en eltica en eldesarrollo de las tecnologdesarrollo de las tecnologíías delas del
hablahablahttp://liceu.uab.es/
~joaquim/speech_technology/UNAM_03/UNAM_03.html
Facultad de Filosofía y LetrasColegio de Letras Hispánicas
UNAM, México, 4 de noviembre de 2003
Facultad de Filosofía y LetrasColegio de Letras Hispánicas
UNAM, México, 4 de noviembre de 2003
Joaquim LlisterriGrup de Fonètica, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Departamento de Ciencias de la ComputaciónInstituto de Invesitgaciones en Matemáticas Aplicadas y Sistemas
UNAM, México, 7 de noviembre de 2003
El papel de la fonEl papel de la fonéética en el desarrollo detica en el desarrollo delas tecnologlas tecnologíías del hablaas del habla
Joaquim LlisterriJoaquim Llisterri
Grup de FonGrup de FonèèticaticaDepartament de Filologia EspanyolaDepartament de Filologia EspanyolaUniversitat AutUniversitat Autòònoma de Barcelonanoma de [email protected]@uab.eshttp://liceu.uab.es/~joaquimhttp://liceu.uab.es/~joaquim
Facultad de Filosofía y LetrasColegio de Letras Hispánicas
UNAM, México, 4 de noviembre de 2003
Facultad de Filosofía y LetrasColegio de Letras Hispánicas
UNAM, México, 4 de noviembre de 2003