40
Introducción al Procesamiento del Habla Prof. Agusn Gravano Departamento de Computación, FCEyN Universidad de Buenos Aires Escuela de Verano RIO 2016 Departamento de Computación, FCEFQyN Universidad Nacional de Río Cuarto

Acústica, fonética y fonología

Embed Size (px)

Citation preview

Page 1: Acústica, fonética y fonología

Introducción al Procesamiento del Habla

Prof. Agustín GravanoDepartamento de Computación, FCEyN

Universidad de Buenos Aires

Escuela de Verano RIO 2016Departamento de Computación, FCEFQyN

Universidad Nacional de Río Cuarto

Page 2: Acústica, fonética y fonología

Procesamiento del Habla

● Objetivo de la disciplina: – Construir sistemas informáticos capaces de manipular

efectivamente el lenguaje oral.● Subtítulos, traducciones, interfaces, resúmenes, ...

● Objetivos de este curso:– Estudiar las bases necesarias para construir sistemas de:

● Reconocimiento automático.● Síntesis del habla.● Detección automática de características del hablante: id,

lenguaje, género, edad, etc.

Page 3: Acústica, fonética y fonología

● Programa del curso:– Lunes: Acústica, fonética y fonología.

● Sonido, onda, fono, fonema, espectrograma.

– Martes: Reconocimiento del habla. ● Mezclas de gausianas (GMM), Modelos ocultos de Markov (HMM).

– Miércoles: Síntesis del habla.● Síntesis concatenativa, HMM, articulatoria y de formantes.

– Jueves: Usando el reconocimiento y la síntesis del habla.● Pre- y pos-procesamiento en ASR y TTS. Sistemas de diálogo hablado.

– Viernes: Detección de características del hablante.● Aprendizaje Automático. Detección de id, lenguaje, género, edad, etc.

Procesamiento del Habla

Page 4: Acústica, fonética y fonología

Bibliografía● Jurafsky & Martin, “Speech and Language Processing”, 2nd

ed., Prentice Hall. 2009.● Johnson, “Acoustic and Auditory Phonetics”, 2nd ed.,

Blackwell. 2003.● Benesty, Mohan Sondhi & Huang (Eds.), “Springer

Handbook of Speech Processing”. Springer-Verlag, 2008.

Page 5: Acústica, fonética y fonología

Acústica¿Qué es el sonido?

Page 6: Acústica, fonética y fonología

Sonido

● Fluctuaciones de presión en el aire causadas por fuentes como instrumentos musicales, bocinas de autos, voces, etc.

1) Las ondas se propagan por el aire y llegan al oído.2) El sistema auditivo las traduce a impulsos neuronales.3) El cerebro los interpreta como sonido.

Page 7: Acústica, fonética y fonología

Propagación del Sonido: Analogías

Analogía más adecuada:

Page 8: Acústica, fonética y fonología

Sonidos

● Sonidos periódicos

– Ondas periódicas simples

– Ondas periódicas complejas (o compuestas)

● Sonidos aperiódicos

– Ruido blanco, sonido transitorio.

Page 9: Acústica, fonética y fonología

Ondas Periódicas Simples

● Ondas senoidales.● Ciclo: Cada repetición del patrón senoidal.● Período (T): Duración del ciclo.● Frecuencia (f): Cantidad de ciclos por segundo.

– En otras palabras: Cantidad de veces que el patrón senoidal se repite por segundo.

– Se mide en hertz (Hz). – 1 Hz = 1 ciclo por segundo.– f = 1/T

● Ej: T=0.01s, f=100Hz

Page 10: Acústica, fonética y fonología

Ondas Periódicas Simples

● Amplitud: Desviación máxima de fluctuación de la presión por sobre la presión atmosférica normal.

● Fase: Timing de la forma de onda relativo a algún punto de referencia.

Ejercicio en Python:ej1-acustica.py

Page 11: Acústica, fonética y fonología

Ondas Periódicas Complejas

● Ondas periódicas complejas: Ondas cíclicas formadas por múltiples ondas senoidales.– Ej: onda formada por senoidales de 100 y 1000Hz.

Page 12: Acústica, fonética y fonología

Ondas Periódicas Complejas

Ejemplo: onda compleja formada por 4 senoidales

Page 13: Acústica, fonética y fonología

Sonidos Aperiódicos

No tienen un patrón que se repita regularmente.Ejemplos:● Ruido blanco: Fluctuación aleatoria de presión.

– Espectro plano: igual amplitud para todas las frecuencias.– Estática de radio, viento entre los árboles, [s], [f].

● Ondas transitorias: Fluctuaciones súbitas de presión que no se sostienen ni se repiten.– Portazos, disparos, mouse clicks, [p], [t].

Page 14: Acústica, fonética y fonología

Análisis de Fourier

● Cualquier función puede descomponerse en una suma de ondas senoidales.

● Espectro energético:

● Fast Fourier Transform (FFT)– Algoritmo eficiente para computar el espectro de una

señal a partir de un número de muestras.

Frecuencias

Am

plitu

des

Page 15: Acústica, fonética y fonología

Visualizaciones

● Al agregar una dimensión temporal al espectro energético, obtenemos un espectrograma.

tiempo →

Page 16: Acústica, fonética y fonología

Sonidos Aperiódicos

Ruido blanco Onda transitoria

Ejercicio en Python: ej1-acustica.py

Ond

aEs

pect

rogr

a ma

Page 17: Acústica, fonética y fonología

Procesamiento Digital de Señales

● Señal analógica (continua): La línea de tiempo tiene valores de amplitud con precisión infinita en todos los puntos.

● Señal digital (discreta): La línea de tiempo tiene sólo una secuencia de valores de amplitud con precisión finita.

Page 18: Acústica, fonética y fonología

Procesamiento Digital de Señales

● Un micrófono convierte oscilaciones de presión en el aire (sonido) en oscilaciones de voltaje.– Los dispositivos analógicos (discos de vinilo, cassettes) las

guardan como señales continuas.– Los dispositivos digitales (computadoras, CDs) las

convierten y guardan como señales discretas.● Conversión Analógica-Digital (Digitalización)

1) Muestreo: Discretización del tiempo.● Tasa de muestreo. Ej: 8 kHz (teléfono), 44.1 kHz (CD), 16 kHz.

2) Cuantización: Discretización de la amplitud.● Precisión de las muestras. Ej: 16 bits.

Page 19: Acústica, fonética y fonología

● Escuchar bach.wav (44.1kHz, 16bits)– Fragmento de Partita en Sol Mayor de J. S. Bach.

play FILENAME

● Bajar sampling rate a 16, 8, 4 kHz y comparar.sox IN.WAV -r FREQ OUT.WAV

● Subir sampling rate de 4 kHz a 44.1kHz.– ¿Por qué no vuelve a estar en buena calidad?

● Crear espectrogramas de los audios y comparar.sox IN.WAV -n spectrogram -o OUT.PNG

Ejercicios

Page 20: Acústica, fonética y fonología

Acústica – Resumen● Sonidos periódicos y aperiódicos.

– Ondas periódicas simples y complejas.– Ruido blanco; ondas transitorias.– Análisis de Fourier. FFT. Espectrograma.

● Procesamiento digital de señales.– Tasa de muestreo; precisión.

● Herramientas: sox y Python.

Page 21: Acústica, fonética y fonología

Fonética y Fonología

Los sonidos del lenguaje

Page 22: Acústica, fonética y fonología

¿De estas figuras, cuál se llama Buba y cuál Kiki?

Page 23: Acústica, fonética y fonología

Los sonidos del lenguaje

● ¿Quién estudia los sonidos del habla?– Lingüistas (fonólogos), fonoaudiólogos, lexicógrafos,

cantantes, maestros de idiomas.

● ¿Qué preguntas se hacen?– ¿Cuál es el inventario de un idioma X?– ¿Cómo se producen los sonidos?– ¿Qué sonidos comparten dos idiomas X e Y?– ¿Cómo varía la producción de un sonido según el

contexto en que se produce?

Page 24: Acústica, fonética y fonología

Fonética articulatoria

¿Cómo se producen los sonidos del habla?

Page 25: Acústica, fonética y fonología

Clases de sonidos

● Vocales:– Generalmente sonoras, poca restricción o bloqueo del

flujo del aire (ej: [a] [e] [i] [o] [u]).

● Consonantes:– Restricción o bloqueo del flujo del aire (ej: [s]).

– Sonoras vs. sordas (ej: [m] vs. [s])

● Semiconsonantes: [j] labio, [w] agua.

● Semivocales: reino, causa.

Page 26: Acústica, fonética y fonología

Consonantes: Punto de articulación

labial

dental

alveolarpos-alveolar/palatal

velar

uvular

faríngea

laríngea/glotal

● ¿Dónde se restringe el flujo del aire?

Page 27: Acústica, fonética y fonología

Consonantes: Punto de articulación

● Ejemplos en español:– Labial: bilabial [p] [m]; labiodental [f].– Dental: [θ] zorro en español peninsular.– Alveolar: [s], [n], [t], [r].– Palatal: [ɲ] ñato.

– Velar: [ŋ] hongo, [k] casa, [x] juez.– Laríngea: [h] hasta.

Page 28: Acústica, fonética y fonología

Consonantes: Modo de articulación

● ¿Cómo se restringe el flujo del aire?– Oclusiva: Se bloquea el paso del aire y luego se lo libera:

[p] [t] [k] [g].– Nasal: El aire sale por la nariz: [m] [n].– Fricativa: Se fuerza el aire por un canal angosto,

generando una fricción turbulenta: [f] [s].– Africada: Comienza como una oclusiva, pero termina

como una fricativa: [t∫] techo.– Aproximante: Se restringe poco el flujo del aire, sin

bloquear ni producir fricción turbulenta: [l].– Vibrante: Se hace vibrar la lengua: [r].

Page 29: Acústica, fonética y fonología

● ¿Vibran las cuerdas vocales?– Sí: consonante sonora.

● Ejemplos: [m] [n] [b] [d] [l] [r] [g] ...

– No: consonante sorda.● Ejemplos: [f] [s] [p] [t] [k] [x] [∫] [h] ...

Consonantes sordas vs. sonoras

Page 30: Acústica, fonética y fonología
Page 31: Acústica, fonética y fonología

v

Español

bebé be 'βe dedo 'de ðogagá ga ' aɣenfermo e 'fe moɱ ɾhongo 'oŋ oɣlluvia ' u βia / ' u βia / ' u βia / ' u βiaʃ ʒ ʝʝ ʎ

(Link útil: Teclado IPA http://ipa.typeit.org/full/)

Ejemplos de posibles transcripciones fonéticas:

chancho ' an ottʃ ttʃñoqui ' o kiɲzorro 'so ro / 'θo rojaque 'xa kemosca 'moh ka / 'mos kapatio 'pa tjo

Page 32: Acústica, fonética y fonología

Vocales

● Todas son sonoras.● Apertura o altura: ¿cuán alta está la lengua?

– Abierta [a]; medio [e][o]; cerrada [i][u].● Localización: ¿dónde está su parte más alta?

– Anterior [a][e][i]; centro; posterior [o][u].● ¿Cuán redondeados están los labios?

– Redondeados [o][u]; no redondeados [a][e][i].● Secuencias de sonidos vocálicos.

– Simple [e] vs. diptongo [ej] vs. Triptongo [uej].– Hiato: caer, zoológico, período, chiíta.

Page 33: Acústica, fonética y fonología

Vocales: Disposición de la lengua

Page 34: Acústica, fonética y fonología

Vocales

Demo: [formant.exe] http://www.speech.kth.se/wavesurfer/formant/

Page 35: Acústica, fonética y fonología

IPA para el español: Vocales

Page 36: Acústica, fonética y fonología

● sopa vs. desde vs. mosca vs. “es uno”Diferentes formas de pronunciar la “s”.

● Fonos: Sonidos de un idioma. Not.: [∙]● Fonemas: Clases (abstractas) de sonidos que permiten distinguir

palabras de un idioma. Not.: /∙/● Ejemplos en español:

– desde, sopa, mosca: varios fonos [h], [s], [x] para el fonema /s/.– nada, enfermo: fonos [n], [ɱ]; fonema /n/.– gol vs. agua: fonos [g], [ɣ]; fonema /g/.

– [d] y [δ] son alófonos del fonema /d/ (dado).En inglés, /d/ y /δ/ son dos fonemas (dose vs. those).

– /p/ y /b/ son fonemas (peso vs. beso).En chino mandarín, [p] y [b] son alófonos del mismo fonema.

Fonos y fonemas

Page 37: Acústica, fonética y fonología

Fonos en acción

s a m a ap o n t

Page 38: Acústica, fonética y fonología

Fenómenos fonéticos importantes

● Reducción (o hipoarticulación): acortamiento de los sonidos, por ejemplo por hablar rápido.

● Eliminación (consistente) de fonemas: fósforo.● Hiperarticulación: pronunciación muy marcada

(exagerada) de cada sonido.● Co-articulación: Coordinación de movimientos

articulatorios para la realización de un sonido.– Ejemplo: en pa, la lengua adopta la posición articulatoria

de [a] mientras se está articulando [p].● Asimilación: La pronunciación de una sílaba se

acomoda a la de una vecina: hongo, desde.

Page 39: Acústica, fonética y fonología

Herramientas de Análisis: Praat

● http://www.praat.org

● Creado por Paul Boersma y David Weenink, del Instituto de Ciencias Fonéticas de la Universidad de Amsterdam.

● Herramienta de procesamiento del habla con fines generales.

– Edición, segmentación, rotulado, manipulación de prosodia, batch scripting, y más.

● Mucha documentación online. Buscar “tutorial praat”.

Ejercitación para Praat: ejercicios-praat.pdf

Page 40: Acústica, fonética y fonología

Fonética y Fonología – Resumen

● Fonética: Estudia los sonidos del habla.– Representaciones: Ortografía, IPA, ARPABET.– Fonética articulatoria:

● Cómo se producen los sonidos.● Clases de sonidos: según punto y modo de articulación.

● Fonología: Función de los sonidos en el lenguaje.– Fonemas (ej: /s/) vs. fonos (ej: [s] en sopa, [h] en desde).

ejercicios-fonetica-y-fonologia.pdf(Con soluciones.)