58

Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

  • Upload
    ngomien

  • View
    220

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por
Page 2: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

Que veremos?Que veremos?

1. Introducción

2. Trabajos Previos3. Procesamiento de la Señal

4. Coeficientes MFCC5. Trasformada Wavelet

6. Extracción de características usando wavelets7. Experimentos y Resultados

8. Conclusiones

Page 3: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

1. Introducción1. Introducción

Page 4: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

PodriamosPodriamosconversar con las conversar con las maquinas como lo hacemos con los maquinas como lo hacemos con los

humanos?humanos?

Page 5: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

1. Introducción1. Introducción

•• SpeechSpeechRecognitionRecognition

¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada?

Problemas:Problemas:algoritmos de bajo costo computacionalextracción de “buenas” característicascorrecta clasificación

Page 6: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

1. Introducción1. Introducción

•• Extracción de característicasExtracción de características

Complejidad computacionalCual es la mejor representación de características?

Reducción de la dimensionalidadconjunto mas pequeño que contenga la información mas esencial presente en los atributos originales

Page 7: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

2. Trabajos Previos2. Trabajos Previos

Page 8: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

2. Trabajos Previos2. Trabajos Previos

•• Diversas TécnicasDiversas Técnicas

Bandos de Energias de la Trasformada de Fourier

LPC Coeficientes de Prediccion Lineal [Atal, and Schroeder]

LPC-Cepstrum [Atal, and Schroeder] [Bogert and Tukey]

PLP Coeficientes de Prediccíon Lineal Perceptuales

MFCC Coeficientes Cepstrales en Frecuencia Mel [Davis and Mermelstein]

Propuestas Basada en Wavelets

Page 9: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

3. Procesamiento Digital de la Señal de 3. Procesamiento Digital de la Señal de HablaHabla

Page 10: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

3. Procesamiento Digital de la Señal de 3. Procesamiento Digital de la Señal de HablaHabla

• Diversos algoritmos para procesar la señal digital de habla en una computadora

• Ejemplo:Eliminacion de ruido, analisis de frecuencias, etc

Page 11: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

Capturar la señal analógica y digitalizarla para poder usarla en la computadora

3. Procesamiento Digital de la Señal de 3. Procesamiento Digital de la Señal de HablaHabla

Page 12: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

3.1 Transformada de 3.1 Transformada de FourierFourier

Donde :

3. Procesamiento Digital de la Señal de 3. Procesamiento Digital de la Señal de HablaHabla

Page 13: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

Transformada Discreta de Transformada Discreta de FourierFourier ..

Complejidad computacional : O(n2 )

Transformada Rápida de Transformada Rápida de FourierFourier ..

Algoritmo radix-2 con diezmado en frecuencia y

reordenamiento de la salida de bits mezclados, cuya complejidad es O(n log n).

Page 14: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por
Page 15: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

Complejidad computacional.Complejidad computacional.

Resolviendo la ecuación de recurrencia se tiene:

Page 16: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

3.2 3.2 VentaneamientoVentaneamiento

3. Procesamiento Digital de la Señal de 3. Procesamiento Digital de la Señal de HablaHabla

Se puede cortar la señal por partes para un Se puede cortar la señal por partes para un análisis más cómodoanálisis más cómodo

Idea: utilizar ventanitasIdea: utilizar ventanitas

Problema : ¿Qué tipo de ventana usar?Problema : ¿Qué tipo de ventana usar?

Page 17: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

•• Caso ventana rectangularCaso ventana rectangular

3. Procesamiento Digital de la Señal de 3. Procesamiento Digital de la Señal de HablaHabla

Page 18: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

•• Caso ventana Caso ventana HammingHamming

3. Procesamiento Digital de la Señal de 3. Procesamiento Digital de la Señal de HablaHabla

Page 19: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

•• Por que Por que hamminghamming? Caso ventana rectangular? Caso ventana rectangular

3. Procesamiento Digital de la Señal de 3. Procesamiento Digital de la Señal de HablaHabla

Page 20: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

Comparación de Ventanas.Comparación de Ventanas.

3. Procesamiento Digital de la Señal de 3. Procesamiento Digital de la Señal de HablaHabla

Page 21: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

4. Coeficientes MFCC4. Coeficientes MFCC

Page 22: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

4. Coeficientes MFCC4. Coeficientes MFCC

• Es un método (el más famoso) para extracción de características

• La idea esta inspirada en un modelo biológico

• Usa Trasformada de Fourier

• Complejidad Computacional O(n Log n)

Page 23: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

Producción y Percepción del HablaProducción y Percepción del Habla

4. Coeficientes MFCC4. Coeficientes MFCC

Page 24: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

Frecuencia Frecuencia MelMel..Es una escala basada en como oímos, y se ha

construido , a través de experimentos fisiológicos.

4. Coeficientes MFCC4. Coeficientes MFCC

Page 25: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

Frecuencia Frecuencia MelMel..4. Coeficientes MFCC4. Coeficientes MFCC

Page 26: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

CepstrumCepstrum..Si imaginamos la señal de voz como producto de la convolucióndel aire que fluye de nuestros pulmones y varios filtros correspondientes al tracto vocal.

Objetivo: Desconvolucionar la señal de voz

Page 27: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por
Page 28: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

4. Coeficientes MFCC4. Coeficientes MFCC

•• AlgoritmoAlgoritmo–– Se hace un análisis por Se hace un análisis por framesframesde la señalde la señal

Con una ventana Con una ventana HammingHamming

Page 29: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

4. Coeficientes MFCC4. Coeficientes MFCC

•• AlgoritmoAlgoritmo–– Se aplica una Trasformada de Se aplica una Trasformada de FourierFouriera cada a cada

FrameFrame(Trasformada Corta de (Trasformada Corta de FourierFourier) con un ) con un algoritmo rápido algoritmo rápido O(nO(n loglog n)n)

En nuestro caso un algoritmo En nuestro caso un algoritmo RadixRadix--2 con 2 con decimacióndecimaciónen frecuencia y reordenamiento de en frecuencia y reordenamiento de bits mezcladosbits mezclados

Page 30: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

4. Coeficientes MFCC4. Coeficientes MFCC

•• AlgoritmoAlgoritmo–– Se traspasa de la escala de frecuencias a la Se traspasa de la escala de frecuencias a la

escala escala MelMel, mediante un , mediante un ventaneamientoventaneamientocon con ventanas triangulares (ventanas triangulares (binsbins))

Page 31: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

4. Coeficientes MFCC4. Coeficientes MFCC

•• AlgoritmoAlgoritmo–– Se Se obienteobienteel el CepstrumCepstrumde las frecuencias en escala de las frecuencias en escala MelMel

–– Finalmente se una trasformada de Coseno II es calculadaFinalmente se una trasformada de Coseno II es calculada

Page 32: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

5. Trasformada 5. Trasformada WaveletWavelet

Page 33: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

“La Transformada Wavelet es una herramienta matemática que corta los datos, funciones o operadores en diferentes componentes de frecuencia y estudia cada componente a una resolución ubicada a esa escala.”

Ingrid DaubechiesTen Lectures of Wavelets

5. Trasformada 5. Trasformada WaveletWavelet

Page 34: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

5. Trasformada 5. Trasformada WaveletWavelet

Page 35: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

T. T. FourierFourier vsvs T. T. WaveletWavelet

5. Trasformada 5. Trasformada WaveletWavelet

Page 36: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

WaveletsWaveletsen el Dominio de la Frecuenciaen el Dominio de la Frecuencia

5. Trasformada 5. Trasformada WaveletWavelet

Page 37: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

WaveletsWaveletsDiscretas.Discretas.

5. Trasformada 5. Trasformada WaveletWavelet

Page 38: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

Filtro Pasa BandaFiltro Pasa Banda

5. Trasformada 5. Trasformada WaveletWavelet

Page 39: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

Algoritmo de Banco de Filtros IterativoAlgoritmo de Banco de Filtros Iterativo

5. Trasformada 5. Trasformada WaveletWavelet

Page 40: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

WaveletsWaveletsPacketsPackets

Page 41: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

6. Extracción de Características 6. Extracción de Características usando usando WaveletsWavelets

Page 42: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

Extracción de características con Extracción de características con WaveletsWavelets

Page 43: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

Extracción de Características con Extracción de Características con WaveletsWaveletsPacketPacketPerceptualesPerceptuales

Page 44: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

Extracción de Características con Extracción de Características con WaveletsWaveletsPacketPacketPerceptualesPerceptuales

Page 45: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

Filtros UsadosFiltros Usados

Page 46: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

Extracción de característicasExtracción de características

• Cálculo de energias por nivel del resolución aproximadamente igual a la escala Mel

• Aplicación de un “Cepstrum”

Page 47: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

DynamicDynamic Time Time WarpingWarping DTWDTW

Page 48: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

Experimentos y ResultadosExperimentos y Resultados

Page 49: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

ResultadosResultadosWaveletsWaveletsO(nO(n)

EF :63.36%

Page 50: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

Resultados Resultados WaveletsWaveletsPacketsPacketsO(n log n)O(n log n)

Page 51: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

Comparaciones con MFCCComparaciones con MFCC

Page 52: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

Tasa de Reconocimiento por PalabraTasa de Reconocimiento por Palabra

Page 53: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

8. Conclusiones8. Conclusiones

Page 54: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

Conclusiones.Conclusiones.

-El mejoramiento del espectro se da gracias al análisis tiempo frecuencia de las wavelets.

-Una extracción de características usando solamente la Trasformada de Fourier no brinda buenos resultados.

-Los wavelets pueden ser utilizados alternativamente, para el procesamiento digital de la señal de habla.

-La complejidad computacional de los algoritmos de extracción de características usando las wavelets y las wavelets packets es de O(n) y de O(n log n) respectivamente.

-La ventaja de utilizar wavelets radica, en la variedad de funciones waveletque se puede escoger.

- Las wavelets que mejor funcionan, son aquellos que tienen su espectro parecido a un filtro paso de banda ideal.

Page 55: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

ProyeccionesProyecciones

Page 56: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por
Page 57: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por

Software de pruebasSoftware de pruebasLORITO version 3.14

Page 58: Que veremos? - vision.ime.usp.brjorjasso/files/expocicionRAH.pdf · ¿Cómo hacer que las computadoras puedan convertir a texto la palabra hablada? ... – Se hace un análisis por