52
Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Embed Size (px)

Citation preview

Page 1: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Identificación Automática de Señales de Audio

José Antonio Camarena Ibarrola

Page 2: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Aplicaciones:

Acompañamiento automático Monitoreo de anuncios publicitarios Detección de duplicados Llenado automático de meta-datos Filtrado en redes p2p Consulta mediante grabación QBH

Page 3: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Esquema de Identificación de Audio

Page 4: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Características de una Huella de Audio Robustez (Ruido, Ecualización, compresión

con pérdidas, inicio aleatorio, filtrado, escalamiento)

Granularidad Complejidad Escalabilidad Tamaño

Page 5: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Extracción de Huellas de Audio

Page 6: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

La Huella de MPEG-7

Page 7: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

La Huella de Haitsma & Kalker (Philips’ Research Lab)

Page 8: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Motivación para usar entropía para construir huellas de audio robustas Previo uso de la entropía para reconocimiento de imágenes Previo uso de la entropía para segmentación de voz en

ambientes ruidososos Realizamos experimentos con la ubicación de la máxima

entropía en una canción. Realizamos experimentos relativos a señales de audio alteradas

pero con la misma entropía instantánea “Aoccdrnig to a rsecheearr at an Elingsh uinervtisy, it deosn't

mttaer in waht oredr the ltteers in a wrod are, the olny iprmoetnt tihng is that frist and lsat ltteer is at the rghit pclae. The rset can be a toatl mses and you can sitll raed it wouthit a porbelm”

Page 9: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Determinación de TES (Time-domain Entropy Signature)Firma de Audio basada en la entropía determinada en el dominio del tiempo.

1 nn HH

Por cada marco n de la señal de audio

Determina la entropía de Shannon

(Usando histogramas para estimar la probabilidades de las muestras)

Si

N

iiin ppH

1

)ln(

Agrega “1” a la firma

De lo contrario Agrega “0” a la firma

Page 10: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Las curvas de Entropía. ¡Problemas con la ecualización!

Page 11: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Determinación de MBSES

Entropigrama Huella de audio

Page 12: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Determinación de MBSES

Page 13: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Curvas de Entropía por banda crítica

Page 14: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Entropigramas

Page 15: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Huellas (MBSES) de segmentos de audio degradados

Page 16: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Experimento 1. Degradadas contra Degradadas 38 canciones completas Degradarlas mediante: Ecualización,

Escalamiento, Ruido, Regrabación, Filtrado) Cada canción se tiene en 6 versiones (228

archivos de audio) Compara los 228 archivos de audio entre

ellos (51984 comparaciones) Se utilizó la Distancia de Hamming

Page 17: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Matriz de Confusión MBSES. Experimento 1

Page 18: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Matriz de confusión TES Experimento 1

Page 19: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Matriz de confusión Haitsma-KalkerExperimento 1

Page 20: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Matriz de confusión MPEG-7Experimento 1

Page 21: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Análisis de sensibilidad de un clasificador

TNFPFP

FPR

FNTP

TPTPR

Ejemplo: 40,000 comparaciones, 4,000 entre instancias de una misma canciónY 36,000 entre canciones diferentes

True Positive Rate False Positive Rate

Para el ejemplo: TPR=3900/(3900+100)=0.975=97.5% FPR=50/(50+35950)=0.00125=0.125%

dist<umbral dist>umbral

Misma canción True Positive (TP) False Negative (FN)

Canción distinta False Positive (FP) True Negative (TN)

dist<umbral dist<umbral Totales

Misma canción TP=3900 FN=100 4,000 positivos

Canción distinta FP=50 TN=35,950 36,000 Negativos

Totales 3,950 36,050 40,000

Page 22: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Curvas ROC. Experimento 1

FNTPTP

TPR

TNFPFP

FPR

Page 23: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Porcentajes de precisión usando el valor umbral óptimo

LowPass EQ Loud Noisy LsMic

Original 100 100 100 100 100

LowPass 100 100 97 100

EQ 100 97 100

Loud 100 100

Noisy 95

LowPass EQ Loud Noisy Lsmic

Original 97 100 100 77 95

LowPass 100 100 71 90

EQ 100 76 87

Loud 77 95

Noisy 74

LowPass EQ Loud Noisy LsMic

Original 87 61 100 47 29

LowPass 55 87 32 32

EQ 61 24 21

Loud 45 29

Noisy 18

MBSES MPEG-7

Hatisma-Kalker

LowPass EQ Loud Noisy LsMic

Original 87 52 100 74 85

LowPass 52 87 61 74

EQ 42 26 42

Loud 74 55

Noisy 37

TES

FPTPTP

precision

Precisión. Cantidad de canciones correctamente identificadas entre el numero de consultas realizadas

Page 24: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Experimento 2. Buscar canciones en una colección grande 400 Canciones completas Degradar mediante: Ecualización, Escalamiento,

Ruido, Regrabación, Filtrado y Compresión con pérdidas

Por cada canción se tienen 7 versiones incluyendo a la original (2800 archivos de audio)

Buscar cada uno de los 2800 archivos de audio en una colección de 4000 canciones de géneros diversos usando el criterio del vecino mas cercano

Page 25: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Experimento 2 . (Buscar en una colección grande)

Precisión

Degradación TES MBSES MPEG-7

Ecualización 53.7 100 100

Contaminación por ruido (SNR 3 - 4 dB) 63.2 100 55.3

Regrabado 92.1 100 80

Filtrado pasa bajas (1KHz) 100 100 72.1

Compresión con pérdidas (32kbps) 100 100 100

Escalamiento (50%) 100 100 100

Page 26: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Experimento 3 (Buscar en una colección grande usando segmentos de 5 segundos) De una colección de 4000 canciones de géneros

diversos Degradar 400 de ellas mediante: Ecualización,

Escalamiento, Ruido, Regrabación, Filtrado y Compresión con pérdidas

Por cada archivo de audio degradado, elegir aleatoriamente un segmento de 5 segundos

Extraer la firma del segmento de 5 segundos de audio degradado

Busca secuencialmente la huella de audio al interior de cada una de la huellas de audio de la colección

Page 27: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

MBSES de segmentos de audio de 5 seg

Page 28: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Sub-MBSES más parecido

Page 29: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Diferencias entre MBSES de segmentos degradados y el Sub-MBSES mas parecido

Page 30: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Resultados Experimento 3. (Buscar en una colección grande usando segmentos de 5 segundos)

Porcentajes de precisión

Degradación MBSES MPEG-7 Haitsma-Kalker

Inicio Aleatorio (IA) 100 100 100

Ecualizacion e IA 100 100 40

Ruido e IA 100 63 20

Regrabado e IA 100 79 10

Filtro pasa bajas e IA 100 82 70

Compresión con pérdidas e IA 100 100 80

Escalamiento e IA 100 100 90

Page 31: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Polyphonic Audio Matching

Serenata # 13Mozart

El cascanuecesTchaikovsky

Page 32: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

MBSES de dos interpretaciones de la serenata #13 de Mozart

Page 33: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Doblado dinámico en tiempo

Page 34: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Levenshtein

Page 35: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Levenshtein en una sola columna y su uso en monitoreo de audio

Page 36: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

La sub-secuencia común mas larga (LCS)

Page 37: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Time-warped LCS

Page 38: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Curvas ROC usando MBSES para diferentes técnicas de alineamiento

Page 39: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Curvas ROC usando TES para diferentes técnicas de alineamiento

Page 40: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Curvas ROC usando MPEG-7 para diferentes técnicas de alineamiento

Page 41: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Precisión para todas las combinaciones Técnica de alineamiento/Huella de Audio

Page 42: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Conclusiones respecto a robustez MBSES es mas robusta que la Huella de MPEG-7

respecto a contaminación por ruido, regrabación y filtrado pasa bajas.

MBSES es mas robusta que TES respecto a ecualización, contaminación por ruido y regrabación.

MBSES es mas robusto que la huella de Haitsma y Kalker respecto a todas las degradaciones consideradas excepto inicio aleatorio donde ambas obtienen igual precisión.

Page 43: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Conclusiones

kbps

MBSES 0.13

Haitsma & Kalker 2.6

MPEG-7 0.76 - 4.6

TES 0.001

segs

MBSES 20

Haitsma & Kalker 24.5

MPEG-7 15.5

TES 8.5

Tamaño

Tiempos de extracción de huella para Una canción de duración 4:39 PC pentium 4 1.8 GHz 512 MB RAM

Escalabilidad: No hubo disminución de la precisiónEntre el experimento con 38 canciones y el experimento con 4000 canciones

MBSES resulto ser una huella mas adecuada para identificar una canciónutilizando para ello otra interpretaciónde la misma. Especialmente al combinarse con la distancia de la subsecuencia común mas larga (LCS)

Polyphonic Audio Matching:

Page 44: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Trabajo futuro

Probar con otras formas de estimar la cantidad de información contenida en una señal

N

kkR pH

1

log11

SR HH 1lim

Shannon demostró que la cantidad de información en señales discretas generadas por procesos sin memoria podía ser calculada utilizando la fórmulade la entropía de Boltzman. Sin embargo, las medidas de información han sidorecientemente extendidas a procesos aleatorios mas generales.

Page 45: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Trabajo futuro

Diseño de un índice adecuado para recuperar la canción a la que corresponde un segmento degradado de 5 segundos.

Uso de la entropía espectral multi-banda en reconocimiento de voz

Page 46: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Indice invertido

Page 47: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Locality Sensitivity Hashing (LSH)

Page 48: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Una instancia LSH

Page 49: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Transformada Hough

Page 50: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Modelo de modulación de amplitud (AM)

5c

2.0m

tttx cm cos)cos1()(

5.0m

t=0:.01:50;

Page 51: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Frecuencia de modulación y frecuencia acústica

Frecuencia deModulación

Frecuencia acústica

Page 52: Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Entendiendo la degradación por inicio aleatorio