Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola

Identificación Automática de Señales de Audio

José Antonio Camarena Ibarrola

Aplicaciones:

Acompañamiento automático Monitoreo de anuncios publicitarios Detección de duplicados Llenado automático de meta-datos Filtrado en redes p2p Consulta mediante grabación QBH

Esquema de Identificación de Audio

Características de una Huella de Audio Robustez (Ruido, Ecualización, compresión

con pérdidas, inicio aleatorio, filtrado, escalamiento)

Granularidad Complejidad Escalabilidad Tamaño

Extracción de Huellas de Audio

La Huella de MPEG-7

La Huella de Haitsma & Kalker (Philips’ Research Lab)

Motivación para usar entropía para construir huellas de audio robustas Previo uso de la entropía para reconocimiento de imágenes Previo uso de la entropía para segmentación de voz en

ambientes ruidososos Realizamos experimentos con la ubicación de la máxima

entropía en una canción. Realizamos experimentos relativos a señales de audio alteradas

pero con la misma entropía instantánea “Aoccdrnig to a rsecheearr at an Elingsh uinervtisy, it deosn't

mttaer in waht oredr the ltteers in a wrod are, the olny iprmoetnt tihng is that frist and lsat ltteer is at the rghit pclae. The rset can be a toatl mses and you can sitll raed it wouthit a porbelm”

Determinación de TES (Time-domain Entropy Signature)Firma de Audio basada en la entropía determinada en el dominio del tiempo.

1 nn HH

Por cada marco n de la señal de audio

Determina la entropía de Shannon

(Usando histogramas para estimar la probabilidades de las muestras)

Si

N

iiin ppH

1

)ln(

Agrega “1” a la firma

De lo contrario Agrega “0” a la firma

Las curvas de Entropía. ¡Problemas con la ecualización!

Determinación de MBSES

Entropigrama Huella de audio

Determinación de MBSES

Curvas de Entropía por banda crítica

Entropigramas

Huellas (MBSES) de segmentos de audio degradados

Experimento 1. Degradadas contra Degradadas 38 canciones completas Degradarlas mediante: Ecualización,

Escalamiento, Ruido, Regrabación, Filtrado) Cada canción se tiene en 6 versiones (228

archivos de audio) Compara los 228 archivos de audio entre

ellos (51984 comparaciones) Se utilizó la Distancia de Hamming

Matriz de Confusión MBSES. Experimento 1

Matriz de confusión TES Experimento 1

Matriz de confusión Haitsma-KalkerExperimento 1

Matriz de confusión MPEG-7Experimento 1

Análisis de sensibilidad de un clasificador

TNFPFP

FPR

FNTP

TPTPR

Ejemplo: 40,000 comparaciones, 4,000 entre instancias de una misma canciónY 36,000 entre canciones diferentes

True Positive Rate False Positive Rate

Para el ejemplo: TPR=3900/(3900+100)=0.975=97.5% FPR=50/(50+35950)=0.00125=0.125%

dist<umbral dist>umbral

Misma canción True Positive (TP) False Negative (FN)

Canción distinta False Positive (FP) True Negative (TN)

dist<umbral dist<umbral Totales

Misma canción TP=3900 FN=100 4,000 positivos

Canción distinta FP=50 TN=35,950 36,000 Negativos

Totales 3,950 36,050 40,000

Curvas ROC. Experimento 1

FNTPTP

TPR

TNFPFP

FPR

Porcentajes de precisión usando el valor umbral óptimo

LowPass EQ Loud Noisy LsMic

Original 100 100 100 100 100

LowPass 100 100 97 100

EQ 100 97 100

Loud 100 100

Noisy 95

LowPass EQ Loud Noisy Lsmic

Original 97 100 100 77 95

LowPass 100 100 71 90

EQ 100 76 87

Loud 77 95

Noisy 74


Original 87 61 100 47 29

LowPass 55 87 32 32

EQ 61 24 21

Loud 45 29

Noisy 18

MBSES MPEG-7

Hatisma-Kalker


Original 87 52 100 74 85

LowPass 52 87 61 74

EQ 42 26 42

Loud 74 55

Noisy 37

TES

FPTPTP

precision

Precisión. Cantidad de canciones correctamente identificadas entre el numero de consultas realizadas

Experimento 2. Buscar canciones en una colección grande 400 Canciones completas Degradar mediante: Ecualización, Escalamiento,

Ruido, Regrabación, Filtrado y Compresión con pérdidas

Por cada canción se tienen 7 versiones incluyendo a la original (2800 archivos de audio)

Buscar cada uno de los 2800 archivos de audio en una colección de 4000 canciones de géneros diversos usando el criterio del vecino mas cercano

Experimento 2 . (Buscar en una colección grande)

Precisión

Degradación TES MBSES MPEG-7

Ecualización 53.7 100 100

Contaminación por ruido (SNR 3 - 4 dB) 63.2 100 55.3

Regrabado 92.1 100 80

Filtrado pasa bajas (1KHz) 100 100 72.1

Compresión con pérdidas (32kbps) 100 100 100

Escalamiento (50%) 100 100 100

Experimento 3 (Buscar en una colección grande usando segmentos de 5 segundos) De una colección de 4000 canciones de géneros

diversos Degradar 400 de ellas mediante: Ecualización,

Escalamiento, Ruido, Regrabación, Filtrado y Compresión con pérdidas

Por cada archivo de audio degradado, elegir aleatoriamente un segmento de 5 segundos

Extraer la firma del segmento de 5 segundos de audio degradado

Busca secuencialmente la huella de audio al interior de cada una de la huellas de audio de la colección

MBSES de segmentos de audio de 5 seg

Sub-MBSES más parecido

Diferencias entre MBSES de segmentos degradados y el Sub-MBSES mas parecido

Resultados Experimento 3. (Buscar en una colección grande usando segmentos de 5 segundos)

Porcentajes de precisión

Degradación MBSES MPEG-7 Haitsma-Kalker

Inicio Aleatorio (IA) 100 100 100

Ecualizacion e IA 100 100 40

Ruido e IA 100 63 20

Regrabado e IA 100 79 10

Filtro pasa bajas e IA 100 82 70

Compresión con pérdidas e IA 100 100 80

Escalamiento e IA 100 100 90

Polyphonic Audio Matching

Serenata # 13Mozart

El cascanuecesTchaikovsky

MBSES de dos interpretaciones de la serenata #13 de Mozart

Doblado dinámico en tiempo

Levenshtein

Levenshtein en una sola columna y su uso en monitoreo de audio

La sub-secuencia común mas larga (LCS)

Time-warped LCS

Curvas ROC usando MBSES para diferentes técnicas de alineamiento

Curvas ROC usando TES para diferentes técnicas de alineamiento

Curvas ROC usando MPEG-7 para diferentes técnicas de alineamiento

Precisión para todas las combinaciones Técnica de alineamiento/Huella de Audio

Conclusiones respecto a robustez MBSES es mas robusta que la Huella de MPEG-7

respecto a contaminación por ruido, regrabación y filtrado pasa bajas.

MBSES es mas robusta que TES respecto a ecualización, contaminación por ruido y regrabación.

MBSES es mas robusto que la huella de Haitsma y Kalker respecto a todas las degradaciones consideradas excepto inicio aleatorio donde ambas obtienen igual precisión.

Conclusiones

kbps

MBSES 0.13

Haitsma & Kalker 2.6

MPEG-7 0.76 - 4.6

TES 0.001

segs

MBSES 20

Haitsma & Kalker 24.5

MPEG-7 15.5

TES 8.5

Tamaño

Tiempos de extracción de huella para Una canción de duración 4:39 PC pentium 4 1.8 GHz 512 MB RAM

Escalabilidad: No hubo disminución de la precisiónEntre el experimento con 38 canciones y el experimento con 4000 canciones

MBSES resulto ser una huella mas adecuada para identificar una canciónutilizando para ello otra interpretaciónde la misma. Especialmente al combinarse con la distancia de la subsecuencia común mas larga (LCS)

Polyphonic Audio Matching:

Trabajo futuro

Probar con otras formas de estimar la cantidad de información contenida en una señal

N

kkR pH

1

log11

SR HH 1lim

Shannon demostró que la cantidad de información en señales discretas generadas por procesos sin memoria podía ser calculada utilizando la fórmulade la entropía de Boltzman. Sin embargo, las medidas de información han sidorecientemente extendidas a procesos aleatorios mas generales.

Trabajo futuro

Diseño de un índice adecuado para recuperar la canción a la que corresponde un segmento degradado de 5 segundos.

Uso de la entropía espectral multi-banda en reconocimiento de voz

Indice invertido

Locality Sensitivity Hashing (LSH)

Una instancia LSH

Transformada Hough

Modelo de modulación de amplitud (AM)

5c

2.0m

tttx cm cos)cos1()(

5.0m

t=0:.01:50;

Frecuencia de modulación y frecuencia acústica

Frecuencia deModulación

Frecuencia acústica

Entendiendo la degradación por inicio aleatorio

Documents

Identificación Automática de Señales de Audio José Antonio Camarena Ibarrola