Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research...

Preview:

Citation preview

Mel Frequency Cepstral Coefficients for Music Modeling

Autores : Beth Logan

Cambridge Research Laboratory ISMIR - 2003

O que são Mel Frequency Cepstral Coefficients ?

MFCC são geralmente usados como features de sistemas de reconhecimento de fala.

Um exemplo seria um sistema de SAC que pode reconhecer automaticamente números falados em um telefone.

Introdução

Neste trabalho foi examinado com alguns detalhes Mel Frequency Cepstral Coefficients ( MFCCs ), que são features dominantes usadas no reconhecimento da fala.

Investigamos a aplicabilidade destas features na modelagem musical.

. A composição espectral de um sinal contém muita informação.

. São features sensíveis ao ruído.

Introdução

MFCCs são features de curto prazo, elas são calculadas como segue:

1 – Divide o sinal em Frames. 2 - Para cada Frame, obtém a amplitude do

espectro. 3 – Aplica-se logaritmo. 4 – Aplica-se DCT ( Discrete Cosine Transform ) .

Introdução

Examinamos 2 dos principais pressupostos no processo de formação de MFCC:

1 - A utilização de Mel Frequency scale para modelar o espectro.

2 - Discrete Cosine Transform (DCT ) para “decorrelate” Mel-spectral vectors.

MFCC for Speech Recognition

MFCC são as features dominantes utilizadas no reconhecimento da fala.

Seu sucesso é devido a capacidade de representar a amplitude do espectro da fala de uma forma compacta.

MFCC for Speech Recognition

MFCC for Speech Recognition

A escala Mel é baseada em um mapeamento entre a frequência real e o pitch aparentemente percebido do sistema auditivo humano.

MFCCs for Music Analysis

Como visto anteriormente o processo de cálculo de MFFCs para fala consiste em 5 etapas:

.Dividir o sinal em frames

.Obter a amplitude do espectro .Transformar para Logaritimo .Converter para espectro Mel .Aplicar DCT

Vamos procurar determinar se este processo é adequado na criação de features para um modelo musical

Mel vs Linear Spectral Modeling

Para investigar se é apropriado para determinar o spectrum da música usando a escala mel, usamos um áudio de speech/music simples.

Temos disponíveis cerca de 3 horas de dados rotulados de um programa de transmissão de rádio.

O programa contém entrevistas, comerciais e uma série de segmentos de músicas.

Mel vs Linear Spectral Modeling

Os dados são divididos da seguinte maneira :

.2 horas de dados de treino - 10% rotulados como música.

. 40 minutos de dados de teste - 14 % rotulados como música.

Mel vs Linear Spectral Modeling

Nós convertemos os dados de treinamento para a escala ‘Mel’ e para ‘um Linear Spectral Modeling’.

Usando uma versão padrão de algoritmos EM ( Expectation – Maximization ) nos treinamos uma mistura de Classificadores Gaussianos para rotular segmentos de fala/música dos dados de treinamento.

Mel vs Linear Spectral Modeling

Using the DCT to Approximate the KL Transform

Oque é um Karhumen – Loève ?

A KL é uma transformação linear que permite a representação de funções utilizando funções-base formadas pelos “eigenVectors” ( autovetores) da matriz de correlação do sinal.

A KL é uma transformação linear que geralmente é realizada para encontrar ‘eigenValues” ( autovalores ) da matriz de covariância.

KL Transform

A transformação KL converte um vetor u de dimensão m em um vetor v de dimensão n onde :

. n <= m e v é “uncorrelated”

. Isso é expresso como : v = Ou

KL Transform

Obs : The speech used is the trainning set for TIMIT( Garofolo et al. 1993) which is a speaker independent, clean speech database ( 3 hours of speech ).

Usando DCT

Na comunidade de reconhecimento de fala é usado um DCT ( Discrete Cosine Transform ) para aproximar da transformação KL.

A transformação é escrita como : c = Du

onde c é o coeficiente cepstral de u e D que é n x m matrix of cosine basis.

Usando DCT Pelos nossos estudos, observamos que o DCT está próximo do

ótimo para a função de “decorrelated” para fala.

KL transform for music spectra

Vamos agora examinar a transformação KL para música.

A figura a seguir mostra os “eigenValues” e os 15 primeiros “eigenVectors” para uma sequência de Mel Log Spectral vectores coletados de Músicas dos Beatles (289 minutos de música no total).

KL transform for music spectra

Conclusão

Neste paper, procurou-se construir um caso de sucesso na comunidade de reconhecimento de fala pela investigação de como aplicável é, usar features dominantes da fala (spectral features ) para a modelagem de música.

Referências

Foote, J.T. (1997), Content-based retrieval of music and audio, in ‘SPIE’,pp. 138-147.

Garolfo, J.S. Et al. (1993), Darpa timit. acoustic-phonetic continuous speech corpus. Nistir 4930, Technical report, DARPA.

Logan, B. T. & Chu, S. (2000), Music summarization using key phrases, in ‘Proceedings IEEE International Conference in Spoken Language Processing’

EigenValues and EingenVectors

Vejamos um exemplo de eigenValue e EigenVector:

Se vc for perguntado se é um eigenVector correspondente do

eigenValue para voce pode descobrir, subistituindo x, e A na equação :

Recommended