Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research...

Mel Frequency Cepstral Coefficients for Music Modeling

Autores : Beth Logan

Cambridge Research Laboratory ISMIR - 2003

O que são Mel Frequency Cepstral Coefficients ?

MFCC são geralmente usados como features de sistemas de reconhecimento de fala.

Um exemplo seria um sistema de SAC que pode reconhecer automaticamente números falados em um telefone.

Introdução

Neste trabalho foi examinado com alguns detalhes Mel Frequency Cepstral Coefficients ( MFCCs ), que são features dominantes usadas no reconhecimento da fala.

Investigamos a aplicabilidade destas features na modelagem musical.

. A composição espectral de um sinal contém muita informação.

. São features sensíveis ao ruído.

Introdução

MFCCs são features de curto prazo, elas são calculadas como segue:

1 – Divide o sinal em Frames. 2 - Para cada Frame, obtém a amplitude do

espectro. 3 – Aplica-se logaritmo. 4 – Aplica-se DCT ( Discrete Cosine Transform ) .

Introdução

Examinamos 2 dos principais pressupostos no processo de formação de MFCC:

1 - A utilização de Mel Frequency scale para modelar o espectro.

2 - Discrete Cosine Transform (DCT ) para “decorrelate” Mel-spectral vectors.

MFCC for Speech Recognition

MFCC são as features dominantes utilizadas no reconhecimento da fala.

Seu sucesso é devido a capacidade de representar a amplitude do espectro da fala de uma forma compacta.

MFCC for Speech Recognition

A escala Mel é baseada em um mapeamento entre a frequência real e o pitch aparentemente percebido do sistema auditivo humano.

MFCCs for Music Analysis

Como visto anteriormente o processo de cálculo de MFFCs para fala consiste em 5 etapas:

.Dividir o sinal em frames

.Obter a amplitude do espectro .Transformar para Logaritimo .Converter para espectro Mel .Aplicar DCT

Vamos procurar determinar se este processo é adequado na criação de features para um modelo musical

Mel vs Linear Spectral Modeling

Para investigar se é apropriado para determinar o spectrum da música usando a escala mel, usamos um áudio de speech/music simples.

Temos disponíveis cerca de 3 horas de dados rotulados de um programa de transmissão de rádio.

O programa contém entrevistas, comerciais e uma série de segmentos de músicas.

Os dados são divididos da seguinte maneira :

.2 horas de dados de treino - 10% rotulados como música.

. 40 minutos de dados de teste - 14 % rotulados como música.

Nós convertemos os dados de treinamento para a escala ‘Mel’ e para ‘um Linear Spectral Modeling’.

Usando uma versão padrão de algoritmos EM ( Expectation – Maximization ) nos treinamos uma mistura de Classificadores Gaussianos para rotular segmentos de fala/música dos dados de treinamento.

Using the DCT to Approximate the KL Transform

Oque é um Karhumen – Loève ?

A KL é uma transformação linear que permite a representação de funções utilizando funções-base formadas pelos “eigenVectors” ( autovetores) da matriz de correlação do sinal.

A KL é uma transformação linear que geralmente é realizada para encontrar ‘eigenValues” ( autovalores ) da matriz de covariância.

KL Transform

A transformação KL converte um vetor u de dimensão m em um vetor v de dimensão n onde :

. n <= m e v é “uncorrelated”

. Isso é expresso como : v = Ou

KL Transform

Obs : The speech used is the trainning set for TIMIT( Garofolo et al. 1993) which is a speaker independent, clean speech database ( 3 hours of speech ).

Usando DCT

Na comunidade de reconhecimento de fala é usado um DCT ( Discrete Cosine Transform ) para aproximar da transformação KL.

A transformação é escrita como : c = Du

onde c é o coeficiente cepstral de u e D que é n x m matrix of cosine basis.

Usando DCT Pelos nossos estudos, observamos que o DCT está próximo do

ótimo para a função de “decorrelated” para fala.

KL transform for music spectra

Vamos agora examinar a transformação KL para música.

A figura a seguir mostra os “eigenValues” e os 15 primeiros “eigenVectors” para uma sequência de Mel Log Spectral vectores coletados de Músicas dos Beatles (289 minutos de música no total).

KL transform for music spectra

Conclusão

Neste paper, procurou-se construir um caso de sucesso na comunidade de reconhecimento de fala pela investigação de como aplicável é, usar features dominantes da fala (spectral features ) para a modelagem de música.

Referências

Foote, J.T. (1997), Content-based retrieval of music and audio, in ‘SPIE’,pp. 138-147.

Garolfo, J.S. Et al. (1993), Darpa timit. acoustic-phonetic continuous speech corpus. Nistir 4930, Technical report, DARPA.

Logan, B. T. & Chu, S. (2000), Music summarization using key phrases, in ‘Proceedings IEEE International Conference in Spoken Language Processing’

EigenValues and EingenVectors

Vejamos um exemplo de eigenValue e EigenVector:

Se vc for perguntado se é um eigenVector correspondente do

eigenValue para voce pode descobrir, subistituindo x, e A na equação :

Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research...

Documents

Speech Recognition using MFCC - Semantic Scholar · 2017-11-29 · Abstract— This paper describes an approach of speech recognition by using the Mel-Scale Frequency Cepstral Coefficients

Evaluation of Synchronized Damped Oscillator Cepstral Coe

Representing Acoustics with Mel Frequency Cepstral Coefficients

Evaluation of implicit emotion in the message through emotional …icssjournal.ir/article-1-1082-en.pdf · Mel-frequency Cepstral coefficients Emotional speech processing Corresponding

Glottis Lips Tongue Linear versus Mel Frequency Cepstral ...users.umiacs.umd.edu/~ramani/pubs/Xinhui_ASRU2011_LFCC_vs_MFCC_v19.pdf · MFCC and LFCC (Linear frequency cepstral coefficients)

One Solution of Extension of Mel-Frequency Cepstral

Cepstral Analysis of Connected Speech of Hypokinetic Dysarthria

2017 MuellerWeiss ISMIR MusicRep

Speech Processing and Understanding CSC401 …frank/csc401/tutorials/a3_tutorial1_2018.pdf5 Mel-frequency cepstral coefficients In real speech data, the spectrogram is often transformed

L9: Cepstral analysis

Análisis cepstral y la transformada de Hilbert-Huang para ... · Cepstral Analysis and Hilbert-Huang Transform for Automatic Detection of Parkinson’s Disease . Análisis cepstral

Harmonic Sequences Episodes Ismir 2012 Ggl

Classification of Musical Sounds by Timbre Using Cepstral ...williambrent.conflations.com/papers/class_cepstrum.pdf · Table of Contents 1.1 Introduction 1 2.1 Cepstral Analysis 5

8 Cepstral Analysis

Heart Murmur Detection using Ensemble Empirical Mode ...Heart Murmur Detection using Ensemble Empirical Mode Decomposition and Derivations of the Mel-Frequency Cepstral Coefficients

Aalborg Universitet DNN Filter Bank Cepstral Coefficients

Musicology - Cuthbert Ariza ISMIR 2010

Novel cochlear filter based cepstral coefficients for classification of unvoiced fricatives

Birds Individual Automatic Recognition€¦ · NN Neural Networks PLP Perceptual Linear Prediction PLPCC Perceptual Linear Prediction Cepstral Coefficients PNN Probabilistic Neural

MENGGUNAKAN LEARNING VECTOR QUANTIZATION ... - …kc.umn.ac.id/1185/1/HALAMAN AWAL.pdfMENGGUNAKAN LEARNING VECTOR QUANTIZATION DAN MEL-FREQUENCY CEPSTRAL COEFFICIENTS . ABSTRAK Dunstan