76
Universidade Federal de Pernambuco Centro de Informática Mestrado em Ciência da Computação Descritor de Voz Invariante ao Ruído Hesdras Oliveira Viana Dissertação de Mestrado Recife 26-02-2013

Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

Embed Size (px)

Citation preview

Page 1: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

Universidade Federal de PernambucoCentro de Informática

Mestrado em Ciência da Computação

Descritor de Voz Invariante ao Ruído

Hesdras Oliveira Viana

Dissertação de Mestrado

Recife26-02-2013

Page 2: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

Universidade Federal de PernambucoCentro de Informática

Hesdras Oliveira Viana

Descritor de Voz Invariante ao Ruído

Trabalho apresentado ao Programa de Mestrado em Ciên-cia da Computação do Centro de Informática da Universi-dade Federal de Pernambuco como requisito parcial paraobtenção do grau de Mestre em Ciência da Computação.

Orientador: Prof. Dr. Carlos Alexandre Barros de Mello

Recife26-02-2013

Page 3: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

Catalogação na fonte Bibliotecária Jane Souto Maior, CRB4-571

Viana, Hesdras Oliveira Descritor de voz invariante ao ruído. / Hesdras Oliveira Viana. - Recife: O Autor, 2013. xii, 62 folhas: fig., tab. Orientador: Carlos Alexandre Barros de Mello.

Dissertação (mestrado) - Universidade Federal de Pernambuco. CIn, Ciência da Computação, 2013.

Inclui bibliografia. 1. Inteligência artificial. 2. Processamento de voz. I. Mello, Carlos Alexandre Barros de (orientador). II. Título. 006.3 CDD (23. ed.) MEI2013 – 061

Page 4: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

Dissertação de Mestrado apresentada por Hesdras Oliveira Viana à Pós-Graduação em Ciência

da Computação do Centro de Informática da Universidade Federal de Pernambuco, sob o título

“Descritor de Voz Invariante ao Ruído” orientado pelo Prof. Carlos Alexandre Barros de Mello

e aprovada pela Banca Examinadora formada pelos professores:

__________________________________ Prof. Tsang Ing Ren

Centro de Informática / UFPE

___________________________________ Prof. Francisco Madeiro Bernardino Junior Escola Politécnica de Pernambuco / UPE

_________________________________ Prof. Carlos Alexandre Barros de Mello

Centro de Informática / UFPE

Visto e permitida a impressão. Recife, 26 de fevereiro de 2013.

_________________________________

Profa. Edna Natividade da Silva Barros Coordenadora da Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco.

Page 5: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

Dedico esse trabalho aos meus pais, Nivaldo Viana eMiralva Santos, aos meus irmãos, Rondinelli Viana eNivaldo Júnior, a minha tia,Valda Santos, e a minha

namorada, Karla Abobreira. A todos eu dedico.

Page 6: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

Agradecimentos

Agradeço primeiramente a Deus, que me deu sabedoria e força para seguir em frente sempremostrando-me o caminho correto. Obrigado, Meu Pai Celestial, pela dádiva!

Agradeço aos meus heróis, comumente chamados de pai e mãe, Nivaldo Morais Viana eMiralva Santos de Oliveira Viana, por fazerem sacrifícios inimagináveis em prol da minhaeducação. Não tenho palavras para agradecê-los. Muito Obrigado por serem meus espelhos,por me incentivar nos momentos de desânimo, por me fazer acreditar no inacreditável e comisso poder sorrir no final.

Agradeço as minhas tias e tios, em especial Valda Santos, por me mostrar o caminho da ver-dade, pelo apoio e vibração inconteste. Tia, você é o sinônimo da felicidade. Muito Obrigadopor existir em minha vida!

Agradeço aos meus irmãos, Rondinelli Oliveira Viana e Nivaldo Morais Viana Júnior, pelosconselhos sábios. Obrigado irmãos, vocês foram peças fundamentais nessa minha jornada!

Agradeço a minha namorada, Karla Conceição Abobreira, pelo carinho, compreensão epaciência ao longo da minha jornada. Obrigado Amor, sem você nada disso seria possível!

Agradeço ao meu orientador, Dr. Carlos Alexandre Barros de Mello, por ajudar-me a con-cretizar um sonho, sendo sempre paciente, presente e muito dedicado. Obrigado Carlos, agoraeu sei o que é ser pesquisador!

Agradeço aos meus professores da graduação na Universidade Estadual do Sudoeste daBahia, em especial ao professor Dr. Roque Mendes Prado Trindade, por abrir os caminhos dapesquisa. Muito Obrigado por acreditar nos meus sonhos!

Agradeço aos meus professores do mestrado, por me conduzir ao longo dessa jornada.Obrigado, Mestres!

Agradeço aos grupos de pesquisas VIISAR e SIAC, pelos estudos na área de reconheci-mento de voz. Muito Obrigado!

Agradeço a todos que, direta ou indiretamente, contribuíram no meu mestrado. MuitoObrigado!

iv

Page 7: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

Resumo

Extrair características da fala é uma etapa fundamental para os sistemas de reconhecimentode voz. É através dos descritores que extraímos a energia do sinal, a frequência fundamental(pitch) e a estrutura dos formantes que serão utilizados como identificadores para cada palavrapronunciada. Descritores como MFCC (Mel-Frequency Cepstral Coefficient), RASTA-PLP(RelAtive SpecTrAl - Perceptual Linear Predictive) e PNCC (Power Normalized Cepstral Coef-ficient) são muitos utilizados no estado da arte na área de reconhecimento de voz, porém, essastécnicas não conseguem apresentar bons resultados quando expostos a amostras com presençade ruído, variabilidade de locutor e fala contínua. O objetivo deste trabalho é desenvolver umdescritor para a fala que seja invariante ao ruído, ambiente e locução. Para isso, fizemos umestudo dos descritores de voz mais utilizados na literatura, identificando as vantagens e desvan-tagens, expondo a situações variadas. Para avaliação das técnicas, utilizamos a base NOIZEUS(Noisy Speech Corpus) e dois classificadores: HMM (Hidden Markov Models) e SVM (Sup-port Vector Machine). Essa base tem como característica a presença de ruído variando de 0dB,5dB, 10dB e 15dB, gravada em diversos ambientes. A utilização dos classificadores serviupara validar os descritores de voz. O descritor proposto, chamado de MINERS (Model Inva-riant to Noise and Environment and Robust for Speech), apresentou melhores resultados entretodos os descritores avaliados (MFCC, MFCC combinado com Wavelet Denoising, RASTA-PLP e PNCC). A abordagem que obteve maior sucesso foi a utilização do MINERS com oclassificador SVM.

Palavras-chave: Processamento de Voz, Descritores de Voz, MFCC, PNCC, RASTA-PLP.

v

Page 8: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

Abstract

Speech features extracting is a fundamental step for speech recognition systems. It isthrough the descriptors that it is possible to extract features as the signal energy, fundamentalfrequency (pitch) and formants structure that can be used as identifiers for each spoken word.Descriptors such as MFCC (Mel Frequency Cepstral Coefficient), RASTA-PLP (RelAtive Spec-TrAl Perceptual Linear Predictive) and PNCC (Power Normalized Cepstral Coefficient) arecommonly used in the state-of-the-art for speech recognition. However, these descriptors failto provide good results when exposed to noisy samples, speaker variability and continuousspeech. The objective of this work is to develop a descriptor for speech that is invariant tonoise, environment and speaker. For this, we analysed some well known speech descrip-tors, identifying their advantages and disadvantages, and exposing them to several differentsituations. To review the techniques, we used the NOIZEUS (Noisy Speech Corpus) data-base and two classifiers: HMM (Hidden Markov Models) and SVM (Support Vector Machine).This database is characterized by the presence of 0dB, 5dB, 10dB and 15dB noise, with speechsignals recorded in various environments. The use of the classifiers have served to validate thedescriptors for speech. The proposed descriptor, called MINERS (Model Invariant to Noise andEnvironment and Robust for Speech), have presented better results among all other evaluateddescriptor (MFCC, MFCC combined with Wavelet Denoising, RASTA-PLP and PNCC). Themost successful approach was obtained using the MINERS with SVM classifier.

Keywords: Speech Recognition, Speech Feature Extracting, MFCC, PNCC, RASTA-PLP.

vi

Page 9: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

Sumário

1 Introdução 11.1 Objetivos 2

1.1.1 Objetivo Geral 21.1.2 Objetivos Específicos 2

1.2 Breve Histórico dos Reconhecedores da Fala 31.3 Reconhecimento Automático da Fala 51.4 Estrutura do Documento 8

2 Fonética e Fonologia 92.1 Produção da voz 92.2 Fonética Articulatória 10

2.2.1 Formação das Vogais 112.2.2 Formação das Consoantes 12

2.3 Unidades Menores que Palavra 14

3 Descritores de Voz 163.1 Parâmetros da Fala 163.2 MFCC e MFCC com Wavelet Denoising 203.3 PLP e RASTA-PLP 253.4 PNCC 31

4 Método Proposto: MINERS 374.1 Classificação do sinal como ruidoso ou não 374.2 Wavelet+PNCC2 42

4.2.1 Pré-Processamento 434.2.2 Decomposição do Sinal 434.2.3 Wavelet Denoising 454.2.4 Filtros Gammatone 454.2.5 Mascaramento Temporal 454.2.6 DCT 464.2.7 Média da Normalização 46

5 Experimentos 485.1 Base 485.2 Experimento 1: HMM 485.3 Experimento 2: SVM 51

vii

Page 10: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

SUMÁRIO viii

5.4 Análise 52

6 Conclusão 55

Hesdras
Typewriter
Referências 57
Hesdras
Typewriter
Hesdras
Typewriter
Hesdras
Typewriter
Page 11: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

Lista de Figuras

1.1 Fonemas utilizados no desenvolvimento do sistema de reconhecimento de fo-nemas japoneses, utilizado por Sakay e Doshita [13]. 4

1.2 Diagrama do sistema de reconhecimento de fonemas japoneses, utilizado porSakay e Doshita [13]. 5

1.3 Esquema hierárquico dos sistemas de processamento da fala. Adaptada de [28]. 61.4 Conversão analógico digital. Adaptada de [32]. 7

2.1 Os Sistemas: Respiratório, Fonatório e Articulatório. Adaptada de [29]. 92.2 Trato vocal. Adaptada de [33]. 102.3 Trapézio vocálico. Adaptada de [36]. 112.4 Classificação das vogais de acordo a tabela IPA1. 12

3.1 Janelas de Hamming aplicadas a um sinal. 173.2 Sobreposição das janelas de Hamming. Adaptada de [48]. 183.3 Transformada de Fourier aplicada a frase “The birch canoe slid on the smooth

planks”. 193.4 Transformada de Fourier aplicada a frase “The birch canoe slid on the smooth

planks” com presença de ruído a 0dB. 193.5 Espectrograma da STFT para a frase “The birch canoe slid on the smooth planks”. 203.6 Espectrograma da STFT para a frase “The birch canoe slid on the smooth

planks” com presença de ruído a 0dB. 213.7 Diagrama para o cálculo do MFCC. Adaptada de [52]. 223.8 Banco de Filtro Triangular. 223.9 Etapas para a combinação do descritor MFCC com o Wavelet Denoising. 233.10 Decréscimo da energia dos coeficientes MFCC para a frase “The birch canoe

slid on the smooth planks”. 243.11 Descrição da fala utilizando o MFCC sem presença de ruído. 253.12 Descrição da fala utilizando o MFCC na presença de ruído a 0dB gravado em

um aeroporto. 263.13 Representação das bandas-críticas. Adaptada de [60]. 273.14 Curva de Pré-Ênfase. Adaptada de [60]. 293.15 Etapas do algoritmo RASTA-PLP. 303.16 Extração de características com RASTA-PLP. 313.17 Extração de características com RASTA-PLP em amostra ruidosa com 0dB. 313.18 Banco de Filtros Gammatone. Adaptada de [66]. 323.19 Estrutura do PNCC. Adaptada de [8]. 34

ix

Page 12: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

LISTA DE FIGURAS x

3.20 Estrutura do MFCC, RASTA-PLP e PNCC. 353.21 Espectrograma do algoritmo PNCC para amostra sem ruído. A frase pronunci-

ada foi “The birch canoe slid on the smooth planks”. 353.22 Espectrograma do algoritmo PNCC em amostra ruidosa com 0dB. A frase pro-

nunciada foi “The birch canoe slid on the smooth planks”. 36

4.1 Fluxograma do algoritmo MINERS. 374.2 Wavelet combinado com PNCC2. 384.3 Transformada de Fourier de um sinal (a) sem ruído e (b) com ruído a 5dB. 394.4 MFCC de um sinal (a) sem ruído e (b) com ruído a 5dB. 394.5 Outro exemplo do cálculo da MFCC de um sinal de voz (a) sem ruído e (b)

com ruído. 404.6 Binarização dos tons avermelhados dos sinais apresentados nas Figuras (a)

4.4.a (sinal sem ruído) e (b) 4.4.b (sinal com ruído). 414.7 Resultado da aplicação de uma operação de fechamento morfológico nas ima-

gens das Figuras (a) 4.6.a e (b) 4.6.b. 414.8 Componentes de aproximação e detalhes de um sinal obtidos através de filtros

passa-baixa e passa-alta. 424.9 Exemplos de funções Wavelets da família Daubechies. 434.10 Árvore de decomposição de três níveis. 444.11 Decomposição da frase “The birch canoe slid on the smooth planks” em três

níveis. 444.12 Wavelet Denoising. 454.13 Mascaramento Temporal. 464.14 Sinal da fala (a) e aplicação do DCT (b). 47

5.1 Quantidade de fonemas pronunciados para cada classificação articulatória. Adap-tada de Hu[75]. 49

5.2 Resposta em frequência do filtro IRS. 495.3 MFCC da frase “The set of china hit the floor with a cras”. 535.4 Binarização dos tons avermelhados do sinal apresentado na Figura 5.3 con-

forme descrito no algoritmo. 545.5 Resultado da aplicação da operação de fechamento morfológico na imagem da

Figura 5.4 conforme descrito no algoritmo. 54

Page 13: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

Lista de Tabelas

1.1 Aspectos para os sistemas de reconhecimento da fala. Adaptada de [3]. 2

5.1 Lista das frases presente na base NOIZEUS. 505.2 Taxa de acerto dos descritores MINERS, MFCC, MFCC com Wavelet Denoi-

sing, PNCC e RASTA-PLP utilizando HMM. 515.3 Taxa de acerto dos descritores MINERS, MFCC, MFCC com Wavelet Denoi-

sing, PNCC e RASTA-PLP utilizando SVM. 52

xi

Page 14: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

Lista de Siglas

HMM Hidden Markov ModelMFCC Mel-Frequency Cepstral CoefficientsLPC Linear Predictive CodesPNCC Power-Normalized Cepstral CoefficientSVM Support Vector MachinePCM Pulse Code ModulationLD-CELP Low Delay Codebook Excited Linear PredictionIPA International Phonetic AlphabetPLP Perceptual Linear PredictiveRASTA-PLP RelAtive SpecTrAl - Perceptual Linear PredictiveSTFT Short Time Fourier TransformFFT Fast Fourier TransformDCT Discrete Cosine TransformMINERS Model Invariant to Noise and Environment and Robust for SpeechIIR Infinite Impulse ResponseERB Equivalent Rectangular BandwidthFIR Finite Impulse ResponseWPT Wavelet Packet TransformRBF Radial Basis FunctionPCA Principal Component AnalysisSNR Signal-to-Noise RatioDDCT Distributed Discrete Cosine Transform

xii

Page 15: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

CAPÍTULO 1

Introdução

Graças aos avanços tecnológicos, sobretudo na área de Inteligência Artificial, encontramosuma interface humano-computador que é o reconhecedor da fala. Hoje, essa interface pode serencontrada em dispositivos móveis, atendimento automático nos call-centers, dispositivos deautenticação, jogos eletrônicos, automação industrial, robótica, dentre outros. Reconhecimentoda fala permite que dispositivos equipados com microfone identifiquem comandos, frases oufala contínua pronunciadas pelo locutor [1].

As aplicações com essa interface tornaram-se uma das principais ferramentas adaptativasutilizadas por pessoas com deficiências visuais e motoras. Segundo o IBGE (2010) 1, cercade 25,72% da população brasileira são portadoras de deficiências visuais ou motoras o querepresentam 49,65 milhões de pessoas. Esse cenário revela a importância de um aprimoramentonos reconhecedores da fala, proporcionando maior independência, qualidade de vida e inclusãosocial.

Os sistemas de reconhecimento da fala eram desenvolvidos apenas para reconhecerem pala-vras isoladas, ou seja, cada palavra que o locutor pronunciava representava um comando. Osoftware de ditado ViaVoice 2 da IBM é um exemplo desse tipo de sistema que tem comocaracterística uma alta taxa de reconhecimento.

Com a crescente demanda por essa tecnologia, surgiu a necessidade da criação de reconhe-cedores para a fala contínua substituindo os sistemas de palavras isoladas. A diferença entreum sistema de reconhecimento de palavras isoladas e o de fala contínua está no fato de que parareconhecer palavras isoladas, o locutor efetua uma pequena pausa entre as palavras, enquantoque um sistema de reconhecimento de fala contínua não apresenta esta condição. A dificuldadeem fala contínua é diferenciar se o interlocutor fez apenas uma pausa entre as palavras ou sejá concluiu o comando [2]. O êxito desses sistemas está ligado a uma boa definição das unida-des fonéticas e do algoritmo de descrição de voz que será utilizada. Alguns aspectos para ossistemas de reconhecimento da fala podem ser encontrados na Tabela 1.1 [3].

Apesar dos visíveis avanços alcançados na área de reconhecimento da fala, especialmentedepois da introdução do HMM, do inglês Hidden Markov Model, e do modelo estatístico dalinguagem. Ainda encontram-se dificuldades no reconhecimento da fala em ambientes ruidososou com variabilidade acústica. Ruído é um som indistinto e sem harmonia, cuja intensidadeé medida em decibéis (dB). A escala de decibéis é logarítmica, de modo que um aumento nonível de som de três decibéis representa um aumento da intensidade de ruído para o dobro[4]. Quando o ruído é inserido na voz dificulta a extração de característica da fala tambémconhecida como descrição da fala.

1http://www.ibge.gov.br/home/estatistica/populacao/censo2010/default.shtm, Visto em Fevereiro, 2013.2http://www-01.ibm.com/software/pervasive/viavoice.html, Visto em Dezembro, 2012.

1

Page 16: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

1.1 OBJETIVOS 2

Tabela 1.1 Aspectos para os sistemas de reconhecimento da fala. Adaptada de [3].Parâmetros Faixa

Modo de Pronúncia De palavras isoladas a fala contínuaEstilo de pronúncia De leitura a fala espontânea

Treinamento De dependente de locutor a independente de locutorVocabulário De pequeno (< 20 palavras) a grande (> 20000 palavras)

Modelo de linguagem De estados finitos a sensível a contextoPerplexidade De pequena (< 10) a grande (> 100)

SNR De alta (> 30 dB) a baixa (< 10 dB)Transdutor De microfone com cancelamento de ruído a telefone

Descrever a fala é obter os seus atributos, cujo objetivo é diferenciar as palavras pronuncia-das por cada locutor. Uma boa descrição faz com que os classificadores consigam reconhecer aspalavras mesmo que elas sejam pronunciadas por pessoas de diferente sexo, idade ou ambiente.

Trabalhos como Goyani et al. [5], Combrinck e Botha [6] e Rahman e Islam [7] demons-traram a eficiência dos descritores da fala em amostras sem ruído como MFCC, do inglês Mel-Frequency Cepstral Coefficients, e LPC, do inglês Linear Predictive Codes, porém, quando hápresença de ruído, os descritores não apresentaram resultados (taxa de acerto) iguais ou superi-ores aos demonstrados na ausência de ruído. Com isso surgiu um novo algoritmo para descrevera fala, o PNCC, do inglês Power-Normalized Cepstral Coefficient. Essa técnica mostrou supe-rioridade quando expostas ao ruído, entretanto, na ausência de ruído os resultados não são osmelhores [8].

Apesar do aumento das taxas de reconhecimento, ainda encontra-se dificuldade para reco-nhecer a fala independente dos ambientes, como por exemplo o trabalho de Kim (8) ondeo descritor PNCC apresenta boas taxas de acerto para ambientes como rua e aeroporto masnão mantém as boas taxas de acertos para ambientes com pouco ruído, como dentro de casa.Muitos problemas se dão devido ao baixo poder de generalização que as técnicas propõem,alavancando a necessidade de bons descritores.

1.1 Objetivos

1.1.1 Objetivo Geral

O objetivo geral desta dissertação é desenvolver um descritor para a fala que seja invarianteao ruído e ao ambiente.

1.1.2 Objetivos Específicos

Como objetivos específicos temos:

1. Avaliar os descritores de sinais de voz para fala contínua;

2. Avaliar o desempenho dos descritores utilizando os classificadores HMM e SVM, do

Page 17: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

1.2 BREVE HISTÓRICO DOS RECONHECEDORES DA FALA 3

inglês Support Vector Machine.

1.2 Breve Histórico dos Reconhecedores da Fala

A década de 50 marca o início do desenvolvimento de sistemas para o reconhecimento dafala. Esse interesse surgiu devido à evolução no campo da fonética e fonologia que exploravamas frequências fundamentais (pitch) e os formantes da fala.

Em 1952, surgiu um dos primeiros sistemas automático para reconhecimento de voz quereconheciam dígitos de zero ao nove de um único locutor. Davis e Balashek [9] propuseramum circuito elétrico que realizava essa função. O reconhecedor usava os formantes da falapara identificar cada número pronunciado e tinha uma taxa de reconhecimento de 97%. Osformantes são picos de energia em uma região do espectro sonoro, ocasionado pelos várioscomponentes do trato vocal, possuindo um importante papel na inteligibilidade da fala.

Essa abordagem não era capaz de reconhecer outro locutor (o circuito foi projetado parareconhecer a voz de um locutor em específico), era necessário o tempo de pausa para cadadígito pronunciado (o locutor realizava uma pausa de 350 ms antes de pronunciar o próximonúmero) e não reconheciam as palavras fora do alfabeto de dígitos.

Em 1959, os pesquisadores Fry e Denis desenvolveram um sistema capaz de reconhecerquatro fonemas e nove consoantes da língua inglesa através de um analisador de espectro e umacombinação de padrões. A técnica apresentou um baixo poder de generalização das palavras,dependência do locutor e a não conseguia reconhecer dígitos [10].

Na década de 60 surgiram os primeiros sistemas japoneses que reconheciam dígitos e fone-mas. Autores como Suzuki e Nakata [11] e Nagata e Kato [12] utilizaram as regras de decisãode Bayes para reconhecerem dígitos. Já Sakay e Doshita [13] utilizou a taxa de passagem pelozero para identificar os padrões dos fonemas pronunciados. O sistema era dividido em trêspartes: classificador dos fonemas, circuito de controle e circuito de análise. As técnicas tinhamcomo desvantagem a incapacidade de reconhecer palavras e a dependência de locutor. NasFiguras 1.1 e 1.2 são mostrados os fonemas e o diagrama utilizados para o reconhecimento dosfonemas, respectivamente.

A década de 70 trouxe o reconhecimento de palavras isoladas. O avanço ocorreu devidoaos seguintes fatores:

• Em 1964, Martins et al. [14] desenvolveram um sistema para detectar o início e o fim dafala através da normalização.

• Entre 1970 e 1978, Velichko e Zagoruyko[15] e Sakoe e Chiba [16] desenvolveramum reconhecedor de palavras isoladas utilizando programação dinâmica. Essa evolu-ção proporcionou o desenvolvimento dos descritores LPC e MFCC para extrair atributosda voz [17], [18].

Com os sistemas desenvolvidos na década de 70, como os citados anteriormente, era possí-vel reconhecer até 200 palavras com uma taxa de 97,3% de acerto. A dificuldade era a impre-cisão perante o ruído, a não representatividade de todas as palavras e a dependência de locutor.

Page 18: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

1.2 BREVE HISTÓRICO DOS RECONHECEDORES DA FALA 4

Figura 1.1 Fonemas utilizados no desenvolvimento do sistema de reconhecimento de fonemas japone-ses, utilizado por Sakay e Doshita [13].

A década de 80 marcou o início das pesquisas com fala contínua, utilizando novas técnicaspara a classificação da fala. O modelo estatístico HMM, desenvolvido em 1966 [19], tornou-sea principal ferramenta de classificação para a fala. As redes neurais, que surgiram em 1943com o trabalho de McCulloch e Pitts [20], e alcançaram uma larga utilização em 1958 com otrabalho de Rosemblatt denominado de Percepton [21], foram utilizadas nos reconhecedoresde palavras proporcionando uma boa taxa de classificação. Os problemas das técnicas foram aincapacidade de lidar com amostras ruidosas e com a independência de locução.

Nos anos 90 as pesquisas seguiram a tendência da década anterior, evolução da fala contínuae dos classificadores. Surgiram sistemas com dicionários cada vez mais extensos, fazendo comque os reconhecedores fossem capazes de reconhecer um maior número de comandos. Nomesmo período surgiu o SVM, do inglês Support Vector Machine, desenvolvido por Vapnik[22]. O SVM é uma rede de aprendizado supervisionada que é aplicada para o reconhecimentode padrão e regressão. Apesar de ter aumentado a capacidade de generalização dos sistemas,ainda encontra-se dificuldade para lidar com ruído e com independência do locutor.

A partir dos anos 2000, começaram a hibridização das técnicas. Com a evolução dos algo-ritmos de Bagging [23], Boosting [24] e AdaBoost [25], muitos pesquisadores começaram autilizar os ensembles (máquinas de comitês) para classificar as amostras de voz alcançandomelhores resultados [26]. Os ensembles são um conjunto de classificadores que se baseiam naideia de unir as opiniões que os compõem para aumentar a precisão de um sistema de classifi-cação de padrões. Cada classificador contribui com sua visão do espaço de características doproblema apresentado, promovendo, assim, a diversidade entre seus integrantes.

Page 19: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

1.3 RECONHECIMENTO AUTOMÁTICO DA FALA 5

Figura 1.2 Diagrama do sistema de reconhecimento de fonemas japoneses, utilizado por Sakay eDoshita [13].

1.3 Reconhecimento Automático da Fala

Reconhecimento automático da fala tem sido uma das principais fontes de pesquisa pormais de seis décadas na área de processamento de sinais de voz. Interagir com dispositivoseletrônicos usando a fala tem influenciado filmes de ficção científica, como o computador HALdo filme “2001-Uma Odisséia no Espaço”, o carro do filme “Batman” e o robô R2D2 do filme“Guerra nas Estrelas”. Mesmo com os avanços durante as décadas, ainda não é possível reco-nhecer um discurso de uma pessoa qualquer dentre o universo de vários falantes, idiomas eambientes distintos [27].

Page 20: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

1.3 RECONHECIMENTO AUTOMÁTICO DA FALA 6

Os sistemas de processamento da fala são divididos em codificação da fala, síntese da falae reconhecimento automático da fala. A codificação da fala é feita através de técnicas quebuscam representar de forma compacta o sinal da voz. Além disso, deve-se perceber não só ainteligibilidade do que é ouvido, mas também outras informações como a entonação e a emoçãodo interlocutor [27].

A síntese da fala constitui em produzir sons parecidos com a voz humana a partir de umtexto escrito verificando aspectos como: naturalidade, a qual releva até que ponto o sintetizadorsoa como a voz humana, e inteligibilidade, que avalia a facilidade do entendimento da saída dafala [27].

O reconhecimento do locutor é um modelo biométrico que tem como objetivo preservarcaracterísticas que diferencie um locutor do outro. O reconhecimento de locutor pode ser divi-dida em duas aplicações distintas: a verificação de locutor, cujo objetivo é a autenticação deuma pessoa, e a identificação de locutor, cujo objetivo é identificar o indivíduo que fala [27].

O reconhecimento automático da fala refere-se ao aspecto de como a máquina irá reco-nhecer a fala humana para executar os comandos propostos. O mesmo é dividido em: mododependente ou independente de locutor. No modo dependente de locutor, as elocuções sãopronunciadas por locutores previamente conhecidos. Já no modo independente de locutor,qualquer pessoa pode pronunciar frases sem necessidade de treinamento adicional do sistema[28]. Na Figura 1.3 é mostrada a hierarquia dos sistemas de processamento da fala.

Figura 1.3 Esquema hierárquico dos sistemas de processamento da fala. Adaptada de [28].

Sistemas de processamento da fala são compostos por:

1. Codificação do sinal de voz.

2. Pré-processamento do sinal da voz.

3. Descrição da voz.

Page 21: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

1.3 RECONHECIMENTO AUTOMÁTICO DA FALA 7

4. Classificação.

A codificação o sinal de voz tem como objetivo representar a informação digital de voz naforma mais compacta possível, aumentando a eficiência do armazenamento da voz digitalizada.A compressão dos dados consiste em reduzir o número de bits necessários para representar umainformação. Existem diferentes formas de implementação de codificadores de voz, que podeser dividida nas seguintes classes básicas: codificadores de forma de onda, como por exem-plo PCM, do inglês Pulse Code Modulation, codificadores paramétricos, como por exemplo oLPC, e codificadores híbridos que apresentam características de codificação de forma de ondae codificadores paramétricos, como por exemplo o LD-CELP, do inglês Low Delay CodebookExcited Linear Prediction [29].

Após a etapa da codificação é realizado o pré-processamento do sinal da voz que é divididoem quatro etapas principais: conversão do sinal analógico em digital (conversor A/D), atenua-ção dos componentes de baixa frequência, extração de quadros e identificação de início e fimda fala (endpoint). A primeira etapa geralmente é feita através de um transdutor que, em geral,é um microfone. É através do microfone que passamos o sinal da voz para o computador quefará o reconhecimento da fala [30].

A amostragem da voz geralmente é efetuada entre 6k à 44kHz, com tamanho variandoentre 8 a 16 bits, satisfazendo o teorema de Nyquist [31]. Em muitos sistemas é comum aaplicação de um filtro passa-baixas para limitar a banda de frequência do sinal. Com isto,pode-se eliminar o fenômeno conhecido como aliasing [32].

Figura 1.4 Conversão analógico digital. Adaptada de [32].

A segunda etapa é atenuar os componentes de baixa frequência do sinal, prevenindo contrainstabilidade numérica. Essa etapa denomina-se de pré-ênfase e é executada através do uso defiltros de primeira ordem dada pela Equação 1.1:

H(z) = 1−az−1 (1.1)

Oppenheim et al. [32] revela que o valor mais comum que “a” assume é aproximadamente0,95.

A terceira etapa é a extração de quadros da amostra do sinal. Isso ocorre porque o sinal évariante no tempo. Por isso, geralmente, define-se uma janela de largura suficiente para cobrirentre 10-45 ms das amostras que é movida ao longo do sinal da voz, com ou sem superposiçãoentre janelas adjacentes [29].

Existem diversas formas de implementar o janelamento do sinal, a mais comum foi propostapor Oppenheim et al. [32], conhecida como janela de Hamming, definida por

Page 22: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

1.4 ESTRUTURA DO DOCUMENTO 8

w(n) = 0,54−0,46cos(2nπ

Nw−1) (1.2)

onde:Nw é o tamanho da janela.

A última etapa, identificação de início e fim da fala (endpoint), evita o processamento dossegmentos onde não há voz, evitando carga computacional e economizando tempo, servindocomo marco de início e fim de um segmento de voz. A determinação do endpoint deve ser feitade forma cuidadosa, pois os mínimos erros nesta estimação podem degradar o reconhecimento.

Feito o pré-processamento, o sistema segue para a etapa da descrição da voz que é de sumaimportância para o reconhecimento da fala. É nessa etapa que são extraídos os atributos queserão utilizados nas etapas de treinamento e reconhecimento. No Capítulo 3 detalhamos essaetapa.

Por fim, é feita a classificação da fala que tem com objetivo fazer com que o dispositivoeletrônico identifique os padrões de voz de cada locutor provenientes da descrição da fala.Esses padrões são diferenciados por algoritmos como HMM ou Redes Neurais, identificando ainstrução passada pelo locutor.

1.4 Estrutura do Documento

Além deste capítulo, esta dissertação é apresentada em mais cinco capítulos que estão orga-nizados da seguinte forma:

Capítulo 2: São apresentados os conceitos básicos da fonética e fonologia para o melhorentendimento do trabalho. Mostramos como a voz é produzida e explicamos sobre avariabilidade linguística.

Capítulo 3: São apresentados os descritores de voz MFCC, MFCC combinado com Wave-let Denoising, PLP, RASTA-PLP e PNCC, revelando as vantagens e desvantagens decada descritor. Também revelamos os parâmetros utilizados no desenvolvimento dessesdescritores.

Capítulo 4: É apresentado o descritor de voz MINERS, do inglês Model Invariant to Noiseand Environment and Robust for Speech, proposto neste trabalho.

Capítulo 5: É apresentada a metodologia experimental, bem como a análise dos resultados.

Capítulo 6: São expostas as conclusões sobre a dissertação e sugestões de trabalhos futuros.

Page 23: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

CAPÍTULO 2

Fonética e Fonologia

A fonética e a fonologia são as áreas da linguística que estudam os sons da fala. A fonéticavisa o estudo do ponto de vista articulatório, verificando como os sons são produzidos peloaparelho fonador. Já a fonologia dedica-se ao estudo dos sistemas de sons, a sua descrição,estrutura e funcionamento [33].

Este capítulo descreve a produção da fala levando em consideração apenas aspectos articu-latórios e acústicos. Além disso, é explanado sobre como escolher as unidades fonéticas paraum sistema de reconhecimento de voz.

2.1 Produção da voz

A fala é um meio de comunicação entre as pessoas. É através do som que vinculamossignificados e interagimos socialmente, sem dar conta de sua organização interna [34].

A voz é produzida a partir de três grupos de órgão que apoiam essa produção, são eles:Sistema Respiratório, Sistema Fonatório e Sistema Articulatório. A Figura 2.1 apresenta ostrês sistemas citados.

Figura 2.1 Os Sistemas: Respiratório, Fonatório e Articulatório. Adaptada de [29].

Portanto, de forma simples, quando se fala, o ar é puxado dos pulmões, passa pela gargantae pelas cordas vocais, sai pela boca e é produzida a voz. Ao falar, o trato vocal muda deforma, produzindo diferentes sons [33]. O trato vocal é um tubo de ar fechado constituído peloconjunto de órgãos responsáveis por produzir a fala. Alguns sons raros, como por exemplo, umclique na língua africana, são as exceções da regra. Tais sons são produzidos pela corrente de ar

9

Page 24: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

2.2 FONÉTICA ARTICULATÓRIA 10

gerada por movimentos da laringe enquanto a glote está fechada, não fazendo uso da correntede ar da respiração. A Figura 2.2 mostra o trato vocal adaptada de [33].

Figura 2.2 Trato vocal. Adaptada de [33].

A perfeita sincronia desses três grupos de órgãos possibilita a produção de uma voz enten-dível denominada de fala.

O conjunto limitado de sons que conseguimos produzir é classificado em quatro tipos. Ossons sonoros (ou vozeados) que representam o vibrar das cordas, os sons surdos (ou não voze-ados) onde as cordas vocais não vibram, apenas permanecem abertas, os sons explosivos queresultam do fechamento completo do trato vocal e os sons de excitação mista que combinam avibração das pregas vocais (sons sonoros) com a excitação não vozeada (sons surdos) [33].

2.2 Fonética Articulatória

Com intuito de explorar os métodos para descrição, classificação e transcrição dos sons dafala, a fonética divide em três focos de estudos, que, segundo Ladefoged e Johnson [33] são:

• Fonética Articulatória: Descreve como a fala é produzida do ponto de vista articulatórioe fisiológico.

• Fonética Auditiva: Compreende o estudo da percepção da fala.• Fonética Acústica: Compreende o estudo das propriedades físicas dos sons da fala, a

partir da sua transmissão do falante ao ouvinte.

Page 25: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

2.2 FONÉTICA ARTICULATÓRIA 11

A presença ou ausência de obstrução na passagem de ar pela cavidade supraglotais, cavi-dade que engloba a oral, nasal e a faringe, produz sons que classificamos como: glides ou semi-vogais, vogais e consoantes. Caso o ar sofra obstrução o som é classificado como consoantes,caso contrário, é classificado como vogal. Entretanto, existem aquelas sons que a passagem doar não são definidas, sendo classificados como glide ou semivogais [35].

Cada vogal ou consoante se diferenciam pela forma articulatória que são produzidas. Porconta disso, a Associação Fonética Internacional criou uma classificação desses segmentosconhecida como Alfabeto Fonético Internacional (IPA), nos quais vogais, consoantes e segmen-tos que não se enquadram como nenhum dos dois, são classificados de acordo a forma dearticulação.

2.2.1 Formação das Vogais

A principal diferença entre a articulação das vogais e das consoantes está no fato de quepara identificar a vogal precisa-se olhar a totalidade da cavidade oral, pois há uma ausência deobstrução à passagem do ar pela boca.

Para emitir uma vogal, o ápice da língua se desloca no interior do aparelho fonador tanto noeixo horizontal como no eixo vertical. Deslocando-se na horizontal, a língua vem para frenteou recua para o fundo da boca. Ao deslocar-se na vertical, a língua sobe ou desce. Todo essedeslocamento lembra um trapézio com a base menor para baixo. Os foneticistas chamam esseprocesso de deslocamento de trapézio vocálico [36]. A Figura 2.3 mostra o trapézio vocálico.

Figura 2.3 Trapézio vocálico. Adaptada de [36].

Foneticamente, as vogais podem ser classificadas de acordo a posição da língua e aberturabucal:

• Posição vertical da língua.

Page 26: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

2.2 FONÉTICA ARTICULATÓRIA 12

• Posição horizontal da língua.• Posição dos lábios.

A posição vertical da língua faz com que as vogais sejam classificadas em alta, média ebaixa. As vogais altas são aquelas em que a língua, seja em direção à parte anterior da bocaou à parte posterior, atinge a maior altura, como, por exemplo, as vogais [i] e [u]. As vogaismédias mantêm a língua na posição entre a mais alta e em repouso (mais baixa), por exemplo,as vogais [e], [o]. Já na vogal baixa a língua mantém-se em posição de repouso; a vogal [a] éum exemplo [36].

Em relação à posição horizontal da língua, a mesma pode ir à direção anterior da boca ouna direção frontal, o que nos dá as vogais anteriores [i], [I] e [e]. Se a língua ficar em repouso,temos a vogal [a] classificada como central. Caso a língua recue na direção posterior da boca,temos as vogais [o], e [u], também denominadas de posteriores [35].

Quanto à posição dos lábios, temos as vogais arredondadas e as não-arredondadas. Deacordo com a formação dos lábios, podemos identificar a qual se refere. Por exemplo, sãoarredondadas as vogais [o] e [u], e as não arredondadas as vogais [e], [a].

Na Figura 2.4 é mostrada a classificação das vogais de acordo a tabela IPA 1.

Figura 2.4 Classificação das vogais de acordo a tabela IPA1.

2.2.2 Formação das Consoantes

Consoantes são classificadas de acordo ao modo e o lugar de articulação. Em [33], o modoarticulatório das consoantes são classificados como:

• Oclusivas: O som é produzido por um bloqueio na corrente de ar. Exemplo: pato;• Nasais: O som é produzido com o bloqueio do ar na cavidade oral e o rebaixamento do

palatino, o qual permite a passagem de ar pelas narinas. Exemplo: dama;• Fricativos: O som é produzido com o estreitamento de alguma parte do aparelho fonador,

sofrendo fricção. Exemplo: f aca;1http://www.langsci.ucl.ac.uk/ipa/, Visto em Fevereiro, 2013.

Page 27: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

2.2 FONÉTICA ARTICULATÓRIA 13

• Africados: O som o produzido inicialmente pelo bloqueio da passagem de ar dentro dacavidade oral, sofrendo posteriormente uma obstrução que provoca fricção. Exemplo:Tiago;

• Laterais: A cavidade oral anterior bloqueia a passagem central do ar, permitindo apenasuma passagem lateral. Ex: labirinto, calha;

• Vibrantes ou vibrantes múltiplos: Caracterizados por batidas rápidas da língua no véupalatino;

• Vibrante simples ou tepe: Uma batida rápida da ponta da língua nos alvéolos dos incisossuperiores, provocando uma rápida obstrução do ar. Ex: bravo;

• Retroflexo: O som é produzido pelo curvamento da ponta da língua para cima e para trás,como na pronúncia do “r” nos dialetos do interior de alguns estados como São Paulo;

• Aproximantes: São sons formados acima da área das vogais, mas a passagem de ar émaior que a pressão que causa a fricção.

No que diz respeito ao lugar da articulação, em [37] encontramos:

• Bilabial: Essa consoante é formada pela obstrução da passagem do ar que resulta nomovimento de um lábio contra o outro, sendo que o lábio inferior é o articulador ativo eo lábio superior é o articulador passivo. Exemplo: /p/, /m/, /b/;

• Labiodental: O articulador ativo é o lábio inferior e o passivo são os dentes incisivossuperiores. Exemplos: /f/, /v/;

• Dental: Nessa consoante, o articulador ativo é a língua (ápice ou lâmina), e seus articu-ladores passivos são os dentes incisivos superiores. Exemplo: data;

• Alveolar: São as consoantes cujo som é articulado no encontro da ponta da língua comos alvéolos dentários. O articulador ativo é a língua (ápice ou lâmina) e o passivo são osalvéolos. Exemplo: lata;

• Palatoalveolar: É produzido na região imediatamente posterior à região onde o som alve-olar é produzido;

• Alveopalatal: Esta consoante também é chamada de pós-velares. Onde o articuladorativo é a parte anterior da língua e o passivo é a parte medial do palato duro (céu daboca). Exemplos: tia, dia;

• Palatal: A sua pronúncia é formada pela aproximação ou o contato do dorso da línguacom o palato duro. O articulador ativo é a parte média da língua e o passivo é a partefinal do palato duro. Exemplo: palha;

• Velar: É formado pela aproximação ou o contato da língua com o palato mole (véupalatino). O articulador ativo é a parte posterior da língua e o passivo é o palato mole.Exemplo: gata, rata;

• Uvular: É produzida pela parte posterior da língua pressionando o fundo da cavidade oral(palato mole e úvula);

• Faringal: É produzida pela constrição da ponta da língua com a faringe;• Glotal: Em sua pronúncia, o ponto de articulação é o glote que se comporta como articu-

ladores. Exemplo: a palavra escarrar, pronunciando o /r/ ao mesmo tempo.

Page 28: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

2.3 UNIDADES MENORES QUE PALAVRA 14

2.3 Unidades Menores que Palavra

Um reconhecedor de voz pode ser caracterizado, entre outros fatores, pela unidade fonéticautilizada. Em um sistema de vocabulário pequeno (algumas dezenas de palavras) é comumutilizar as palavras como unidades fundamentais. Para um treinamento adequado destes siste-mas, deve-se ter um grande número de exemplos de cada palavra. Entretanto, para sistemascom vocabulários maiores, a disponibilidade de um grande número de exemplos de cada pala-vra torna-se inviável. A utilização de subunidades fonéticas, tais como: fonemas, sílabas, trifo-nes e difones são alternativas bastante razoáveis, pois agora é necessário ter vários exemplosde cada subunidade e não vários exemplos de cada palavra [38].

Os fonemas são as menores unidades fonéticas da língua que estabelecem papéis distinti-vos. Por exemplo: o /p/ e /b/ representam fonemas diferentes, pois diferenciam palavras como“basta” e “pasta”.

Os difones são unidades que englobam somente uma transição entre os fones resultando emdescontinuidade relativamente pequena das palavras, visto que o meio dos fones é a sua regiãomais estável. Portanto, os difones possuem partes dos vários efeitos coarticulatórios da línguafalada que afetam um fone inteiro [39].

Esses efeitos levaram à criação dos trifones que englobam um fone inteiro e suas transiçõesà direita e à esquerda. Eles constituem um complemento aos difones, podendo solucionar osefeitos dinâmicos citados. A associação entre difones e trifones para cobrir efeitos contextuaisdeu origem à técnica chamada de polifones.

Existem dois critérios para definir qual unidade fonética utilizar: consistência e treinabili-dade. A consistência tem como característica uma determinação efetiva entre unidades distin-tas. As unidades devem ter características similares em sentenças diferentes. Já no critério datreinabilidade devem existir amostras suficientes para o treinamento e a criação de um modelocom bom desempenho nos testes. Sua importância reside no fato de os modelos atualmenteusados no reconhecimento exigirem grandes quantidades de dados de treinamento [39].

Ao longo dos anos, vários trabalhos foram propostos na tentativa de explicar qual a melhorunidade fonética a utilizar. Dentre eles destacam-se:

• Malbos et al. [40] foram um dos primeiros trabalhos que utilizou Wavelets em sistemasde reconhecimento de voz. Os autores escolheram consoantes oclusivas (/p/, /k/, /t/, /b/,/g/ e /d/) aplicadas à língua francesa. A dificuldade apresentada foi o não reconhecimentona presença do ruído.

• Marchesi et al. [41] fizeram um estudo de reconhecimento das vogais orais do portuguêsbrasileiro, utilizando as frequências fundamentais como descritores.

• Deshmukh et al. [42] utilizaram os parâmetros acústico-fonético no reconhecimento devoz.

• Rodrigues e Yehia [43] utilizaram as vogais orais do português para extrair parâmetrosda fala.

• Farooq e Datta [44] utilizaram fonemas como unidade da fala e descreveram a voz comWavelet Packets. Os mesmos utilizaram a base de voz TIMIT 2, utilizando os fonemas:

2http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC93S1, Visto em Fevereiro, 2013.

Page 29: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

2.3 UNIDADES MENORES QUE PALAVRA 15

/aa/, /ax/ /iy/, /v/, /dh/, /z/, /f/, /sh/, /s/, /b/, /d/, /g/, /p/, /t/ e /k/. Os autores tiveram comomaior taxa de acerto o fonema /p/ com 83,52%.

Os trabalhos mostram a dependência do idioma do falante e a incapacidade de reconhecera fala na presença de ruído.

A escolha de qual unidade utilizar é fundamental para conseguir descrever e classificar afala. A melhor estratégia ainda é a utilização das unidades menores que a palavra, mesmo coma dificuldade de treinamento ocasionado pela separação das silábica [45].

Page 30: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

CAPÍTULO 3

Descritores de Voz

Através da análise da fonética e fonologia discutidas no capítulo 2, podemos encontrarindicações presentes no sinal acústico que possibilitam a identificação de fonemas através deanálise acústica. Estas indicações são conhecidas como atributos da fala [46].

Os atributos da fala são: frequência fundamental (pitch), energia, número de picos, taxa decruzamento por zero e estrutura dos formantes. A frequência fundamental é determinada pelonúmero de vibração das cordas vocais. Nos homens a frequência fica em torno de 80 a 150 Hze nas mulheres entre 150 a 250 Hz [47].

A energia tem o papel de medir a intensidade sonora. É através dela que é feita a diferencia-ção entre segmentos surdos e sonoros do sinal de voz, devido à amplitude nos segmentos surdosser mais baixa do que nos segmentos sonoros. Para medir a energia, técnicas no domínio dotempo (análise temporal) ou no domínio da frequência (análise espectral) são utilizadas [46].

A estrutura dos formantes fornecem indicações de como os fonemas são formados. É atra-vés dela que é identificada a duração da fala, que depende da velocidade com que os fonemassão pronunciados, a pausa e a entonação da fala, que é a variação da frequência fundamental.

Os atributos da fala são responsáveis por diferenciar as palavras e são extraídos a partirde descritores como: MFCC, RASTA-PLP, do inglês RelAtive SpecTrAl - Perceptual LinearPredictive, e PNCC. Neste capítulo explanamos sobre os parâmetros da fala, destacando osdescritores MFCC, RASTA-PLP e PNCC.

3.1 Parâmetros da Fala

Devido à variabilidade do microfone e ambiente, os descritores da voz podem apresentardificuldades em representar, eficientemente, os atributos da fala. Esta dificuldade se dá devido àpresença do ruído, distância do microfone, velocidade da pronúncia, período de silêncio, dentreoutros. Para minimizar os efeitos faz-se necessário a utilização de um pré-processamento nosinal da voz, com intuito de deixar o sinal mais próximo da fala “limpa”.

Uma das etapas do pré-processamento é a utilização do janelamento na voz. O janelamentoé necessário devido à natureza da variação do sinal da fala, sendo comum dividir em frames,realizada segundo os princípios da análise em curto prazo, dada pela Equação 3.1 [27].

Xn =∞

∑m=−∞

x[m]w[n−m] (3.1)

onde:

16

Page 31: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

3.1 PARÂMETROS DA FALA 17

Xn é o vetor de parâmetros em um tempo de análise “n”;w[n−m] sequência de janelas deslocadas ao longo do tempo;x[m] segmento das sequências de janelas deslocadas ao longo do tempo.

O objetivo da divisão em frame é suavizar as extremidades do sinal, ocasionado pelas altasfrequências geradas pela segmentação. A janela de Hamming[48] é a mais utilizada para estafunção, que pode ser matematicamente representada pela Equação 3.2.

w(n) =

0.54−0.46cos( 2π

N−1), n = 0,1,...,N-10, caso contrário

(3.2)

O tamanho de cada janela e da sobreposição é escolhido de acordo ao experimento proposto.Neste trabalho foi utilizada uma janela de 25ms e uma sobreposição de 10ms definida expe-rimental. A Figura 3.1 mostra a representação em tempo discreto da janela de Hamming. Jáa Figura 3.2 tem-se uma visão geral da sobreposição das janelas de Hamming aplicadas a umsinal.

Figura 3.1 Janelas de Hamming aplicadas a um sinal.

Jean-Baptiste Joseph Fourier afirmou que qualquer função periódica, independente do nívelde complexidade, pode ser expressa como uma soma de senos e/ou cossenos de diferentes

Page 32: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

3.1 PARÂMETROS DA FALA 18

Figura 3.2 Sobreposição das janelas de Hamming. Adaptada de [48].

frequências, cada uma multiplicada por um coeficiente diferente. Essa soma ficou conhecidacomo série de Fourier [49].

Fourier também propôs uma transformada que leva seu nome, transformada de Fourier.Essa transformada permite que funções não periódicas, mas cuja área sob a curva é finita, sejaexpressa como uma integral de senos e/ou cossenos multiplicada por uma função de pondera-ção. A Equação 3.3, mostra como obter a transformada de Fourier de uma função contínua f (t)de uma variável contínua, t, expressa por F(ω).

F(ω) =∫

−∞

f (t)e− jωtdt (3.3)

onde:ω = 2πµ;µ = variável contínua;j =√−1;

e− jωt = cos(ω)− jsen(ω).

A transformada inversa de Fourier é realizada para conseguir obter o sinal original após aexecução da transformada Fourier:

f (t) = F−1(F(ω)) =1

∫∞

−∞

F(ω)e jωtdt (3.4)

Nas Figuras 3.3 e 3.4 pode ser observada a aplicação da Transformada de Fourier na frase“The birch canoe slid on the smooth planks” gravada em ambiente sem ruído e com ruído a

Page 33: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

3.1 PARÂMETROS DA FALA 19

Figura 3.3 Transformada de Fourier aplicada a frase “The birch canoe slid on the smooth planks”.

Figura 3.4 Transformada de Fourier aplicada a frase “The birch canoe slid on the smooth planks” compresença de ruído a 0dB.

Page 34: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

3.2 MFCC E MFCC COM WAVELET DENOISING 20

0dB. Pode-se observar uma maior intensidade no sinal na Figura 3.4, ocasionado pelo ruído doambiente.

Apesar de a Transformada de Fourier ser muito utilizada nos descritores da voz, ela permiteapenas a análise de características no domínio da frequência, não possibilitando a completadeterminação da relação espaço frequência, ou seja, a Transformada é capaz de revelar quaisfrequências estão no sinal, mas não onde elas se encontram [50]. Baseado nesta dificuldade,Dennis Gabor adaptou a Transformada de Fourier para ser aplicada em pequenas janelas deno-minada windowing the signal. Esta adaptação ficou conhecida como Short Time Fourier Trans-form (STFT) [29].

A STFT mostra informações entre o tempo e a frequência do sinal, sendo possível identifi-car quando e em que frequência o evento de um sinal ocorreu. A STFT é a mais aplicada nosestudos de reconhecimento da fala. A desvantagem da técnica é a incapacidade de redimensio-nar o tamanho da janela ao longo do sinal, isto é, quando definido o tamanho da janela ela seráa mesma ao longo do sinal. As Figuras 3.5 e 3.6 mostram o espectrograma gerado pela STFTda frase “The birch canoe slid on the smooth planks” com ausência e presença de ruído a 0dBgravado em um aeroporto. O tons avermelhados no espectrograma revela a intensidade sonorada amostra, podemos ver que na Figura 3.5 (amostra sem ruído) a intensidade sonora é menorque na Figura 3.6 (amostra com ruído).

Figura 3.5 Espectrograma da STFT para a frase “The birch canoe slid on the smooth planks”.

3.2 MFCC e MFCC com Wavelet Denoising

Os coeficientes Mel-Cepstrais surgiram devido aos estudos na área de psicoacústica (ciên-cia que estuda a percepção auditiva humana), os quais revelam que a percepção humana dasfrequências de tons puros não seguem uma escala linear. Através dessa análise, surgiu a ideia de

Page 35: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

3.2 MFCC E MFCC COM WAVELET DENOISING 21

Figura 3.6 Espectrograma da STFT para a frase “The birch canoe slid on the smooth planks” compresença de ruído a 0dB.

serem definidas frequências subjetivas de tons puros. Para cada tom com frequência f, medidaem Hz, define-se um tom subjetivo medido em uma escala que se chama escala mel [29].

O Mel é uma unidade de medida da frequência percebida de um tom. Como referência,definiu-se a frequência de 1 kHz, com potência 40 dB acima do limiar mínimo de audiçãodo ouvido humano, como 1000 mels. Os outros valores subjetivos foram obtidos através deexperimentos, onde foi observado que a escala em Hz e a escala em Mel são aproximadamentelinear abaixo e logarítmica acima dos 1000Hz. Logo, a escala Mel faz com que as faixas defrequência sejam posicionadas em uma escala logarítmica, a qual se aproxima da resposta dosistema auditivo humano [51].

As equações que fazem a conversão da escala Mel para Hz e Hz para Mel são mostradasnas Equações 3.5 e 3.6, respectivamente.

M = 1127,01048loge

(1+

f700

)(3.5)

f = 700(

em

1127,01048 −1)

(3.6)

Além da escala Mel, para definir os coeficientes do MFCC, faz-se necessário aplicar aTransformada Rápida de Fourier (FFT - Fast Fourier Transform), o banco de filtro triangularespaçados pela escala Mel e a Transformada Discreta do Cosseno (DCT - Discrete CosineTransform) [52]. A Figura 3.7 mostra uma adaptação de [52] do diagrama para o cálculo doMFCC.

Page 36: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

3.2 MFCC E MFCC COM WAVELET DENOISING 22

Figura 3.7 Diagrama para o cálculo do MFCC. Adaptada de [52].

Inicialmente, divide-se o sinal de voz em janelas. Para cada trecho do sinal obtido, calcula-se a Transformada Rápida de Fourier.

O algoritmo FFT mais conhecido foi desenvolvido por Cooley-Tukey [53] para diminuir acomplexidade computacional da Transformada de Fourier [29]. A FFT precisa de O(nlogn)operações enquanto que a Transformada de Fourier de O(n2) operações. Utiliza-se FFT noalgoritmo do MFCC para obter os coeficientes no domínio da frequência.

A maior utilidade da escala Mel está na criação do banco de filtro constituído por sobrepo-sição de filtros triangulares. Estes filtros possuem frequências centrais espaçadas linearmente ea largura de banda é espaçada conforme a escala Mel. Para a fala humana são utilizados entre12 a 30 filtros [28]. A Figura 3.8 foi gerada com o auxílio do software MatLab 1 e mostra obanco de filtros triangular composto por 20 filtros, frequência do sinal de voz de 8000 Hz eduração de 256 ms para cada janela.

0 1000 2000 3000 4000 5000 6000 7000 80000

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

Frequência (Hz)

Mag

nitu

de d

o F

iltro

Banco de Filtro Triangular

Figura 3.8 Banco de Filtro Triangular.

1Criado pela MathWorks Inc., o MatLab é um software que permite: a manipulação de matrizes, a criação degráficos de funções e de dados, a criação e execução de algoritmos, além de possuir uma vasta gama de funçõespré-definidas.

Page 37: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

3.2 MFCC E MFCC COM WAVELET DENOISING 23

A última etapa para obter os coeficientes do MFCC é utilizando a DCT [54]. Esta técnicaé utilizada para compressão dos dados fazendo uso apenas de números reais. Como resultadoé possível ver o acúmulo dos coeficientes mais significativos no início do vetor, deixando osrestantes dos valores com pouca ou nenhuma informação. A Equação 3.7 mostra o cálculo daDCT.

X(k) =N−1

∑n=0

x(n)cos[π

n(n+

12)k] (3.7)

onde:X(k) são os coeficientes resultantes da transformada discreta do cosseno;x(n) o sinal da fala;N o número de coeficientes.

Segundo Patel e Rao [52], de modo simplificado, podem-se obter os coeficientes do MFCCatravés da seguinte equação:

c(n) =M

∑k=1

log10 X(k)cos(N(k−1

2)

π

M) (3.8)

onde:1 ≤ n ≤ N;X(k) é a energia na saída do k-ésimo filtro;M é o número de filtros;N é o número de coeficientes.

Trabalhos como Amita e Bansal [55] e Hossan et al. [56] mostram o descritor MFCC apli-cado a amostra ruidosa e sem ruído. O primeiro autor aplica o MFCC em uma base indiana,enquanto que o segundo autor modifica a etapa DCT do descritor MFCC propondo a utilizaçãoda técnica chamada de DDCT, do inglês Distributed Discrete Cosine Transform. Os autoresrevelam, em seus experimentos, o baixo poder de descrição do MFCC quando exposto a amos-tra ruidosa. Devido essa dificuldade, novas técnicas foram propostas para descrever a voz comintuito de aumentar a taxa de reconhecimento da fala em ambientes ruidosos.

Nesse sentido, fizemos uma combinação do descritor MFCC com o Wavelet Denoising(Subseção 4.2.5) para lidar com amostras ruidosas. A Figura 3.9 mostra como a combinaçãofoi realizada.

Figura 3.9 Etapas para a combinação do descritor MFCC com o Wavelet Denoising.

O MFCC foi gerado para toda base NOIZEUS (Noisy Speech Corpus), discutida no Capí-tulo 5, com seguintes parâmetros:

Page 38: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

3.2 MFCC E MFCC COM WAVELET DENOISING 24

1. Utilização do sinal da voz amostrado em vários ambientes e como diferentes níveis deruído.

2. Janela de Hamming com 25ms e sobreposição de 10ms.

3. Utilização de 20 filtros no banco de filtros triangulares.

4. Utilização de apenas 12 coeficientes do MFCC. Cada amostra gerava 39 coeficientes:12 parâmetros mel-cepstrais 12 derivadas primeira (delta-mel-cepstrais) e 12 deriva-das segunda (delta-delta-mel-cepstrais) dos parâmetros mel-cepstrais, 1 parâmetro deenergia, 1 derivada primeira (delta-energia) e 1 derivada segunda (delta-delta-energia)do parâmetro de energia. A escolha desse número de coeficientes é devido ao fato dodecréscimo da energia ao longo dos coeficientes, provocando uma suavização no sinal,deixando de ser representativo. A Figura 3.10 mostra o decréscimo da energia para afrase “The birch canoe slid on the smooth planks”.

Figura 3.10 Decréscimo da energia dos coeficientes MFCC para a frase “The birch canoe slid on thesmooth planks”.

As Figuras 3.11 e 3.12 mostram os resultados da aplicação desses parâmetros para amostrassem ruído e com ruído a 0dB gravado em um aeroporto. A frase pronunciada foi “The birchcanoe slid on the smooth planks”. Em cada figura, inicialmente, é mostrada o sinal de voz.Podemos observar que na amostra com sinal ruidoso há uma maior intensidade da energia aolongo do sinal. Em seguida, é calculado a energia do banco de filtro, etapa de conversão parafrequência mel, e por fim obtemos os coeficientes do MFCC.

O MFCC com Wavelet Denoising também foi aplicado a toda base NOIZEUS utilizando osparâmetros:

1. Utilização do sinal da voz amostrado em vários ambientes e como diferentes níveis deruído.

2. Janela de Hamming com 25ms e sobreposição de 10ms.

3. Decomposição do sinal em cinco níveis utilizando Wavelet Daubechies.

4. Utilização de 20 filtros no banco de filtros triangulares.

Page 39: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

3.3 PLP E RASTA-PLP 25

Figura 3.11 Descrição da fala utilizando o MFCC sem presença de ruído.

5. Utilização de apenas 12 coeficientes do MFCC. Cada amostra gerava 39 coeficientes:12 parâmetros mel-cepstrais 12 derivadas primeira (delta-mel-cepstrais) e 12 derivadassegunda (delta-delta-mel-cepstrais) dos parâmetros mel-cepstrais, 1 parâmetro de ener-gia, 1 derivada primeira (delta-energia) e 1 derivada segunda (delta-delta-energia) doparâmetro de energia

3.3 PLP e RASTA-PLP

O descritor de voz PLP [57], do inglês Perceptual Linear Predictive, também foi baseadonos princípios da psicoacústica. Esse descritor utiliza um banco de filtros, com objetivo deanalisar apenas as frequências do sinal, não fazendo uso da análise temporal.

O banco de filtros é definido de acordo com a Equação 3.9:

Page 40: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

3.3 PLP E RASTA-PLP 26

Figura 3.12 Descrição da fala utilizando o MFCC na presença de ruído a 0dB gravado em um aeroporto.

ψ(z) =

10(z−zc+0,5),se −2,5 < z− zc <−0,5

1,se −0,5≤ z− zc ≤ 0,510−2,5(z−zc−0.5),se 0,5 < z− zc < 1,3

0,se −2,5≥ z− zc ≥ 1,3

(3.9)

onde:ψ(z) bandas críticas;z− zc frequências centrais.

A característica do PLP é fazer uma boa aproximação das áreas com maior concentraçãode energia no sinal, desprezando as baixas energias. Segundo Junqua et al. [58], para obter oscoeficientes do PLP são necessários:

1. Passar o sinal da voz por filtro passa-baixa anti-aliasing antes de amostrar o sinal.

2. Dividir o sinal em janelas.

Page 41: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

3.3 PLP E RASTA-PLP 27

3. Aplicar a FFT em todas as janelas, obtendo o espectro da potência de tempo-curto dosinal da voz.

4. Converter o espectro para a escala de frequência utilizado no PLP, frequência Bark [59],que vai de 1 a 24 Barks, correspondendo às primeiras 24 bandas-críticas do ouvidohumano:

Ω(w) = 6ln[(w

1200π)+

√(

w1200π

)2 +1] (3.10)

onde:

Ω(w) é a frequência na escala Bark;

w é a frequência em rad/s.

A representação das bandas-críticas pode ser vistas na Figura 3.13.

Figura 3.13 Representação das bandas-críticas. Adaptada de [60].

5. Convoluir o espectro utilizando o banco de filtros. São utilizados filtros sobrepostos paraobter um espectro similar ao espectro de potência de bandas-críticas, de acordo a função:

Θ(Ωi) = ∑2,5Ω=−1,3P(Ω−Ωi)ϒ(Ω) (3.11)

Page 42: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

3.3 PLP E RASTA-PLP 28

onde:

Θ(Ωi) banco de filtros;

Ω frequência Barks;

P(Ω−Ωi) frequências Barks centrais;

ϒ(Ω) bandas-críticas.

6. Pré-Enfatizar as bandas-críticas utilizando curvas de equalização de sonoridade, dadapelas Equações 3.12 e 3.13:

Ξ(Ω(w)) = E(w)Θ(Ω(w)) (3.12)

onde:

Ξ(Ω(w)) curva de equalização de sonoridade;

E(w) =(w2 +56,28x106)w4

(w2 +6,3x106)2(w2 +0,38x109)(3.13)

Θ(Ω(w)) é a saída do k-ésimo filtro;

w é a frequência em rad/s;

Ω(w) é a frequência na escala Bark correspondente à frequência w.

A curva de Pré-Ênfase pode ser vista na Figura 3.14.

7. É aplicada uma raiz cúbica no espectro de bandas críticas pré-enfatizado, simulando aregra de potência do sistema auditivo humano [60], ou seja, a relação não linear entre aintensidade sonora e sua percepção subjetiva. Esta etapa promove uma compressão daamplitude do espectro, reduzindo a variação da amplitude das bandas-críticas.

Φ(Ω) = Ξ(Ω)13 (3.14)

onde:

Φ(Ω) compressão da amplitude;

Ω frequência Barks;

Ξ(Ω(w)) curva de equalização de sonoridade.

8. Calcular a Transformada Inversa de Fourier. Obtendo assim os valores de autocorrelaçãoque serão os coeficientes do PLP.

Page 43: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

3.3 PLP E RASTA-PLP 29

Figura 3.14 Curva de Pré-Ênfase. Adaptada de [60].

O RASTA-PLP [61], do inglês RelAtive SpecTrAl - Perceptual Linear Predictive, foi desen-volvido com objetivo de lidar com amostras ruidosas, independência do microfone e locutor.Para isso, esta técnica utiliza processamento temporal, ao contrário das técnicas MFCC e PLP.

Processamento temporal leva em consideração o intervalo de tempo mínimo para o proces-samento de dois ou mais estímulos acústicos [62]. Com isso, observa-se que o espectro do sinalda voz sem ruído varia a uma razão diferente daquele sinal com presença de ruído, conseguindolidar com certos tipos de ruídos [63].

Segundo Hermansky et al. [61], a técnica RASTA-PLP compreende as mesmas etapas doPLP, acrescentando três novas etapas:

1. Fazer uma transformada na amplitude, através de uma técnica de compressão (funçãologarítmica é a mais utilizada).

2. Filtrar o sinal através do filtro IIR, do inglês Infinite Impulse Response, com função detransferência:

H(z) = 0,1z4(2+ z−1− z−3−2z−4

1−0,98z−1 ) (3.15)

3. Realizar a transformação inversa da técnica de compressão.

A Figura 3.15 mostra as etapas do algoritmo RASTA-PLP.A desvantagem das técnicas PLP e RASTA-PLP está no baixo poder de classificação para

amostras com ruídos variando entre 0dB a 10dB e a dependência do ambiente.Assim como fizemos com o MFCC, o RASTA-PLP também foi comparado com o descritor

MINERS. Os parâmetros utilizados foram baseados em [64]:

Page 44: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

3.3 PLP E RASTA-PLP 30

Figura 3.15 Etapas do algoritmo RASTA-PLP.

1. Janela de Hamming com 25ms e sobreposição de 10ms.

2. Utilização de 8 coeficientes.

As Figuras 3.16 e 3.17 mostram os resultados da aplicação desses parâmetros para amostras

Page 45: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

3.4 PNCC 31

sem ruído e com ruído a 0dB gravado em um aeroporto. A frase pronunciada foi “The birchcanoe slid on the smooth planks”.

Figura 3.16 Extração de características com RASTA-PLP.

Figura 3.17 Extração de características com RASTA-PLP em amostra ruidosa com 0dB.

3.4 PNCC

O PNCC, do inglês Power-Normalized Cepstral Coefficient, é um descritor de voz derivadodo MFCC. O mesmo foi desenvolvido com o objetivo de obter características da voz que sejarobusto em relação à variação acústica, reverberação e com a complexidade computacionalsemelhante ao MFCC e PLP [65]. A reverberação ocorre quando o som refletido atinge oobservador no instante em que o som está se extinguindo, ocasionando o prolongamento dasensação auditiva.

As diferenças do PNCC em relação às técnicas MFCC e PLP são:

Page 46: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

3.4 PNCC 32

1. Substituição da escala Mel pela escala ERB, do inglês Equivalent Rectangular Bandwidth,e filtros gammatone [66]. A função gammatone é expressa no domínio do tempo por:

g[t] = atn−1e−2πcbt cos(2π fbt +φ) (3.16)

onde:

a é a amplitude;

n é a ordem do filtro;

cb é o comprimento da banda;

fb é a frequência central da banda;

φ é a fase.

Na Figura 3.18 é mostrado um exemplo de banco de filtros gammatone.

Figura 3.18 Banco de Filtros Gammatone. Adaptada de [66].

A Equação 3.17 é responsável por converter a escala de Hertz para a escala ERB:

e = ERB( fb) = 24,7(1+0,00437 fb) (3.17)

2. Média das energias do sinal. Para reduzir o ruído nas amostras, é necessário aprofun-dar os vales do sinal, removendo as grandes elevações, pois para certos tipos de ruído,como por exemplo o ruído contínuo estacionário variando até 3 dB, costuma ser maisestacionário que o sinal da voz [66].

Page 47: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

3.4 PNCC 33

3. Substituição da função logarítmica pela função de potencialização. A função logarítmicaapresenta uma grande inclinação para valores próximos de zero, sendo bastante sensível aruído quando aplicado a pequenos valores de energia. O algoritmo MFCC é um exemplode técnica que usa função logarítmica e não apresenta bons resultados perante amostrasruidosas. Já a função de potencialização, cresce mais suavemente.

A estrutura do PNCC é visto na Figura 3.19.A primeira etapa para obter os coeficientes do PNCC é chamada de Pré-ênfase. Nesta etapa

é aplicado o filtro H(z) = 1−0,97z−1 em todo sinal da voz. Em seguida aplica-se STFT [67],do inglês Short Time Fourier Transform, em todo o sinal (já dividido em janelas) obtendo oespectro.

O espectro é dividido em bandas através dos filtros gammatone, estimando e eliminadoo ruído. As frequências centrais dos filtros gammatone são separadas linearmente através daescala ERB, variando entre 200Hz a 8000Hz. O ERB tem como característica fornecer umaboa aproximação do sistema auditivo humano.

A energia de cada banda é calculada utilizando a Equação 3.18:

Porg(m, l) =∫

π

0|X(m;e jw)Hl(e jw)|2dω (3.18)

onde:m é o número de banda;l é o número de canais gammatone;Hl(e jw) frequência de cada canal “l”;X(m;e jw) é o espectro da STFT de cada janela.

Por fim, é executado o algoritmo DCT, para acumular os coeficientes mais significativos noinício do vetor, obtendo os coeficientes.

A Figura 3.20 faz um comparativo entre a estrutura do MFCC, RASTA-PLP e PNCC.A desvantagem, em relação aos descritores MFCC e RASTA-PLP, do descritor PNCC está

no baixo poder de classificação para amostras sem ruído.Os parâmetros utilizados para o desenvolvimento do PNCC foram:

1. Janela de Hamming com 25ms e sobreposição de 10ms;

2. FFT com 1024 pontos;

3. 40 filtros gammatone;

4. 40 coeficientes.

As Figuras 3.21 e 3.22 mostram os resultados da aplicação desses parâmetros para amostrassem ruído e com ruído a 0dB gravado em um aeroporto. A frase pronunciada foi “The birchcanoe slid on the smooth planks”. Inicialmente, geramos o espectrograma para o sinal da voz.Essa etapa tem como objetivo mostrar as diferenças de frequência entre um sinal limpo e umsinal ruído. Em seguida é aplicado os filtros gammatone e por fim obtemos os coeficientes doPNCC.

Page 48: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

3.4 PNCC 34

Figura 3.19 Estrutura do PNCC. Adaptada de [8].

Page 49: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

3.4 PNCC 35

Figura 3.20 Estrutura do MFCC, RASTA-PLP e PNCC.

Figura 3.21 Espectrograma do algoritmo PNCC para amostra sem ruído. A frase pronunciada foi “Thebirch canoe slid on the smooth planks”.

Page 50: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

3.4 PNCC 36

Figura 3.22 Espectrograma do algoritmo PNCC em amostra ruidosa com 0dB. A frase pronunciada foi“The birch canoe slid on the smooth planks”.

Page 51: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

CAPÍTULO 4

Método Proposto: MINERS

No capítulo anterior, foram abordadas as técnicas de extração de características mais utili-zadas e que serviram de base para o desenvolvimento do descritor MINERS (Model Invariantto Noise and Environment and Robust for Speech) proposto.

O MINERS tem como objetivo extrair características robustas da voz, independente doambiente e da presença ou ausência do ruído. O descritor foi desenvolvido seguindo as etapas:

1. Classificação do sinal como ruidoso ou não;

2. Utilização da Transformada Wavelet [68] combinada com o PNCC2;

3. Utilização da técnica MFCC.

A Figura 4.1 mostra o processo decisório do descritor MINERS. Já a Figura 4.2 mostraas etapas da combinação do Wavelet com PNCC2 (Subseção 4.2.5). Chamamos de PNCC2 odescritor PNCC com mascaramento temporal. Neste capítulo descrevemos cada etapa dessenovo descritor de voz.

Figura 4.1 Fluxograma do algoritmo MINERS.

4.1 Classificação do sinal como ruidoso ou não

Para classificar um sinal como ruidoso ou não, utilizamos a imagem da representação dosinal de voz. Por exemplo, considere um sinal de voz ao qual é adicionado um ruído de 5dB.

37

Page 52: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

4.1 CLASSIFICAÇÃO DO SINAL COMO RUIDOSO OU NÃO 38

Figura 4.2 Wavelet combinado com PNCC2.

Page 53: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

4.1 CLASSIFICAÇÃO DO SINAL COMO RUIDOSO OU NÃO 39

Na Figura 4.3.a, vemos a transformada de Fourier do sinal limpo e, na Figura 4.3.b, temos atransformada do sinal com ruído.

Figura 4.3 Transformada de Fourier de um sinal (a) sem ruído e (b) com ruído a 5dB.

Na representação gráfica, uma imagem é criada onde cada tom está associado à amplitudedo gráfico naquela coordenada. Tons azulados indicam baixas amplitudes, enquanto tons aver-melhados indicam mais altas amplitudes. Essa escala que relaciona amplitudes com os tonspode ser vista também na Figura 4.3. Nessa figura, apesar do ruído poder ser perceptível, ele éfacilmente confundido com tons que fazem parte do sinal. Assim, uma classificação automáticado som como ruidoso ou não baseada nessa representação não é uma tarefa trivial.

Visando uma identificação mais fácil, vamos buscar outra forma de representar o sinal. Osinal é então representado na forma de coeficientes Cepstrais conforme discutido na Seção3.2. Podemos ver essa representação na Figura 4.4 para o mesmo sinal de voz da Figura 4.3nas versões sem ruído (figura a) e com ruído a 5dB (figura b). Podemos notar uma maiorconcentração de maiores amplitudes (tons avermelhados) na imagem com ruído. Assim, esse éo parâmetro usado para classificar um sinal com ou sem ruído.

Figura 4.4 MFCC de um sinal (a) sem ruído e (b) com ruído a 5dB.

A Figura 4.5 apresenta outro exemplo de um sinal sem ruído e sua versão com ruído; nova-mente, podemos observar a grande concentração de tons avermelhados na imagem gerada pela

Page 54: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

4.1 CLASSIFICAÇÃO DO SINAL COMO RUIDOSO OU NÃO 40

representação em MFCC. Devemos ressaltar que essa característica também pode ser encon-trada em um sinal de voz que represente um fonema mais forte como uma vogal. Por exemplo,um fonema ‘A’ dito com intensidade ao longo de um determinado tempo pode gerar um sinalcomo o da Figura 4.5.b. Nesta figura é apresentado um espectrograma de um trecho do fricativocontaminado por ruído aditivo, os tons avermelhados apresentam alta intensidade do sinal devoz.

Figura 4.5 Outro exemplo do cálculo da MFCC de um sinal de voz (a) sem ruído e (b) com ruído.

Logo, para classificar o sinal como ruidoso ou não, localizamos na imagem dos coeficientesMFCC os tons com valores de vermelho maiores que 120 e de verde menores que 130. Obser-vamos que os tons avermelhados não são apenas os que possuem as componentes de verde eazul iguais a zero. Os valores de 120 e 130 para os pontos de corte dos tons de vermelho e verdeforam encontrados experimentalmente. Variações nesses valores, se pequenas, não provocammudanças substanciais na resposta do sistema. Para fins de análise, esses tons são convertidospara preto enquanto o restante da imagem é convertido para branco (operação conhecida comobinarização[69] em processamento de imagens). O resultado dessa operação sobre as imagensapresentadas na Figura 4.4 pode ser visto na Figura 4.6. Nesta figura os tons avermelhados sãoconvertidos para preto e o restante para branco.

Como as imagens criadas apresentam muitos pequenos pontos espalhados, uma operaçãomorfológica de fechamento com elemento estruturante na forma de um disco de raio 2 [69]é aplicada à imagem gerada pela complementação dessas imagens (ou seja, os tons preto sãoconvertidos para branco e vice-versa). A Figura 4.7 mostra o resultado dessa operação (apósuma nova complementação). A partir dessa imagem, calculamos a porcentagem de tons pretos.Experimental definimos que se a imagem tiver menos de 22% de tons pretos, ela é consideradasem ruído. Do contrário, mais de 78% de tons pretos, ela é considerada com ruído. As imagensapresentadas na Figura 4.7 correspondem a um sinal de voz sem e com ruído classificadascorretamente, podemos ver que os pontos da imagem estão mais contínuos do que o apresentadona Figura 4.6. Novamente, o ponto de corte para classificar os sinais de voz da base NOIZEUScomo ruidosa ou não, foi definido experimentalmente observando os tons pretos (22% de tonspretos a amostra é considera sem ruído, caso contrário é considerada como amostra ruidosa).

Quando o sinal é classificado como sem ruído, o descritor MINERS utiliza o descritorMFCC com os parâmetros citados na Seção 3.2.1. Do contrário, o sinal é descrito pela combi-nação das técnica Wavelet e PNCC2, discutida na Seção 4.2 a seguir.

Page 55: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

4.1 CLASSIFICAÇÃO DO SINAL COMO RUIDOSO OU NÃO 41

Figura 4.6 Binarização dos tons avermelhados dos sinais apresentados nas Figuras (a) 4.4.a (sinal semruído) e (b) 4.4.b (sinal com ruído).

Figura 4.7 Resultado da aplicação de uma operação de fechamento morfológico nas imagens das Figu-ras (a) 4.6.a e (b) 4.6.b.

Page 56: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

4.2 WAVELET+PNCC2 42

4.2 Wavelet+PNCC2

A Wavelet permite localizar o sinal ao longo do tempo e da frequência, permitindo umamelhor análise. Esta característica ganhou notoriedade a partir dos conceito da análise multi-resolução, onde a decomposição do sinal é feita em termos de duas componentes: aproximaçãoe detalhes [70].

Um filtro passa-baixa fornece a componente de aproximação e um filtro passa-alta os deta-lhes. A Figura 4.8 mostra as componentes de aproximação e detalhes para frase “The birchcanoe slid on the smooth planks”, utilizando filtros passa-baixa e filtros passa-alta.

Figura 4.8 Componentes de aproximação e detalhes de um sinal obtidos através de filtros passa-baixae passa-alta.

Para extrair características da fala com Wavelets, é necessário escolher qual Wavelet mãeutilizar. A escolha dessa família de Wavelet varia de acordo a aplicação, pois cada uma apre-senta características distintas.

Neste trabalho, utilizamos a Wavelet mãe do tipo Daubechies[71], devido as característicasde suporte compacto, a energia fica concentrada em um pequena região, e assimetria, permitea utilização do mesmo filtro FIR, do inglês Finite Impulse Response, para decomposição ereconstrução. Existem outras Wavelets mãe que apresentam quase todas essas características,como por exemplo a Symmlets[71] e Coiflets[71], porém, escolhemos a Daubechies por ser amais utilizada no estado da arte de reconhecimento de voz.

A nomenclatura usada para as Wavelets da família Daubechies são descritas por “dbN”,onde N é a ordem da Wavelet. A Figura 4.9 mostra alguns exemplos de funções Wavelets dafamília Daubechies com variação na ordem N. Esse valor N indica o número de coeficientesusados para definir a função que representa a onda. O número de coeficientes é, por convenção,o dobro de N. Neste trabalho, utilizamos N igual a 10 que foi definido experimentalmente.

A combinação, Wavelet com PNCC2, foi proposta através da análise do comportamento decada técnica, com intuito de lidar com amostras em diversos níveis de ruído e ambiente. EmJiang et al.[72] e Bresolin [28], podemos ver a técnica Wavelet produzindo bons resultados para

Page 57: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

4.2 WAVELET+PNCC2 43

Figura 4.9 Exemplos de funções Wavelets da família Daubechies.

amostras com ruído. Já em Kim e Stern [65], [8], o poder do PNCC é exposto a variação deambiente e ruído.

Ao identificar uma amostra como ruidosa, a 10dB, 5dB ou 0dB, o descritor MINERS,descritor desenvolvido nesta dissertação que tem como objetivo extrair características indepen-dente de ambiente, utiliza os coeficientes da saída da Transformada Wavelet como entrada parao PNCC2 (Figura 4.2). Nas subseções seguintes, explanamos sobre cada etapa da combinaçãoda Wavelet com PNCC2.

4.2.1 Pré-Processamento

Nesta etapa, é aplicada a pré-ênfase no sinal da fala, de acordo a Equação 1.1, com janelade Hamming com 25ms e sobreposição de 10ms (Seção 3.1).

4.2.2 Decomposição do Sinal

Para decompor o sinal, é utilizada a WPT (Wavelet Packet Transform). Esta transformadafoi proposta por Ronald Coifman [73] para permitir uma resolução de frequência ajustável paraas altas frequências. Isso gera uma rica estrutura que permite a adaptação a sinais particulares,em troca de um custo computacional equivalente à FFT, ou seja, O(N log(N)) [72].

Com o WPT é possível dividir tanto os coeficientes de aproximação quanto os de detalhesem qualquer nível, representando o sinal em bandas de frequência com diferentes resoluções,produzindo a árvore de decomposição Wavelet Packet [73]. A Figura 4.10 exemplifica umaárvore de decomposição de três níveis, a letra “A” identifica os coeficiente de aproximaçãobem como o nível da decomposição (representados pelos números), já as que possuem a letra“D” são os coeficientes de detalhes. A Figura 4.11 aplica essa decomposição na frase “Thebirch canoe slid on the smooth planks” com ruído a 10dB, utilizando uma Wavelet da famíliaDaubechies.

O descritor MINERS utiliza uma decomposição de cinco níveis no sinal. Esse parâmetrofoi definido experimentalmente.

Page 58: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

4.2 WAVELET+PNCC2 44

Figura 4.10 Árvore de decomposição de três níveis.

Figura 4.11 Decomposição da frase “The birch canoe slid on the smooth planks” em três níveis.

Page 59: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

4.2 WAVELET+PNCC2 45

4.2.3 Wavelet Denoising

Aplicamos o Wavelet Denoising com o objetivo de reduzir a interferência causada peloruído. Para tal, analisamos os coeficientes de detalhes, sendo eliminados os valores abaixode um determinado limiar (thresholding). Com isso obtemos apenas os coeficientes com altaconcentração de energia, comparável à energia do sinal em seu estado original [74]. A Figura4.12 mostra a aplicação do denoising na frase “The birch canoe slid on the smooth planks” comruído a 10dB.

Figura 4.12 Wavelet Denoising.

4.2.4 Filtros Gammatone

Nesta etapa convertemos a escala do sinal de Hertz para ERB, conforme descrito na Seção3.4. O descritor MINERS utilizou 40 filtros gammatone.

4.2.5 Mascaramento Temporal

O mascaramento temporal, baseado em Kim [8], tem como objetivo filtrar o ruído, mesmoque o locutor pronuncie frases longas em ambientes diversos. A Figura 4.13 mostra como omascaramento temporal foi utilizado, seguindo as etapas:

1. Energia de tempo curto - Após a aplicação do filtro gammatone, cada janela do sinal éanalisada com o intuito de diminuir os efeitos do ruído. Concluída a análise, é calculadaa média da energia em cada janela do sinal. Essa média tem como objetivo normalizara energia ao longo do sinal, ocasionado pelo efeito da amplitude na escala ERB (Seção3.4).

Page 60: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

4.2 WAVELET+PNCC2 46

Figura 4.13 Mascaramento Temporal.

2. Supressão de ruído - Após a normalização do sinal, é estimado o nível de ruído. Essaetapa é possível devido à natureza do sinal limpo em variar as amplitudes mais rapida-mente do que o sinal ruidoso. O ruído foi estimado utilizando a Equação 4.1, onde aosinal é aplicado a um filtro passa-baixa.

E(r) = S−S f iltrado (4.1)

onde:E(r) é o sinal estimado;S é o sinal da etapa “Energia de tempo curto”;S f iltrado é o filtro passa-baixa.

4.2.6 DCT

Nesta etapa, é feita a compressão do sinal, conforme a Seção 3.2, colocando os coeficientesde maior energia no início do vetor. Na Figura 4.14.a vemos o sinal da frase “The birch canoeslid on the smooth plank” e, na Figura 4.14.b, apresentamos o resultado da aplicação do DCTnesse sinal.

4.2.7 Média da Normalização

Após a normalização do sinal, proveniente da etapa anterior, foi calculada a média paraobter os coeficientes utilizados na descrição da fala. O descritor MINERS utiliza 40 coeficien-tes.

Page 61: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

4.2 WAVELET+PNCC2 47

Figura 4.14 Sinal da fala (a) e aplicação do DCT (b).

Page 62: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

CAPÍTULO 5

Experimentos

Neste capítulo, descrevemos as condições dos experimentos que o descritor MINERS foiexposta. Inicialmente, apresentamos a base utilizada e em seguida explanamos sobre os ensaios,primeiro, utilizando Modelo Oculto de Markov (HMM - Hidden Markov Models), e, segundo,utilizando a Máquina de Vetores de Suporte (SVM - Support Vector Machine). Esses classifi-cadores são os mais utilizados na área de processamento da fala, apresentando bons resultadosquando expostos as amostras corrompidas. Todos os experimentos tiveram como objetivo vali-dar o descritor MINERS.

5.1 Base

Os experimentos foram feitos utilizando a base Noisy Speech Corpus (NOIZEUS)1. Essabase foi criada para testar as técnicas de processamento da fala na presença ou ausência deruído, incentivando a criação de técnicas robustas.

A base de dados NOIZEUS é constituída por 30 frases que foram gravadas por seis falantes,três homens e três mulheres, na língua inglesa. Cada falante pronunciou cinco frases distintas,em momentos distintos, utilizando diferentes microfones. As frases foram escolhidas de formaque a maioria dos fonemas da língua inglesa fosse representada. A Figura 5.1, adaptada de [75],mostra o número de fonemas pronunciados para cada classificação articulatória. Já a Tabela 5.1mostra as frases pronunciadas.

A base tem como característica apresentar sinais limpos e ruidosos. O ruído foi adicionadonas amostras utilizando a base AURORA [76] e foram gravados nos seguintes locais: multidãode pessoas, carro, salão de exposição, restaurante, rua, aeroporto, estação de trem e dentro dotrem. Os ruídos possuem uma taxa de sinal ruído que varia entre 0dB, 5dB, 10dB e 15dB. AFigura 5.2 mostra a resposta em frequência do filtro IRS [77], do inglês Intermediate ReferenceSystem. O filtro IRS foi utilizado na base para simular o sinal de voz proveniente de um telefoneanalógico. A característica desse filtro é enfatizar as frequências médias, por exemplo, umaatenuação de 10dB as frequências utilizadas ficariam entre 340Hz a 3550Hz.

5.2 Experimento 1: HMM

Para validar o descritor de voz MINERS, utilizamos o HMM [4] com intuito de classificaras frases pronunciadas. O HMM é definido como um par de processos estocásticos que repre-

1Disponível em: http://www.utdallas.edu/ loizou/speech/noizeus/, Visto em Janeiro, 2013.

48

Page 63: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

5.2 EXPERIMENTO 1: HMM 49

Figura 5.1 Quantidade de fonemas pronunciados para cada classificação articulatória. Adaptada deHu[75].

Figura 5.2 Resposta em frequência do filtro IRS.

sentam processos não observáveis, relacionado à variação temporal, e observáveis, relacionadoà variabilidade espectral. Em geral, o HMM gera sequências de observações pulando de umestado para outro, emitindo uma observação a cada salto.

O modelo de HMM mais utilizado na área de reconhecimento de voz é o modelo left-right,ou modelo de Bakis[78], no qual a sequência de estados associada ao modelo tem a propriedadede, à medida que o tempo aumenta, o índice do estado aumenta (ou permanece o mesmo), isto

Page 64: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

5.2 EXPERIMENTO 1: HMM 50

Tabela 5.1 Lista das frases presente na base NOIZEUS.Nome do arquivo Locutor Sexo Frase

sp01.wav 1 M The birch canoe slid on the smooth plankssp02.wav 1 M He knew the skill of the great young actresssp03.wav 1 M Her purse was full of useless trashsp04.wav 1 M Read verse out loud for pleasuresp05.wav 1 M Wipe the grease off his dirty facesp06.wav 2 M Men strive but seldom get richsp07.wav 2 M We find joy in the simplest thingssp08.wav 2 M Hedge apples may stain your hands greensp09.wav 2 M Hurdle the pit with the aid of a long polesp10.wav 2 M The sky that morning was clear and bright bluesp11.wav 1 F He wrote down a long list of itemssp12.wav 1 F The drip of the rain made a pleasant soundsp13.wav 1 F Smoke poured out of every cracksp14.wav 1 F Hats are worn to tea and not to dinnersp15.wav 1 F The clothes dried on a thin wooden racksp16.wav 2 F The stray cat gave birth to kittenssp17.wav 2 F The lazy cow lay in the cool grasssp18.wav 2 F The friendly gang left the drug storesp19.wav 2 F We talked of the sideshow in the circussp20.wav 2 F The set of china hit the floor with a crashsp21.wav 3 M Clams are small, round, soft and tastysp22.wav 3 M The line where the edges join was cleansp23.wav 3 M Stop whistling and watch the boys marchsp24.wav 3 M A cruise in warm waters in a sleek yacht is funsp25.wav 3 M A good book informs of what we ought to knowsp26.wav 3 F She has a smart way of wearing clothessp27.wav 3 F Bring your best compass to the third classsp28.wav 3 F The club rented the rink for the fifth nightsp29.wav 3 F The flint sputtered and lit a pine torchsp30.wav 3 F Let us all join as we sing the last chorus

é, o sistema caminha da esquerda para a direita no modelo.Os parâmetros utilizados para modelar o HMM, determinados experimentalmente, foram:

1. Utilização de trifones.

2. Modelo left-right com cinco estados;

3. Oito misturas Gaussianas.

Obtemos os trifones, utilizando o algoritmo de segmentação de fonemas proposto em [79].

Page 65: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

5.3 EXPERIMENTO 2: SVM 51

Para definir a taxa de acerto, executamos o HMM 10 vezes em toda base, portanto, a taxade acerto é a média das 10 execuções. Para melhor interpretação dos resultados, calculamos odesvio padrão para cada algoritmo (após as 10 execuções).

Além do descritor MINERS, fizemos testes com os descritores MFCC, MFCC com WaveletDenoising, PNCC e RASTA-PLP.

Na Tabela 5.2 podemos ver os resultados.

Tabela 5.2 Taxa de acerto dos descritores MINERS, MFCC, MFCC com Wavelet Denoising, PNCC eRASTA-PLP utilizando HMM.

Descritor Ruído 0dB Ruído 5dB Ruído 10dB Ruído 15dB Sinal LimpoMINERS 71,48% 71,98% 71,58% 73,20% 87,60%

Desvio Padrão 0,010 0,015 0,011 0,051 0,019MFCC 12,20% 18,50% 42,40% 75,80% 87,60%

Desvio Padrão 0,017 0,042 0,034 0,013 0,019MFCC com Denoising 41,72% 50,53% 52,00% 57,78% 60,54%

Desvio Padrão 0,032 0,025 0,022 0,012 0,021PNCC 57,50% 59,30% 62,00% 66,20% 66,00%

Desvio Padrão 0,031 0,006 0,031 0,034 0,013RASTA-PLP 11,60% 21,20% 52,20% 62,20% 69,80%

Desvio Padrão 0,010 0,020 0,023 0,018 0,016

O descritor MINERS apresentou melhores resultados entre todas as técnicas expostas aoruído e assemelhou à técnica MFCC quando exposta ao sinal limpo. Pode-se observar que oMFCC, MFCC com Wavelet Denoising, PNCC e RASTA-PLP apresentam uma melhora nataxa de acerto à medida que o ambiente se torna menos ruidoso, ruído variando entre 10dB a15dB . Já o descritor MINERS possui uma taxa de acerto estável ao longo dos ruídos, demons-trando robustez perante ao ruído.

5.3 Experimento 2: SVM

Assim como o Experimento 1, o SVM[22] foi utilizado para validar o descritor MINERS.O SVM tem atraído um grande interesse junto à comunidade científica, especialmente nas áreasde classificação, regressão e aprendizagem de máquinas.

Basicamente, o SVM faz o mapeamento do espaço de entrada para um espaço de alta dimen-sionalidade e através do cálculo de um hiperplano de separação ótimo, o SVM aprende a fron-teira entre as regiões pertencentes a cada classes. A escolha desse hiperplano é feita de formaque a distância de separação entre as amostras de treinamento sejam maximizadas.

Os parâmetros utilizados para construir o SVM, determinados experimentalmente, foram:

1. Kernel RBF, do inglês Radial Basis Function, com parâmetro de penalidade (C) igual a27 e parâmetro da largura do Kernel (Gamma) igual a 2−7;

2. Validação Cruzada com fator (K) igual a 10;

Page 66: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

5.4 ANÁLISE 52

3. Estratégia de decomposição “um-contra-todos”.

Para definir a taxa de acerto, executamos o SVM 10 vezes em toda base, portanto, a taxade acerto é a média das 10 execuções. Para melhor interpretação dos resultados, calculamos odesvio padrão para cada algoritmo (após as 10 execuções).

Além do descritor MINERS, fizemos testes com os descritores MFCC, MFCC com WaveletDenoising, PNCC e RASTA-PLP. Na Tabela 5.3 podemos ver os resultados.

Tabela 5.3 Taxa de acerto dos descritores MINERS, MFCC, MFCC com Wavelet Denoising, PNCC eRASTA-PLP utilizando SVM.

Descritor Ruído 0dB Ruído 5dB Ruído 10dB Ruído 15dB Sinal LimpoMINERS 72,48% 72,51% 72,48% 74,50% 89,20%

Desvio Padrão 0,011 0,020 0,024 0,036 0,016MFCC 16,50% 22,20% 45,40% 76,30% 89,40%

Desvio Padrão 0,043 0,022 0,039 0,018 0,016MFCC com Denoising 46,70% 54,50% 55,00% 60,88% 64,44%

Desvio Padrão 0,028 0,015 0,021 0,009 0,020PNCC 59,41% 59,69% 64,40% 70,10% 66,82%

Desvio Padrão 0,008 0,006 0,046 0,054 0,009RASTA-PLP 18,40% 25,60% 58,00% 68,40% 75,70%

Desvio Padrão 0,057 0,063 0,078 0,083 0,047

O descritor MINERS apresentou melhores resultados quando exposto ao ruído variandoentre 0dB, 5dB e 10dB, sendo um pouco inferior à técnica MFCC quando exposta ao ruídocom taxa de 15dB e ao sinal limpo. Pode-se observar que o MFCC, MFCC com WaveletDenoising, PNCC e RASTA-PLP apresentam uma melhora na taxa de acerto à medida que oruído diminui. Já o descritor MINERS possui uma taxa de acerto estável ao longo dos ruídos,demonstrando robustez perante ao ruído.

5.4 Análise

A base NOIZEUS é formada por frases gravadas com variabilidade de ruído, ambiente,locutor e transdutor (microfone) [76]. Apesar das dificuldades da base NOIZEUS, o descri-tor MINERS apresentou melhores resultados na maioria dos casos. Isso ocorreu devido àcombinação dos algoritmos que o MINERS propôs, apresentando bons filtros contra ruídos,variabilidade de ambiente e diversidade de locução.

Os classificadores demonstraram que quando conseguimos extrair as características maisimportante da fala, pitch, formantes e estruturas dos fonemas, os mesmos conseguem apresentarbons desempenhos. Nos experimentos realizados, o SVM apresentou melhores resultados queo HMM. Isso não quer dizer que o poder de discriminação do SVM seja melhor que o HMM,visto que não foram realizados ajustes suficientes nas técnicas para afirmar que um classificadoré superior ao outro. A vantagem do SVM é os poucos parâmetros que a técnica necessita paraapresentar boas margens de classificação.

Page 67: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

5.4 ANÁLISE 53

Apesar das boas taxas de acertos que o descritor MINERS apresentou, esses resultadospoderiam ser ainda melhores se a etapa do algoritmo denominado de “classificação do sinalcomo ruidoso ou não” não falhasse em alguns casos. As Figuras 5.3, 5.4 e 5.5, mostram a frase“The set of china hit the floor with a cras” com ruído de carro a 10dB que foi classificada comonão ruidosa.

Essa etapa é fundamental para o descritor MINERS, pois é a partir dessa análise que odescritor irá escolher qual técnica utilizar.

Figura 5.3 MFCC da frase “The set of china hit the floor with a cras”.

Page 68: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

5.4 ANÁLISE 54

Figura 5.4 Binarização dos tons avermelhados do sinal apresentado na Figura 5.3 conforme descrito noalgoritmo.

Figura 5.5 Resultado da aplicação da operação de fechamento morfológico na imagem da Figura 5.4conforme descrito no algoritmo.

Page 69: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

CAPÍTULO 6

Conclusão

O reconhecimento automático da fala tem sido a meta de muitos pesquisadores há mais decinco décadas. Apesar dos muitos avanços alcançados na área, ainda encontram-se dificuldadespara o reconhecimento da fala contínua na presença de ruído e com variabilidade de ambiente.

Este trabalho explorou uma das etapas fundamentais para o reconhecimento da fala, adescrição da voz. É nesta etapa que conseguimos extrair as características da fala, possibi-litando o desenvolvimento de um reconhecedor automático para fala.

Com intuito de explorar o comportamento das técnicas expostas ao ruído, apresentamos osdescritores da voz mais conhecidos na literatura, elencando as vantagens e desvantagens paracada método. Percebemos que os descritores MFCC e RASTA-PLP apresentam bons resultadospara amostras sem ruído. Já o PNCC apresenta melhores resultados para amostras ruidosas.Portanto, não encontramos uma técnica capaz de apresentar bons resultados independente deruído e ambiente.

O descritor MINERS, proposto neste trabalho, teve como objetivo extrair atributos da falacontínua, independente de ruído, ambiente e locução. Essa técnica apresentou melhores resulta-dos em praticamente todos os casos testados. Isso se deve a combinação das técnicas propostase a identificação se a amostra é ruidosa ou não. Vale ressaltar a uniformidade dos resulta-dos da técnica, mesmo quando exposta a diferentes classificadores, demonstrando que quandoos atributos da fala são bem extraídos, o processo decisório dos classificadores torna-se maiseficiente.

Com o objetivo de validar a proposta, utilizamos os classificadores HMM e SVM. Escolhe-mos esses classificadores por serem os mais utilizados no estado da arte de reconhecimento devoz. O melhor resultado foi obtido utilizando o descritor MINERS com o SVM. Vale ressal-tar que os resultados poderiam ser ainda melhores se a etapa denominada de “classificação daamostra com ruído ou não” não apresentassem erros ao classificar as amostras.

Outra contribuição dos estudos desenvolvidos durante esta dissertação foi o artigo “Speechand Phoneme Segmentation Under Noisy Environment Through Spectrogram Image Analysis”,publicado no IEEE International Conference on Systems, Man and Cybernetics (SMC), Seoul,Coreia do Sul, 2012.

Para trabalhos futuros sugere-se:

1. Melhorar a etapa de “classificação da amostra com ruído ou não” do descritor MINERS.Essa etapa apresentou falhas em amostras com pouco ruído, prejudicando a taxa deacerto.

2. Utilizar PCA (Principal Component Analysis) para reduzir a dimensionalidade dos coefi-cientes.

55

Page 70: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

CAPÍTULO 6 CONCLUSÃO 56

3. Utilizar o descritor MINERS com outros arcabouços para o reconhecimento automáticoda fala, como por exemplo o Julius [80].

4. Utilizar o descritor MINERS em outras bases. Com intuito de melhorar o desenvolvi-mento de aplicativos para acessibilidade.

5. Utilizar outros parâmetros no descritor MINERS, como por exemplo o número de coefi-cientes, decomposição e filtros gammatone na etapa Wavelet + PNCC2, e nos classifi-cadores, como por exemplo o número de estados e misturas Gaussianas no HMM ouutilizar outra estratégia de decomposição no SVM, a fim de obter uma melhor taxa deacerto.

6. Avaliar outras técnicas de supressão de ruído.

Page 71: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

Referências Bibliográficas

[1] A. Alcaim e S. Santos. Sílabas como unidades fonéticas para o reconhecimento de vozem português. SBA Controle & Automação, 2011.

[2] F. Alleva, X. Huang, and M.Y. Hwang. An improved search algorithm using incremen-tal knowledge for continuous speech recognition. In IEEE International Conference onAcoustics, Speech, and Signal Processing (ICASSP), 1993.

[3] N. Deshmukh. Survey of the State of the Art in Human Language Technology. CambridgeUniversity Press, 1997.

[4] L. Rabiner. A tutorial on hidden markov models and selected applications in speechrecognition. Proceedings of the IEEE, 1989.

[5] M. Goyani, N. Dave, and N. Patel. Performance analysis of lip synchronization usinglpc, mfcc and plp speech parameters. In International Conference on ComputationalIntelligence and Communication Networks (CICN), 2010.

[6] H. Combrinck and E. Botha. On the mel-scaled cepstrum. In IEEE International Confe-rence on Acoustics, Speech, and Signal Processing (ICASSP), 1996.

[7] M. Rahman and M. Islam. Performance evaluation of mlpc and mfcc for hmm basednoisy speech recognition. In International Conference on Computer and InformationTechnology (ICCIT), 2010.

[8] C. Kim and R. Stern. Power-normalized cepstral coefficients (pncc) for robust speechrecognition. In IEEE International Conference on Acoustics, Speech and Signal Proces-sing (ICASSP), 2012.

[9] K. Davis, R. Biddulph, and S. Balashek. Automatic recognition of spoken digits. TheJournal of the Acoustical Society of America, 1952.

[10] D. Fry. Theoretical aspects of mechanical speech recognition. British Institution of RadioEngineers, 1959.

[11] J. Suzuki and K. Nakata. Recognition of japanese vowels preliminary to the recognitionof speech. Journal Radio Research, 1961.

[12] K. Nagata and Y. Kato. Spoken digit recognizer for japanese language. NEC Res Develop,1963.

57

Page 72: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

REFERÊNCIAS BIBLIOGRÁFICAS 58

[13] T. Sakay and S. Doshita. The phonetic typewrite. IRE Transactions on Audio, 1962.

[14] T. Martin and A. Nelson. Speech Recognition by Feature-abstraction Techniques. Clea-ringhouse, 1964.

[15] V. Velichko and N. Zagoruyko. Automatic recognition of 200 words. International Jour-nal of Man-Machine Studies, 1970.

[16] H. Sakoe and S. Chiba. Dynamic programming algorithm optimization for spoken wordrecognition. In IEEE International Conference on Acoustics, Speech, and Signal Proces-sing (ICASSP), 1978.

[17] F. Itakura. Minimum prediction residual principle applied to speech recognition. In IEEEInternational Conference on Acoustics, Speech, and Signal Processing (ICASSP), 1975.

[18] C. Chen. Pattern recognition and artificial intelligence. Academic Press Rapid Manus-cript Reproduction, 1976.

[19] L. Baum and T. Petrie. Statistical inference for probabilistic functions of finite statemarkov chains. Annals of Mathematical Statistics, 1966.

[20] W. McCulloch and W. Pitts. A logical calculus of the ideas immanent in nervous activity.The Bulletin of Mathematical Biophysics, 1943.

[21] F. Rosenblatt. The perceptron: A probabilistic model for information storage and organi-zation in the brain. Psychological Review, 1958.

[22] V. Vapnik. Principles of risk minimization for learning theory. Advances in Neural Infor-mation Processing Systems, 1992.

[23] L. Breiman. Bagging predictors. In Machine Learning, 1996.

[24] T. Mitchell. Machine Learning. McGraw-Hill, Inc., 1997.

[25] Y. Freund and R. Schapire. A decision-theoretic generalization of on-line learning andan application to boosting. In European Conference on Computational Learning Theory(EuroCOLT), 1995.

[26] G. Saon and H. Soltau. Boosting systems for large vocabulary continuous speech recog-nition. Speech Commun, 2012.

[27] L. Rabiner and R. Schafer. Introduction to Digital Speech Processing. Foundations andTrends in Signal Processing Series, 2007.

[28] A. Bresolin. Reconhecimento de voz através de unidades menores do que a palavra,utilizando wavelets packet e svm em uma nova estrutura hierárquica de decisão. Tese deDoutorado, Universidade Federal do Rio Grande do Norte, 2008.

[29] L. Rabiner and B. Juang. Fundamentals of speech recognition. Prentice-Hall, Inc., 1993.

Page 73: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

REFERÊNCIAS BIBLIOGRÁFICAS 59

[30] P. Lapsley. DSP processor fundamentals: architectures and features. IEEE Press serieson signal processing, 1997.

[31] H. Nyquist. Certain topics in telegraph transmission theory. Transactions of the AmericanInstitute of Electrical Engineers, 1928.

[32] A. Oppenheim, S. Willsky, and I. Young. Signals and systems. Prentice-Hall signalprocessing series, 1983.

[33] P. Ladefoged and K. Johnson. A Course in Phonetics. Cengage Learning, 2010.

[34] L. Bisol. Introdução a estudos de fonologia do português brasileiro. Edipucrs, 2001.

[35] L. Bisol and C. Brescancini. Fonologia e variação: recortes do Português brasileiro.EDIPUCRS, 2002.

[36] D. Hora and G. Collischonn. Teoria lingüística: fonologia e outros temas. Editora Univer-sitária, 2003.

[37] M. Mateus, I. Falé, and J. Freitas. Fonética e fonologia do português. UniversidadeAberta, 2005.

[38] L. Bispo. Reconhecimento de voz contínua para o português utilizando modelos demarkov escondidos. Tese de Doutorado, Programa de Pós-Graduação em EngenhariaElétrica: PUC-Rio, 1997.

[39] J. Solewicz, A. Moraes, and A. Alcaim. Text-to-speech system for brazilian portugueseusing a reduced set of synthesis units. In International Symposium on Speech, ImageProcessing and Neural Networks (ISSIPNN), 1994.

[40] F. Malbos, M. Baudry, and S. Montresor. Detection of stop consonants with the wave-let transform. In International Symposium on Time-Frequency and Time-Scale Analysis(TFSA), 1994.

[41] B. Marchesi, Jr. Lippmann, and P. Nohama. Voice recognition method applied to brazilianvowels. In Annual International Conference Engineering in Medicine and Biology Society(EMBC), 1996.

[42] O. Deshmukh, Y. Wilson, and A. Juneja. Acoustic-phonetic speech parameters forspeaker-independent speech recognition. In IEEE International Conference on Acous-tics, Speech, and Signal Processing (ICASSP), 2002.

[43] F. Rodrigues and C. Yehia. Caracterização acústica das vogais do português brasileirovisando a normalização de locutores. In Seminário de Engenharia de Áudio, 2002.

[44] O. Farooq and S. Datta. Phoneme recognition using wavelet based features. Informaticsand Computer Science, 2003.

Page 74: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

REFERÊNCIAS BIBLIOGRÁFICAS 60

[45] S. Young. A review of large-vocabulary continuous-speech. Signal Processing Magazine,1996.

[46] L. Rabiner and R. Schafer. Digital processing of speech signals. Prentice-Hall signalprocessing series, 1978.

[47] M. Behlau. Avaliação e tratamento das disfonias. Editora Lovise, 1995.

[48] Y. Song and X. Peng. Spectra analysis of sampling and reconstructing continuous signalusing hamming window function. In International Conference on Natural Computation(ICNC), 2008.

[49] P. Polur and G. Miller. Experiments with fast fourier transform, linear predictive and ceps-tral coefficients in dysarthric speech recognition algorithms using hidden markov model.Neural Systems and Rehabilitation Engineering, 2005.

[50] M. Kuhne, R. Togneri, and S. Nordholm. Mel-spectrographic mask estimation for missingdata speech recognition using short-time-fourier-transform ratio estimators. In Internati-onal Conference on Acoustics, Speech and Signal Processing (ICASSP), 2007.

[51] S. Stevens and E. Newman. A scale for the measurement of the psychological magnitudeof pitch. Journal of the Acoustical Society of America, 1937.

[52] I. Patel and Y. Rao. Speech recognition using hidden markov model with mfcc-subbandtechnique. In International Conference on Recent Trends in Information, Telecommuni-cation and Computing(ITC), 2010.

[53] W. Cooley and W. Tukey. An algorithm for the machine calculation of complex fourierseries. Mathematics of Computation, 1965.

[54] J. Blinn. What’s the deal with the dct? IEEE Computer Graphics and Applications, 1993.

[55] A. Amita and P. Bansal. Robust features for noisy speech recognition using mfcc compu-tation from magnitude spectrum of higher order autocorrelation coefficients. InternationalJournal of Computer Applications, 2010.

[56] M. Hossan, S. Memon, and A. Gregory. A novel approach for mfcc feature extraction. InInternational Conference on Signal Processing and Communication Systems (ICSPCS),2010.

[57] H. Hermansky. Perceptual linear predictive (PLP) analysis of speech. Journal of theAcoustical Society of America, 1990.

[58] J. Junqua, H. Wakita, and H. Hermansky. Evaluation and optimization of perceptually-based asr front-end. IEEE Transactions on Speech and Audio Processing, 1993.

[59] J. Picone. Signal modeling techniques in speech recognition. Proceedings of the IEEE,1993.

Page 75: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

REFERÊNCIAS BIBLIOGRÁFICAS 61

[60] S. Stevens. On the psychophysical law. Psychological Review, 1957.

[61] H. Hermansky, N. Morgan, A. Bayya, and P. Kohn. Rasta-plp speech analysis. In IEEEInternational Conference on Acoustics, Speech and Signal Processing (ICASSP), 1991.

[62] B. Hanson and T. Applebaum. Subband or cepstral domain filtering for recognition oflombard and channel-distorted speech. In IEEE international Conference on Acoustics,Speech, and Signal Processing (ICASSP), 1993.

[63] J. Koehler, N. Morgan, H. Hermansky, H. Hirsch, and G. Tong. Integrating rasta-plp intospeech recognition. In IEEE International Conference on Acoustics, Speech, and SignalProcessing (ICASSP), 1994.

[64] H. Hermansky and N. Morgan. Rasta processing of speech. IEEE Transactions on Speechand Audio Processing, 1994.

[65] C. Kim and R. Stern. Feature extraction for robust speech recognition based on maximi-zing the sharpness of the power distribution and on power flooring. In IEEE InternationalConference on Acoustics Speech and Signal Processing (ICASSP), 2010.

[66] R. Patterson and J. Holdsworth. Advances in Speech, Hearing and Language Processing.Jai Press, 1996.

[67] J. Allen. Short term spectral analysis, synthesis, and modification by discrete fouriertransform. In IEEE International Conference on Acoustics Speech and Signal Processing(ICASSP), 1977.

[68] J. Morlet, G. Arens, E. Fourgeau, and D. Giard. Wave propagation and sampling theory.Geophysics, 1982.

[69] R. Gonzalez and R. Woods. Digital Image Processing. Pearson/Prentice Hall, 2008.

[70] S. Mallat. A Wavelet Tour of Signal Processing. Academic Press, 2009.

[71] I. Daubechies. Ten Lectures on Wavelets. Society for Industrial and Applied Mathematics,1992.

[72] H. Jiang, M. Joo, and Y. Gao. Feature extraction using wavelet packets strategy. In IEEEConference on Decision and Control (CDC), 2003.

[73] R. Coifman, Y. Meyer, and V. Wickerhauser. Wavelet analysis and signal processing. InWavelets and Their Applications, 1992.

[74] D. Donoho and I. Johnstone. Ideal denoising in an orthonormal basis chosen from alibrary of bases. Comptes Rendus Academic Science, 1994.

[75] Y. Hu and P. Loizou. Subjective comparison of speech enhancement algorithms. In IEEEInternational Conference on Acoustics, Speech and Signal Processing (ICASSP), 2006.

Page 76: Universidade Federal de Pernambuco Centro de Informática … · O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução

REFERÊNCIAS BIBLIOGRÁFICAS 62

[76] P. David, H. Hirsch, and E. Ericsson. The aurora experimental framework for the perfor-mance evaluation of speech recognition systems under noisy conditions. In InternationalConference on Spoken Language Processing (ICSLP), 2000.

[77] Telecommunication Standardization Sector of ITU. ITU-T Recommendation P.56:Telephone Transmission Quality Objective Measuring Apparatus. International Telecom-munication Union, 1994.

[78] J. Deller, J. Hansen, and J. Proakis. Discrete-time processing of speech signals. Instituteof Electrical and Electronics Engineers, 2000.

[79] D. Costa, G. Lopes, C. Mello, and H. Viana. Speech and phoneme segmentation undernoisy environment through spectrogram image analysis. In IEEE International Confe-rence on Systems, Man, and Cybernetics (SMC), 2012.

[80] A. Lee, T. Kawahara, and K. Shikano. Julius: An open source real-time large vocabularyrecognition engine. In European Conference on Speech Communication and Technology(Eurospeech), 2001.