UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ PROGRAMA DE …repositorio.utfpr.edu.br/jspui/bitstream/1/1799/1/CT... · 2016. 10. 26. · Marcia, Lucas, Denise e Marilisa. O apoio

UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁPROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA BIOMÉDICA

ANDRÉA ALVES GUIMARÃES DRESCH

MÉTODO PARA RECONHECIMENTO DE VOGAIS E EXTRAÇÃO DEPARÂMETROS ACÚSTICOS PARA ANÁLISES FORENSES

DISSERTAÇÃO

CURITIBA

2015

ANDRÉA ALVES GUIMARÃES DRESCH

MÉTODO PARA RECONHECIMENTO DE VOGAIS E EXTRAÇÃO DEPARÂMETROS ACÚSTICOS PARA ANÁLISES FORENSES

Dissertação apresentada ao Programa dePós-Graduação em Engenharia Biomédicada Universidade Tecnológica Federal doParaná como requisito parcial para obtençãodo grau de “Mestre em Ciências” – Área deConcentração: Engenharia Biomédica.

Orientador: Prof. Dr. Hugo Vieira Neto

Coorientador: Prof. Dr. Rubens Alexandre deFaria

CURITIBA

2015

Dados Internacionais de Catalogação na Publicação

D773m Dresch, Andréa Alves Guimarães

2015 Método para reconhecimento de vogais e extração de

parâmetros acústicos para análises forenses / Andréa Alves

Guimarães Dresch.-- 2015.

105 f.: il.; 30 cm

Texto em português, com resumo em inglês.

Dissertação (Mestrado) - Universidade Tecnológica

Federal do Paraná. Programa de Pós-graduação em Engenharia

Biomédica, Curitiba, 2015.

Bibliografia: f. 67-72.

1. Fonética acústica. 2. Fonética forense. 3. Língua

portuguesa - Vogais. 4. Processamento de sinais -

Modelos matemáticos. 5. Teoria da previsão. 6. Medição.

7. Métodos de simulação. 8. Engenharia biomédica -

Dissertações. I. Vieira Neto, Hugo, orient. II. Faria,

Rubens Alexandre de, coorient. III. Universidade Tecnológica

Federal do Paraná. Programa de Pós-graduação em Engenharia

Biomédica. IV. Título.

CDD: Ed. 22 -- 610.28

Biblioteca Central da UTFPR, Câmpus Curitiba

UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ

Campus Curitiba

Programa de Pós-Graduação em Engenharia Biomédica

Título da Dissertação Nº 048

“Método para reconhecimento de vogais e extração de parâmetros acústicos para análises forenses”

por

Andréa Alves Guimarães Dresch ÁREA DE CONCENTRAÇÃO: Engenharia Biomédica.

LINHA DE PESQUISA: Instrumentação Biomédica.

Esta dissertação foi apresentada como requisito parcial à obtenção do grau de MESTRE EM CIÊNCIAS (M.Sc.) – Área de Concentração: Engenharia Biomédica, pelo Programa de Pós-Graduação em Engenharia Biomédica (PPGEB), – da Universidade Tecnológica Federal do Paraná (UTFPR), Campus Curitiba, às 10h00min do dia 14 de dezembro de 2015. O trabalho foi aprovado pela Banca Examinadora, composta pelos professores:

________________________________ Prof. Rubens Alexandre de Faria, Dr.

(Presidente – UTFPR)

________________________________ Prof. Luiz Eduardo Soares de Oliveira , Dr.

(UFPR)

________________________________ Prof. André Eugênio Lazzaretti, Dr.

(UTFPR)

Visto da coordenação:

________________________________ Profª. Leandra Ulbricht.,Drª. (Coordenadora do PPGEB)

AVISO: A Folha de Aprovação assinada encontra-se na Coordenação do PPGEB.

À vovó Corina (in memoriam).

AGRADECIMENTOS

O caminho dessa etapa da minha vida só foi possı́vel de ser percorrido por

valiosas contribuições que recebi. Por isso expresso minha gratidão a essas pessoas.

Agradeço ao Grupo de Estudos dos Sons da Fala da UTFPR, em especial à

professora Malu, pela cessão de amostras de áudio utilizadas neste trabalho.

Agradeço aos colegas do LAPIS, especialmente Eduardo, Philipe, Charles e

Ricardo, pelo convı́vio que permitiu um imenso aprendizado.

Agradeço aos meus colegas da Seção de Perı́cias Audiovisuais, Aninha, Ivo,

Márcia, Lucas, Denise e Marilisa. O apoio de vocês foi muito importante.

Agradeço ao meu orientador Hugo Vieira Neto, que tem tido um papel

fundamental em minha formação. Nos momentos crı́ticos sempre soube trazer a

motivação necessária.

Ao meu coorientador Rubens Alexandre Faria por abrir as portas para

Engenharia Forense no programa.

A André Eugênio Lazzareti, pelo auxı́lio com as análises dos resultados dos

experimentos.

Agradeço aos meus familiares e amigos, por toda compreensão neste perı́odo.

À minha mãe, dona Aparecida, por todas as orações sempre que eu precisava.

Aos meus irmãos Karine, Rogério e Lucas, sempre irmãozinhos no meu

coração.

À Josianne, irmã por afinidade, pela amizade que atravessa os anos.

Agradeço ao meu esposo, Marcio, companheiro de jornada e meu melhor

amigo, sempre me amparando em todos os passos.

“Caminhante, não há caminho, faz-se caminho ao andar.”(Antônio Machado Ruiz)

“NÃO ENTRE EM PÂNICO!”(Douglas Adams, Guia do Mochileiro das Galáxias)

RESUMO

Dresch, Andréa Alves Guimarães. MÉTODO PARA RECONHECIMENTO DE VOGAISE EXTRAÇÃO DE PARÂMETROS ACÚSTICOS PARA ANÁLISES FORENSES. 105 f.Dissertação – Programa de Pós-Graduação em Engenharia Biomédica, UniversidadeTecnológica Federal do Paraná. Curitiba, 2015.

Exames de Comparação Forense de Locutores apresentam caracterı́sticascomplexas, demandando análises demoradas quando realizadas manualmente.Propõe-se um método para reconhecimento automático de vogais com extração decaracterı́sticas para análises acústicas, objetivando-se contribuir com uma ferramentade apoio nesses exames. A proposta baseia-se na medição dos formantes atravésde LPC (Linear Predictive Coding), seletivamente por detecção da frequênciafundamental, taxa de passagem por zero, largura de banda e continuidade, sendo oagrupamento das amostras realizado por meio do método k-means. Experimentosrealizados com amostras de três diferentes bases de dados trouxeram resultadospromissores, com localização das regiões correspondentes a cinco das vogais doPortuguês Brasileiro, propiciando a visualização do comportamento do trato vocal deum falante, assim como detecção de trechos correspondentes às vogais-alvo.

Palavras-chave: Análise Acústica, Exame de Comparação de Locutores, FonéticaForense, Processamento de Sinais de Áudio, Trapézio Fonético.

ABSTRACT

Dresch, Andréa Alves Guimarães. METHOD FOR RECOGNITION OF VOWELS ANDEXTRACTION OF ACOUSTIC PARAMETERS FOR FORENSIC ANALYSIS. 105 f.Master’s Dissertation – Post-graduation Program in Biomedical Engineering, FederalUniversity of Technology - Paraná. Curitiba, 2015.

Forensic Speaker Comparison exams have complex characteristics, demanding a longtime for manual analysis. A method for automatic recognition of vowels, providingfeature extraction for acoustic analysis is proposed, aiming to contribute as a supporttool in these exams. The proposal is based in formant measurements by LPC (LinearPredictive Coding), selectively by fundamental frequency detection, zero crossing rate,bandwidth and continuity, with the clustering being done by the k-means method.Experiments using samples from three different databases have shown promisingresults, in which the regions corresponding to five of the Brasilian Portuguese vowelswere successfully located, providing visualization of a speaker’s vocal tract behavior,as well as the detection of segments corresponding to target vowels.

Keywords: Acoustic Analysis, Audio Signal Processing, Forensic Phonetics, ForensicSpeaker Comparison Exam, Phonetic Trapezium.

LISTA DE FIGURAS

–FIGURA.1 Fluxograma das etapas principais da proposta . . . . . . . . . . . . . . . . . . . . 18–FIGURA.2 Diagrama em corte sagital do aparelho fonador com indicação dos

sistemas que o compõem e seus principais elementos . . . . . . . . . . . . 22–FIGURA.3 Diagrama esquemático do mecanismo de produção de voz humana 23–FIGURA.4 Comparação entre os espectros LPC e FFT . . . . . . . . . . . . . . . . . . . . . . . 26–FIGURA.5 Trapézio vocálico fonético de acordo com o IPA . . . . . . . . . . . . . . . . . . . 28–FIGURA.6 Sobreposição do gráfico de F1×F2 com ilustração com posição da

lı́ngua durante a produção das vogais orais tônicas . . . . . . . . . . . . . . . . 29–FIGURA.7 Fluxograma dos algoritmos implementados . . . . . . . . . . . . . . . . . . . . . . . 35–FIGURA.8 Gráfico de nuvem de pontos F1×F2 com os valores de formantes

obtidos para todos os pontos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36–FIGURA.9 Gráfico de nuvem de pontos F1×F2 com os valores de formantes

após análise de F0 e de ZCR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37–FIGURA.10 Gráfico de nuvem de pontos F1×F2 com os valores de formantes

após análise inicial de agrupamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38–FIGURA.11 Gráficos de um trecho de áudio: forma de onda com sobreposição

de traçados de STE e ZCR e espectrogramas com sobreposição decurvas de F0 e de formantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

–FIGURA.12 Gráficos de nuvens de pontos F1×F2 referentes a diferentes trilhasde formantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

–FIGURA.13 Fluxogramas dos algoritmos implementados para agrupamento ebusca de centroides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

–FIGURA.14 Divisão do espaço F1 × F2 em regiões horizontais a partir dosmı́nimos obtidos através da função da densidade de probabilidade 44

–FIGURA.15 Subdivisão de região do espaço F1 × F2 a partir dos mı́nimos emáximos da função densidade de probabilidade para inicializaçãodos centroides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

–FIGURA.16 Distribuição dos valores de razão entre as distâncias resultantes dosMétodos 1 e 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

–FIGURA.17 Gráfico de nuvem de pontos F1 × F2 com indicação do centroideassociado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

–FIGURA.18 Gráficos de nuvens de pontos e trechos F1×F2 sobrepostos peloscentroides resultantes obtidos pelos Métodos 1 e 2 . . . . . . . . . . . . . . . . 53

–FIGURA.19 Gráficos LTAS (Long Term Average Spectrum) . . . . . . . . . . . . . . . . . . . . 55–FIGURA.20 Boxplots com comparativo das distribuições de F1×F2 de amostras

do grupo GC com degradações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60–FIGURA.21 Gráficos de nuvens de pontos F1×F2 e boxplots das distribuições

dos formantes em diferentes trechos de uma amostra. . . . . . . . . . . . . 62

LISTA DE TABELAS

–TABELA.1 Amostras de dados utilizadas nos experimentos . . . . . . . . . . . . . . . . . . . 34–TABELA.2 Resultados dos centroides do grupo GC da UTFPR obtidos após

agrupamento por meio dos Métodos 1 e 2 . . . . . . . . . . . . . . . . . . . . . . . . . 48–TABELA.3 Diferenças entre os centros as referências do grupo GC da UTFPR

após agrupamento por meio dos Métodos 1 e 2 . . . . . . . . . . . . . . . . . . . . 49–TABELA.4 Diferença percentual da distância entre a fronteira de cada região a

referência mais próxima, com agrupamento pelos Métodos 1 e 2 . . . 51–TABELA.5 Quantidade de referências localizadas internamente às regiões

delimitadas por meio dos Métodos 1 e 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 51–TABELA.6 Corpus UTFPR: percentual de vogais-alvo representadas na nuvem

final e percentual médio das amostras dessas vogais . . . . . . . . . . . . . . 54–TABELA.7 Diferença dos valores F1 e F2 dos centroides em relação aos valores

de referência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56–TABELA.8 Percentual de vogais-alvo representadas na nuvem final - grupos do

corpus UTFPR sem degradação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56–TABELA.9 Diferença dos valores F1 e F2 dos centroides em relação aos valores

de referência, amostras com codificação . . . . . . . . . . . . . . . . . . . . . . . . . . . 57–TABELA.10 Teste t de Student para comparar valores obtidos com amostras

submetidas a codificações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57–TABELA.11 Percentual de vogais-alvo representadas na nuvem final - grupos do

corpus UTFPR com codificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58–TABELA.12 Número de centroides reconhecidos nos grupos analisados após

adição de ruı́do ao sinal das amostras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58–TABELA.13 Diferença dos valores F1 e F2 dos centroides em relação aos valores

de referência, amostras com adição de ruı́do . . . . . . . . . . . . . . . . . . . . . . 59–TABELA.14 Teste t de Student para comparar valores obtidos com amostras com

adição de ruı́do codificações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59–TABELA.15 Percentual de vogais-alvo representadas na nuvem final - grupos do

corpus UTFPR com adição de ruı́do . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60–TABELA.16 Diferença dos valores de centroides em comparações intrafalantes

para amostras do corpus C-ORAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

LISTA DE SIGLAS

CL Comparação de LocutoresMFCC Mel-Frequency Cepstral CoefficientsLPCC Linear Prediction Cepstral CoefficientsHMM Hidden Markov ModelGMM Gaussian Mixture ModelSVM Support Vector MachineZCR Zero Crossing RateSTE Short Term EnergyMDF Most Dominant FrequencyF0 Frequência FundamentalF1 Primeiro FormanteF2 Segundo FormanteFn Enésimo FormanteLPC Linear Predictive CodingFFT Fast Fourier TransformPB Português BrasileiroIPA International Phonetic AlphabetBW1 Banda de passagem de F1BW2 Banda de passagem de F2PCM Pulse Code ModulationAMR-nb Adaptative multi rate - narrow bandAMR Adaptative multi rate3GPP 3rd Generation Partnership ProjectMP3 MPEG layer 3LTAS Long Term Average Spectrum

LISTA DE SÍMBOLOS

rx(τ) Autocorrelação do sinalrxw(τ) Autocorrelação do sinal após janelamentorw(τ) Autocorrelação da janelas[n] Sinal de saı́dax[n] Sinal de áudio de entradam Número de coeficientes LPCŝ[n] Sinal de saı́da estimado através dos coeficientes LPCa[i] Coeficientes LPCe[n] Erro de predição do sistema LPCyn Predição linear das amostras anterioreszn Predição linear das amostras posterioresK Número de agrupamentos do método k-meansd Distância Euclidianaµµµkkk K-ésimo centro de agrupamento do método k-meansrnk Rótulo do enésimo padrão de entradaxxxnnn Enésimo padrão de entrada do método k-meansµ Média da distribuição

SUMÁRIO

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.1 MOTIVAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.2 OBJETIVOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.2.1 Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.2.2 Objetivos Especı́ficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.3 ABORDAGEM PROPOSTA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.4 ESTRUTURA DA DISSERTAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 TRABALHOS CORRELATOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 FUNDAMENTAÇÃO TEÓRICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.1 PRODUÇÃO DE VOZ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.1.1 Sistema Respiratório . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.1.2 Sistema Laringeal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.1.3 Sistema Articulatório . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.2 TEORIA FONTE-FILTRO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.2.1 Frequência Fundamental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.2.2 Formantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.3 FONEMAS DO PORTUGUÊS BRASILEIRO (PB) . . . . . . . . . . . . . . . . . . . . . . . . . . 273.3.1 Vogais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.3.2 Semivogais ou Glides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.3.3 Consoantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.4 MODELO DE AGRUPAMENTO K-MEANS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314 MATERIAIS E MÉTODOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.1 AMOSTRAS DE DADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.1.1 Corpus UTFPR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.1.2 Corpus SPOLTECH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.1.3 Corpus C-ORAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344.2 FERRAMENTAL DE EDIÇÃO DE ÁUDIO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.3 ALGORITMOS UTILIZADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.3.1 Pré-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.3.2 Rotina para Cálculo da Taxa de Passagem por Zero . . . . . . . . . . . . . . . . . . . . . . . 374.3.3 Detecção da Frequência Fundamental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.3.4 Cálculo de Formantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384.3.5 Seleção de Amostras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.3.6 Continuidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.3.7 Modelo de Agrupamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.3.8 Inicialização dos Centroides - “Método 1” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.3.9 Inicialização dos Centroides - “Método 2” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455 EXPERIMENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.1 COMPARAÇÃO ENTRE OS MÉTODOS DE INICIALIZAÇÃO . . . . . . . . . . . . . . . 465.2 ALOCAÇÃO DOS CENTROIDES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.3 RECONHECIMENTO DOS TRECHOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.4 CODIFICAÇÃO DOS SINAIS DE ÁUDIO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

5.5 ADIÇÃO DE RUÍDO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475.6 COMPARAÇÃO INTRAFALANTES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 476 RESULTADOS E DISCUSSÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486.1 COMPARAÇÃO ENTRE OS MÉTODOS DE INICIALIZAÇÃO . . . . . . . . . . . . . . . 486.1.1 Alocação dos Centroides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486.1.2 Reconhecimento dos Trechos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 536.1.3 Média Espectral após o Reconhecimento dos Trechos . . . . . . . . . . . . . . . . . . . . . 546.2 RESULTADOS PARA DEGRADAÇÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556.2.1 Codificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 566.2.2 Adição de Ruı́do . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 586.3 RESULTADOS PARA COMPARAÇÃO INTRAFALANTES . . . . . . . . . . . . . . . . . . . 617 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 637.1 TRABALHOS FUTUROS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67APÊNDICE A - CÓDIGO DOS PROGRAMAS GERADOS NO PRAAT . . . . . . . . . . 73A.1 ROTINA PARA CÁLCULO E GERAÇÃO DE TABELAS COM VALORES DE

STE, ZCR, F0 E TRILHAS DE F1,2,3 E BW1,2,3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73A.2 ROTINA PARA CRIAÇÃO DE TEXTGRIDS COM VALORES DE TRECHOS 82APÊNDICE B - CÓDIGO DOS PROGRAMAS GERADOS NO MATLAB . . . . . . . . . 86B.1 FUNÇÃO PRINCIPAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86B.2 FUNÇÃO PARA FORMATAR TABELAS GERADAS NO PRAAT . . . . . . . . . . . . . 87B.3 FUNÇÕES PARA GERAR NUVEM DE PONTOS F1×F2 - MÉTODO 1 . . . . . . 88B.4 FUNÇÕES PARA GERAR NUVEM DE PONTOS F1×F2 - MÉTODO 2 . . . . . . 92B.5 FUNÇÃO PARA CALCULAR VALORES MÉDIOS NOS TRECHOS . . . . . . . . . 95APÊNDICE C - RESULTADOS OBTIDOS DURANTE OS EXPERIMENTOS . . . . . 97C.1 RESULTADOS OBTIDOS POR MEIO DOS MÉTODOS 1 E 2 . . . . . . . . . . . . . . . 97C.2 DISTÂNCIAS RESULTANTES APÓS AGRUPAMENTO POR MEIO DOS

MÉTODOS 1 E 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98C.3 DIFERENÇA DOS VALORES F1 E F2 DOS CENTROIDES EM RELAÇÃO

AOS VALORES DE REFERÊNCIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99C.4 PERCENTUAL DE VOGAIS-ALVO REPRESENTADAS NA NUVEM FINAL -

GRUPOS DO CORPUS UTFPR SEM DEGRADAÇÃO . . . . . . . . . . . . . . . . . . . . . 99C.5 DIFERENÇA DOS VALORES F1 E F2 DOS CENTROIDES EM RELAÇÃO

AOS VALORES DE REFERÊNCIA, AMOSTRAS COM CODIFICAÇÃO . . . . .100C.6 PERCENTUAL DE ACERTO DE VOGAIS-ALVO PARA AMOSTRAS COM

CODIFICAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101C.7 NÚMERO DE CENTROIDES RECONHECIDOS APÓS ADIÇÃO DE RUÍDO

AO SINAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .102C.8 DIFERENÇA DOS VALORES F1 E F2 DOS CENTROIDES EM RELAÇÃO

AOS VALORES DE REFERÊNCIA, AMOSTRAS COM ADIÇÃO DE RUÍDO 103C.9 PERCENTUAL DE ACERTO DE VOGAIS-ALVO PARA AMOSTRAS COM

ADIÇÃO DE RUÍDO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .104C.10 DIFERENÇA DOS VALORES DE CENTROIDES EM COMPARAÇÕES

INTRAFALANTES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .105

14

1 INTRODUÇÃO

A produção de provas, regulamentada através do Código de Processo Penal

(BRASIL, 1941; BRASIL, 2008), tem sido cada vez mais comum por meio de

registros de áudio, em especial após a promulgação da Lei 9296/96 que trata das

interceptações telefônicas (BRASIL, 1996), disciplinada pelas Resoluções nº 59 e

nº 84 (CNJ, 2008; CNJ, 2009). Consequentemente, as demandas da área forense

referentes às perı́cias audiovisuais para atribuição de autorias têm se intensificado.

O exame de Comparação de Locutores (CL) tem por finalidade verificar se

dois registros de voz e fala foram produzidos por um mesmo indivı́duo, consistindo

na comparação entre um registro de áudio denominado questionado - sobre o qual

pairam dúvidas quanto à autoria das falas - e um registro padrão - registros de fala

de identidade conhecida (MORISSON, 2003; GRECO, 2013; GONÇALVES; PETRY,

2015). A importância desse exame reside na possibilidade de vincular ou desvincular

um indivı́duo a um fato delituoso materializado através de um registro de áudio

(BRAID, 2003).

Um exemplo no qual um exame de CL seria destacadamente importante

supõe uma gravação oriunda de interceptação telefônica, cumprindo todos os

requisitos legais, seja a única prova material para esclarecimento de um crime. Seu

conteúdo trata-se de um diálogo entre duas pessoas, identificadas como João e

Maria, que trocam informações sobre um homicı́dio perpetrado por ambos contra

um terceiro indivı́duo, sendo que os falantes não apenas explicitam sua participação,

como também mencionam detalhes que alteram a classificação do delito de homicı́dio

simples para qualificado, de acordo com o Código Penal (BRASIL, 1940). Ocorre que,

durante o processo penal, o defensor dos acusados argumenta que as vozes ouvidas

na gravação não são de seus clientes.

É indiscutı́vel a importância do exame de CL para dirimir dúvidas como a

descrita no exemplo. Nesse caso hipotético, associar ou não, equivocadamente,

as vozes presentes na gravação às pessoas João e Maria, leva a dois cenários

diametralmente opostos: impunidade de indivı́duos culpados de um crime de maior

potencial ofensivo, ou situação eticamente ainda pior, reclusão injusta de cidadãos

inocentes do crime imputado.

15

Relatórios de diagnóstico da Segurança Pública e da Perı́cia Criminal

brasileira apontam a carência de peritos criminais (SENASP, 2012; ENASP, 2012), o

que consequentemente culmina em passivo de laudos nos Institutos de Criminalı́stica.

O represamento de materiais a serem examinados prejudica a celeridade necessária

para a produção de provas, o que, de acordo com Vargas e colaboradores (2006),

contribui para a morosidade de um processo penal.

Nesse contexto, agravado pela complexidade das análises envolvidas, uma

vez que o exame de CL requer um tempo de execução muito superior à média dos

demais exames periciais, a gestão de recursos humanos de Seções de Perı́cias

Audiovisuais é dificultada, analogamente ao constatado por Vrubel e colaboradores

(2013) em relação à Seção de Computação Forense .

Segundo Gomes e Carneiro (2014), nos órgãos brasileiros que realizam

exames de CL, observa-se uma preponderância de fonoaudiólogos e engenheiros

eletricistas. Contudo, independentemente da área de formação do perito criminal,

a interdisciplinaridade inerente a esse exame (GOMES et al., 2012) exige uma grande

construção de conhecimento. Portanto, a capacitação deve ser rigorosa, pois em

cada exame um diferente aspecto poderá ser decisivo para determinação/exclusão

de autoria (MIQUILUSSI et al., 2014). Dessa forma, torna-se ainda mais reduzido

o número de peritos criminais aptos para receberem designações de exames de

CL. É desejável, portanto, que se busque o aperfeiçoamento das técnicas adotadas,

para melhor aproveitamento dos recursos humanos disponı́veis e para otimização -

quantitativa e qualitativa - do exame.

Em pesquisa realizada por Gold e French (2011), foi efetuado um

levantamento das técnicas utilizadas para esse exame em 13 paı́ses, sendo

constatada a predominância da utilização das análises classificadas como perceptivo-

auditiva e acústico-instrumental, ou simplesmente perceptiva e acústica (MORISSON

et al., 2009). Os autores observaram ainda que, mesmo quando algum sistema de

reconhecimento automático é utilizado, não se abandona por completo as análises

humanas, tanto que recentemente tem-se adotado a nomenclatura “Automático com

Supervisão Humana” (MORRISON et al., 2015).

No cenário brasileiro, a constatação de Gold e French (2011) é de que as

análises perceptiva e acústica são adotadas combinadamente, sendo tal apontamento

corroborado por autores brasileiros (MORISSON et al., 2009; GONÇALVES; PETRY,

2015).

16

A análise perceptiva requer um profissional capacitado para identificar

propriedades da qualidade da voz, padrões articulatórios, traços linguı́sticos, entre

outros atributos. Recentemente foi proposto por Gonçalves e Petry (2015) o ”Protocolo

Forense para Análise Perceptivo-Auditiva de Amostras de Fala”, para auxiliar a

identificação e análise de caracterı́sticas relativas à qualidade de voz, que também

ampara análises de sociofonética (GONÇALVES; BRESCANCINI, 2014).

Por sua vez, a análise acústica engloba medições de curto e de longo

termo, nos domı́nios temporal e espectral, sendo que, de acordo com Morisson

e colaboradores (2009), os parâmetros acústicos servem como suporte para

achados em análises perceptivas. Contudo, algumas análises requerem extensiva

segmentação de trechos com fonemas a serem submetidos à extração de parâmetros,

o que, dependendo do volume do material, pode tornar o exame extremamente

laborioso.

Sendo assim, a proposta desta pesquisa é o desenvolvimento de um método

para contribuir para o desenvolvimento de uma ferramenta para auxı́lio de análises

acústicas que facilite a visualização de caracterı́sticas úteis para o exame de CL:

energia, frequência fundamental, frequência e banda de formantes, taxa de subida

ou descida de formantes em um trecho.

1.1 MOTIVAÇÃO

Objetiva-se que o método proposto seja integrado em ferramenta de apoio em

exames de CL. Para tal implementação, a escolha do aproveitamento de interfaces do

aplicativo Praat (BOERSMA; WEENINK, 2015) se deve pelo mesmo ser um software

livre e amplamente difundido tanto no ambiente acadêmico como no forense, tal que

os profissionais da área já estão familiarizados com o mesmo.

Embora o foco seja forense, a ferramenta também poderá ser utilizada em

outras áreas de linguı́stica ou de fonoaudiologia. O intento é o reconhecimento

de trechos vozeados de uma gravação, sem a obrigatoriedade de pré-segmentação

manual, além da disponibilização de gráficos, com possibilidade de seleção de áreas

a serem reavaliadas com a visualização de oscilograma e espectrograma, com os

trechos de interesse concatenados ou simplesmente etiquetados.

Tal funcionalidade seria útil, por exemplo, em análises do comportamento

formântico a longo termo do trato vocal de um dado falante. Porém, nos casos

17

em que tal hipótese não se confirme devido à interferência agressiva de ruı́do ou a

particularidades da voz em questão, ou mesmo no caso de outliers, o perito teria a

possibilidade de confirmar perceptivamente o que ocorreu.

O método proposto poderá auxiliar em análises acústicas manuais, sem

detrimento da utilização de sistemas de reconhecimento automático. Além disso, um

padrão visual auxiliaria em análise intra e inter-sujeito, pois se espera em uma CL que

sejam encontrados elementos estáveis o suficiente e que denotem similaridades em

falas pertencentes a um falante, mas que não sejam comuns a outros indivı́duos.

1.2 OBJETIVOS

1.2.1 Objetivo Geral

Obter um método para reconhecimento de vogais, com a finalidade de

segmentar automaticamente e extrair caracterı́sticas acústicas de fonemas vocálicos

em exames de CL.

1.2.2 Objetivos Especı́ficos

• Selecionar amostras de áudio viáveis para extração e análise de parâmetros

acústicos.

• Implementar funções nos software Praat e Matlab para segmentação de trechos

vocálicos, assim como a obtenção do trapézio fonético vocálico.

• Estabelecer critérios para avaliação de desempenho dos métodos

implementados.

• Conduzir experimentos com diversos tipos de degradação do sinal de áudio, tais

como codificação, compressão e adição de ruı́do.

1.3 ABORDAGEM PROPOSTA

Com a finalidade de proporcionar uma visão geral da metodologia proposta,

apresenta-se a seguir um resumo de suas etapas, as quais estão ilustradas na

Figura 1.

18

ENTRADA

Seleção de trechos apartir de três corpora,e preparação dasamostras

EXTRAÇÃO DECARACTERÍSTICAS

Cálculo de parâmetrosacústicos e geração detabelas com resultados

PROCESSAMENTODO SINAL

Processamento do sinal paraclassificação das amostras eseu agrupamento, comutilização de dois métodosde inicialização

SAÍDA

Nuvem resultante dosprimeiros formantes esegmentação emtrechos vocálicos enão-vocálicos

Figura 1: Fluxograma das etapas principais da proposta.

• Entrada: para realização dos experimentos foram selecionadas amostras de

áudio de três diferentes corpora. Para avaliação da robustez do método, as

análises foram efetuadas não apenas para os sinais de áudio sem degradação,

como também com os mesmos submetidos a codificação, compressão ou adição

de ruı́do. A escolha das degradações foi feita com base na natureza de materiais

que costumeiramente são encaminhados para perı́cia: provenientes de ligações

telefônicas, gravadas em formatos que utilizam compressão com perdas ou com

ruı́do de fundo.

• Extração de Caracterı́sticas: cálculo de parâmetros acústicos do sinal. No

método proposto, a medição dos formantes é feita pela técnica LPC (Linear

Predictive Coding), conforme o método de Burg (COLLOMB, 2009), com

posterior ponderação de custos para determinação final dos valores de cada

formante (com base na frequência e na banda). São descartados os pontos

em que não há detecção de F0 (frequência fundamental), calculados através de

autocorrelação nas janelas (trechos em análise) com energia acima e taxa de

passagem por zero abaixo de limiares pré-estabelecidos.

• Processamento do sinal: reconhecimento de agrupamentos de pontos (ou

clusters) relacionados à anterioridade e à altura das vogais, identificando que

vogal se refere a cada região especı́fica (/a/, /e/, /E/, /i/, /o/, /O/ e /u/).

Embora, como constatado por Escudero e colaboradores (2009), no Português

Brasileiro (PB) tal determinação possa ser feita por meio de várias combinações

de parâmetros, a combinação dos formantes F1×F2 é a que melhor evidencia adistribuição das vogais.

Com o mecanismo desenvolvido foi possı́vel proceder à análise das vogais, com

base em seus parâmetros acústicos, sem necessidade de segmentação prévia.

A estratégia explorada foi a de utilizar a detecção da frequência fundamental

(F0), a determinação de limiares de taxa de passagem por zero e de energia de

19

curto termo, assim como a avaliação da continuidade de valores em amostras

subsequentes, para possibilitar a seleção dos instantes com valores válidos de

formantes, de forma a minimizar a interferência de fonemas consonantais.

Foram avaliadas duas variações de métodos para reconhecimento das vogais,

os quais diferiam entre si na forma de realizar o agrupamento dos pontos F1×F2.No denominado “Método 1”, obtém-se uma matriz com valores de formantes

calculados a partir de um valor médio de vogais como referência e a busca de

centroides se baseia nos picos das distribuições de F1 × F2. Por outro lado,no “Método 2”, trabalha-se com várias matrizes de formantes, designadas de

“trilhas”, e a busca de centroides parte de valores iniciais definidos a priori.

• Saı́da: foram obtidas nuvens resultantes para os primeiros formantes F1×F2,assim como a segmentação do sinal de áudio em trechos vocálicos e não-

vocálicos. Os resultados obtidos demonstraram sucesso na segmentação

automática de vogais, sendo constatado um melhor desempenho do “Método

2” tanto em relação ao número de centroides localizados, como à quantidade e

duração dos trechos-alvo reconhecidos.

1.4 ESTRUTURA DA DISSERTAÇÃO

Esta dissertação está organizada da seguinte maneira: no Capı́tulo 2 são

trazidos trabalhos recentes de reconhecimento automático de vogais, enquanto que no

Capı́tulo 3 são abordados conceitos relacionados à produção de voz, à Teoria Fonte-

Filtro, caracterı́sticas acústicas associados aos fonemas, assim como ao modelo de

agrupamento k-means. O Capı́tulo 4 trata da descrição das amostras de dados,

ferramental e algoritmos utilizados. No Capı́tulo 5 são elencados os experimentos

realizados, sendo os resultados obtidos apresentados e discutidos no Capı́tulo 6. No

Capı́tulo 7, os principais resultados são retomados, sendo feita uma discussão acerca

da contribuição do método desenvolvido e de trabalhos futuros.

20

2 TRABALHOS CORRELATOS

Dentro da área de processamento de sinais de fala encontra-se a aplicação de

reconhecimento de locutor (ou falante), a qual apresenta três subdivisões principais:

detecção, identificação e verificação de locutor, podendo as mesmas ser classificadas

como dependentes ou independentes de texto (CAMPBELL JR, 1997).

A identificação de locutor ocorre em um contexto 1:N, pois efetua-se a

comparação do alvo com os indivı́duos de um dado grupo, podendo ou não existir

uma correspondência. Na verificação de locutor, por outro lado, existe uma relação

1:1 para comparação, uma vez que há uma identidade alegada para o alvo (ADAMI,

2004).

Os sistemas de reconhecimento automático de locutor apresentam estruturas

similares às dos sistemas de reconhecimento de fala. Englobam etapas de extração

de parâmetros, comparação e de decisão. A etapa de extração de parâmetros tem por

objetivo estimar um vetor de caracterı́sticas do sinal de áudio, a fim de possibilitar que

comparações possam ser feitas a partir desse vetor. A etapa de comparação envolve

o cálculo de um valor de correspondência, que expresse a similaridade entre as

caracterı́sticas extraı́das dos sinais sob análise. Por fim, à etapa de decisão compete

determinar se as vozes comparadas foram produzidas por um mesmo indivı́duo

(CAMPBELL JR, 1997).

O desenvolvimento de tais sistemas baseia-se, principalmente, na extração

de caracterı́sticas por meio de técnicas MFCC (Mel-Frequency Cepstral Coefficients),

LPCC (Linear Prediction Cepstral Coefficients), com modelamento HMM (Hidden

Markov Model), GMM (Gaussian Mixture Model), SVM (Support Vector Machine) ou

redes neurais (DRYGAJLO, 2012; FURUI, 2005; REYNOLDS, 2002; KINNUNEN; LI,

2010).

Ressalta-se, contudo, que a motivação deste trabalho foi contribuir com

ferramental para auxiliar peritos criminais durante a realização do exame, por meio

da segmentação de fonemas vocálicos. Com base nisso, buscou-se na literatura

trabalhos relacionados ao reconhecimento automático de vogais, especialmente em

contexto de fala encadeada.

21

Alotaibi e Hussain (2010) realizaram um sistema para reconhecimento de

vogais do idioma Árabe. Os autores efetuaram modelamento HMM, sendo a

extração de caracterı́sticas feita por meio de MFCC e de formantes, tendo obtido um

desempenho similar para ambas as técnicas, com taxa de acerto de até 91,6%.

Pradhan e Prasanna (2013) propõem a segmentação de regiões vocálicas

e não-vocálicas como estratégia para melhorar o desempenho na tarefa de

reconhecimento de falante. No método aplicado, essas regiões são submetidas de

forma independente ao estágio de extração de caracterı́sticas por meio de MFCC, e

em seguida à etapa de classificação com uso de GMM. Para decisão, os resultados

obtidos são combinados, porém com uma atribuição distinta de pesos (há um

favorecimento das regiões vocálicas que são menos degradadas por ruı́do). Tal

implementação resultou em redução da taxa de erro de 6,63% para 6%.

Deekshitha e Leena (2014) propõem um sistema para classificação de

fonemas presentes no Malaiala, uma das lı́nguas oficiais da Índia. O método de

extração de caracterı́sticas, que foi indicado como tendo melhor resultado, foi baseado

na combinação de coeficientes MFCC com caracterı́sticas do sinal - ZCR (Zero

Crossing Rate - taxa de passagem por zero), STE (Short Term Energy - energia

de curto termo), MDF (Most Dominant Frequency - frequência dominante), spectral

flatness (nivelamento espectral). Para classificação foram utilizadas redes neurais

artificiais. As autoras buscavam o reconhecimento das diferentes categorias de

consoantes além das vogais, para as quais foi obtida uma taxa de acerto de 60%

com o método de extração indicado.

Na abordagem proposta por Beke e Horvárth (2015) para reconhecimento

de vogais nasais do idioma Húngaro, a partir de um corpus de fala espontânea, a

extração de caracterı́sticas foi feita com MFCC e a classificação com HMM, sendo

utilizados 1490 vogais para treino e 745 para teste. Com essa abordagem os autores

conseguiram uma taxa de acerto de 75,8% no reconhecimento das vogais.

No presente trabalho optou-se pela extração de caracterı́sticas acústicas do

sinal, sendo a classificação das regiões vocálicas realizadas com a aplicação do

método de agrupamento k-means na nuvem de pontos F1× F2, após refinamentose inicialização detalhados na Seção 4.3. Adotou-se tal metodologia para ser possı́vel

realizar a segmentação sem a etapa de treinamento, procedimento necessário nos

métodos de classificação utilizados nos trabalhos mencionados anteriormente.

22

3 FUNDAMENTAÇÃO TEÓRICA

3.1 PRODUÇÃO DE VOZ

A fala é um dos principais recursos de comunicação humana. Inicia-se por um

processo interno do falante, que mentalmente formula a mensagem a ser transmitida,

ocorrendo em seguida a ativação motora dos músculos e órgãos do aparelho fonador

para a articulação da fala.

Após emissão da mensagem pelo falante e transmissão através do meio (o

próprio ar ou um canal telefônico, por exemplo), terá vez o processo de percepção dos

sons de fala pelo ouvinte. Tal processo é mais complexo do que a simples detecção de

sinais acústicos (como tons puros ou ruı́do), pois é necessário identificar, categorizar e

reconhecer esses sons em sua forma, para atribuir à fala seu significado (mensagem)

(RUSSO; BEHLAU, 1993; RABINER; SCHAFER, 2011).

Os elementos envolvidos na produção de voz compõem o aparelho fonador

(ilustrado na Figura 2), constituı́do pelos sistemas elencados na sequência.Produção da Fala

19

2 FUNDAMENTAÇÃO TEÓRICA

2.1 PRODUÇÃO DE VOZ

A fala é um dos principais recursos de comunicação humana. Inicia-se por um

processo interno do falante, que mentalmente formula a mensagem a ser transmitida,

ocorrendo em seguida a ativação motora dos músculos e órgãos do aparelho fonador

para a articulação da fala.

Após emissão da mensagem pelo falante e transmissão através do meio (o

próprio ar ou um canal telefônico, por exemplo), terá vez o processo de percepção dos

sons de fala pelo ouvinte. Tal processo é mais complexo do que a simples detecção de

sinais acústicos (como tons puros ou ruı́do), pois é necessário identificar, categorizar e

reconhecer esses sons em sua forma, para atribuir à fala seu significado (mensagem)

(RUSSO; BEHLAU, 1993; RABINER; SCHAFER, 2011).

Os elementos envolvidos na produção de voz compõem o aparelho fonador

(ilustrado na Figura 1), constituı́do pelos sistemas elencados na sequência.

Sistema Articulatório

Sistema Laringeal

Sistema Respiratório

Cavidade nasal

Narinas

Lábios

Lı́ngua

Dentes

Cavidade oral

Traqueia

Pulmões

Diafragma

Laringe

Palato duro

Palato mole(véu palatino)

Figura 1: Diagrama em corte sagital do aparelho fonador.

Fonte: Adaptado de (DELLER et al., 2000).


9 / 54

Figura 2: Diagrama em corte sagital do aparelho fonador,os sistemas que o compõem e seus principais elementos.


23

3.1.1 Sistema Respiratório

A geração da voz tem inı́cio no sistema respiratório (diafragma, pulmões,

traqueia), que produz a energia aerodinâmica necessária pra produção dos sons

da fala (LADEFOGED; JOHNSON, 2010). Na Figura 3 é possı́vel observar como o

volume de ar expelido pelos pulmões atua como fonte de energia para os demais

sistemas integrantes do aparelho fonador.Produção da Fala

20

2.1.1 Sistema Respiratório

A geração da voz tem inı́cio no sistema respiratório (diafragma, pulmões,

traqueia), que produz a energia aerodinâmica necessária pra produção dos sons

da fala (LADEFOGED; JOHNSON, 2010). Na Figura 2 é possı́vel observar como o

volume de ar expelido pelos pulmões atua como fonte de energia para os demais

sistemas integrantes do aparelho fonador.

��

��

��

��

��

��!��

��

��"�#$%&'$#()&*+�&+�� +%��,��

��

��

�-��

��

��

��.��

/012345

61540789:027

;95?97@=A957

B012345

/CD34=0

;C5=@0=7:=

24

caracterı́stica de vozeamento das vogais e de algumas consoantes. A frequência

dessa vibração corresponde à frequência fundamental (F0), que possui como correlato

acústico o pitch (DELLER et al., 2000).

3.1.3 Sistema Articulatório

O sistema articulatório, também chamado por trato vocal, é composto pela

faringe, cavidade oral e cavidade nasal, elementos esses que participam da produção

sonora (RUSSO; BEHLAU, 1993). As caracterı́sticas anatomofisiológicas do trato

vocal produzem ressonâncias nos sons originados dos pulsos glóticos ou friccionais,

conforme descrito no modelo fonte-filtro (KENT; READ, 2002), apresentado na

Seção 3.2.

Durante a produção de fonemas vocálicos, as frequências amplificadas

resultam nos formantes (F1, F2, F3, ..., Fn) (RABINER; SCHAFER, 2011). Os primeiros

formantes, F1 e F2, têm relação direta com a altura e o recuo da lı́ngua (RUSSO;

BEHLAU, 1993). Sua representação gráfica é normalmente realizada através do

diagrama de Vogais Cardeais, também chamado de Trapézio Vocálico (CRISTÓFARO-

SILVA, 2011), conforme Figura 5 (p. 28).

3.2 TEORIA FONTE-FILTRO

A Teoria Fonte-Filtro é um legado de Fant 1960 e considera o sinal de voz

como uma composição de uma fonte de excitação acoplado a um filtro modelado pela

anatomia do trato vocal.

Conforme descrito em (KENT; READ, 2002), a aplicação da Teoria Fonte-Filtro

envolve suposições que permitem simplificações do modelo, tornando-o “tratável”

matematicamente. Sendo assim, é importante fazer as seguintes ressalvas sobre

algumas simplificações realizadas:

• Desconsidera-se a atuação dos tecidos do trato vocal na absorção e reflexão dos

sons.

• Considera-se que o trato vocal atua de forma invariante no tempo.

• Considera-se a propagação longitudinal das ondas, porém algumas podem se

propagar de forma transversal.

25

• Considera-se interações entre o sistema respiratório e o trato vocal.

• Considera-se o trato vocal como uma associação de tubos retos, embora

apresente curvatura e variações no calibre ao longo da passagem.

A Teoria Fonte-Filtro é considerada válida e tem sido adotada por diversos

autores em diferentes aplicações, contudo é importante se considerar as limitações

inerentes ao modelo nos casos práticos.

3.2.1 Frequência Fundamental

Estimadores de frequência fundamental procuram a componente frequencial

que se sobressai em um trecho do sinal, valor que deverá ser equivalente ao

perı́odo entre pulsos glóticos. Duas abordagens tradicionalmente utilizadas são

a autocorrelação e a análise cepstral. Neste trabalho, optou-se pelo método de

autocorrelação, por se mostrar mais robusto à presença de ruı́do (SHIMAMURA;

KOBAYASHI, 2001).

O algoritmo nativo do software Praat calcula a autocorrelação de cada bloco

de sinal submetido a uma janela de Hanning ou Gaussiana. O resultado é obtido pela

divisão da função de autocorrelação do sinal pela autocorrelação da própria janela,

como demonstrado na Equação (1), em que rx(τ) é correspondente à autocorrelação

resultante, rxw(τ) à autocorrelação do sinal após janelamento e rw(τ) à autocorrelação

da janela utilizada. Dessa forma, evita-se que harmônicos sejam confundidos com a

frequência fundamental (BOERSMA, 1993).

rx(τ)≈rxw(τ)rw(τ)

. (1)

Para estimativa de F0 no segmento do sinal em análise, busca-se o máximo

local da autocorrelação rx(τ), em que τ0 = (F0)−1. O algoritmo possui ainda

refinamentos, com limiares de silêncio e de vozeamento e a atribuição de custos para

transições de vozeamento/desvozeamento, valor de oitava e salto de oitava entre duas

janelas consecutivas. O tamanho da janela de análise também está atrelado ao limite

inferior para busca de frequência (pitch floor ) (BOERSMA; WEENINK, 2015).

26

3.2.2 Formantes

Uma forma de reconhecer as regiões vocálicas de um sinal de voz é através da

obtenção dos formantes, que pode ser feita pela aproximação do envelope espectral

desse sinal através de uma análise de predição linear, ou LPC (Linear Predictive

Coding). Na Figura 4 é possı́vel visualizar o espectro LPC, mais suavizado que o

espectro FFT, evidenciado os picos que correspondem aos formantes daquele instante

de tempo do sinal de voz em análise. Tal técnica consiste em separar o sinal de

excitação da resposta do trato vocal, extraindo justamente a informação de formantes

que é de interesse para a análise (RABINER; SCHAFER, 2011).Formantes Frequência (Hz)

Nív

el d

e pr

essã

o so

nora

(dB/

Hz)

0 1000 2000 3000 400010

20

30

40

50

60

70

80

90

Frequência (Hz)

Nív

el d

e pr

essã

o so

nora

(dB/

Hz)

0 1000 2000 3000 400010

20

30

40

50

60

70

80

90PADRÃO

Tempo (s)

Fre

quên

cia

(Hz)

3.639 3.7790

4000PADRÃO ESPECTRO LPC

Frequência (Hz)

Nív

el d

e pr

essã

o so

nora

(dB/

Hz)

0 1000 2000 3000 400010

20

30

40

50

60

70

80

90QUESTIONADO

Tempo (s)

Fre

quên

cia

(Hz)

3.639 3.7790

4000QUESTIONADO

PDFil

l PDF

Editor

with F

ree W

riter an

d Tool

s

Espectro FFTEspectro LPC

F1

F2F3 · · ·

15 / 54

Figura 4: Figura contemplando o espectro LPC (em azul na partesuperior), mais suavizado, em contraste com o espectro FFT (emvermelho na parte inferior).

A análise de predição linear parte do pressuposto de que cada amostra do

sinal de fala é, aproximadamente, uma combinação linear das amostras anteriores.

Normalmente é feita através de métodos de covariância ou de autocorrelação

(BARBOSA; REIS, 2012). Uma representação deste modelo pode ser visualizada

na Equação (2), em que s[n] representa o sinal de saı́da, x[n] o sinal de entrada e m o

número de coeficientes que corresponderá à ordem do sistema.

s[n] =m

∑i=1

ais[n− i]+ x[n]. (2)

Uma vez que o sinal de entrada é desconhecido, o valor ŝ[n] na Equação (3)

27

é uma estimativa do valor da amostra atual. O objetivo da análise preditiva é a

determinação dos coeficientes a[i] (em que i = 1, . . . ,m), de forma que o erro de

predição e[n] constante na Equação (4) seja o menor possı́vel.

ŝ[n] =m

∑i=1

ais[n− i]. (3)

e[n] = s[n]− ŝ[n]. (4)

Para este trabalho foi escolhido o algoritmo de Burg, por ser considerado um

modelo estável e que apresenta bons resultados para gravações de curta duração

(COLLOMB, 2009). O algoritmo de Burg considera, além da predição referente às

amostras anteriores, yn na Equação (5), também a predição referente às amostras

posteriores, zn na Equação (6).

yn =−m

∑i=1

aix[n− i]. (5)

zn =−m

∑i=1

aix[n+ i]. (6)

A escolha dos coeficientes é feita de forma a minimizar o erro de ambos os

sentidos. A quantidade máxima de número de coeficientes, na prática, é determinada

pelo valor da frequência de amostragem (em kHz) mais dois (BARBOSA; REIS, 2012).

Os valores e as bandas de passagens dos formantes são calculados a partir do

polinômio obtido com os coeficientes estimados.

3.3 FONEMAS DO PORTUGUÊS BRASILEIRO (PB)

As unidades linguı́sticas que organizam uma determinada lı́ngua são

denominadas fonemas. No PB os fonemas são subdivididos em vogais, semivogais

ou glides e consoantes.

3.3.1 Vogais

Representam o único tipo de segmento que pode atuar como núcleo

silábico. São segmentos vozeados ou sonoros, devido à vibração das pregas vocais

28

que sempre ocorre durante a sua articulação. Um ponto importante para sua

caracterização é que, durante a sua produção, o fluxo de ar não sofre obstruções no

trato vocal, e, como consequência, os segmentos vocálicos geralmente apresentam

maior energia que os consonantais (RUSSO; BEHLAU, 1993; RABINER; SCHAFER,

2011).

Na Figura 5 é apresentado o trapézio fonético das vogais, em que as barras

verticais e horizontais são alusivas à posição da lı́ngua nos respectivos eixos durante

a produção de cada vogal. Dessa forma, cada vogal corresponde a uma configuração

do trato vocal, interferindo diretamente nos valores dos formantes.

O formante F1 diz respeito à posição da lı́ngua no eixo vertical e F2 à sua

posição no eixo horizontal, conforme Figura 6, que ilustra as posições da lı́ngua

durante a produção das vogais orais tônicas /a/, /e/, /E/, /i/, /o/, /O/ e /u/ (“a”,

“ê”, “é”, “i”, “ô”, “ó” e “u”) (RUSSO; BEHLAU, 1993; ENGELBERT, 2011).Trapézio Vocálico

25

Na Figura 4 é apresentado o trapézio fonético das vogais, em que as barras

verticais e horizontais são alusivas à posição da lı́ngua nos respectivos eixos durante

a produção de cada vogal. Dessa forma, cada vogal corresponde a uma configuração

do trato vocal, interferindo diretamente nos valores dos formantes.

O formante F1 diz respeito à posição da lı́ngua no eixo vertical e F2 à sua

posição no eixo horizontal, conforme Figura 5, que ilustra as posições da lı́ngua

durante a produção das vogais orais tônicas /a/, /e/, /E/, /i/, /o/, /O/ e /u/ (“a”,

“ê”, “é”, “i”, “ô”, “ó” e “u”) (RUSSO; BEHLAU, 1993; ENGELBERT, 2011).

i y 1 0 W u

I Y U

e ø 9 8 G o

E œ 3 Æ 2 O

æ

a × A 6

@

5

Anterior Central Posterior

Alta (fechada)

Média-alta (meia fechada)

Média-baixa (meia aberta)

Baixa (aberta)

Figura 4: Trapézio vocálico fonético de acordo com o IPA -International Phonetic Alphabet (IPA, 2005). Pares de vogaiscom vogais arredondadas à direita e não-arredondadas àesquerda. Destaque em vermelho para as vogais queocorrem no PB.

Fonte: Adaptado de (CRISTÓFARO-SILVA; YEHIA, 2009).

Outra caracterı́stica que interfere nas vogais é o arredondamento dos lábios,

que pode ser observado nas vogais posteriores /O/, /o/ e /u/. Além disso, as vogais

podem ser nasais ou nasalizadas, situação em que o véu palatino é abaixado,

permitindo o acoplamento da cavidade nasal ao trato vocal e por conseguinte

alterando a configuração das formantes.

Fonte: Adaptado de (CRISTÓFARO-SILVA; YEHIA, 2009).

21 / 54

Figura 5: Trapézio vocálico fonético de acordo com o IPA -International Phonetic Alphabet (IPA, 2005). Pares de vogaiscom vogais arredondadas à direita e não-arredondadas àesquerda. Destaque em vermelho para as vogais queocorrem no PB.

Fonte: Adaptado de (CRISTÓFARO-SILVA; YEHIA, 2009).

Outra caracterı́stica que interfere nas vogais é o arredondamento dos lábios,

que pode ser observado nas vogais posteriores /O/, /o/ e /u/. Além disso, as vogais

podem ser nasais ou nasalizadas, situação em que o véu palatino é abaixado,

permitindo o acoplamento da cavidade nasal ao trato vocal e por conseguinte

29Trapézio Vocálico 26 ��

��

��

��

�

��

��

��

�� !"�#�$�%"&��#"�'�$"��"��()�*��"�#�+,*��"� ��-��.��/��0'"1��#��*(��"�"2"��1�("�""*%"1��34"�15�(�"� !"��*#��"*#�"�� !"�#"1%6*$5"#5�"*(�"��#5� !"�#��2�*�0"�7

�89:;�?:�>8>;@ABCCDEFGHI=BJKLLMN

�7O7� ��0�'�$"��5PQRSTU

V"0�%�0 �!"�2�*�0"�'�W�"#��0�1"��4"�'�$"��X��%�0 ��0 0�*��

�*(�*��#"#��#5�"� !"�7Y�+,��*��("0Z��"'�$"��"�"2��0"�#�(�*$��5(��(�*$��X

��#�*#��[\[X��0�*"�"1"'�"]�"\̂Z_�"�̀a�[b[X��0�*"�"1"'�"]0"b̂ Z_0"5̀7

�7O7O c�*��"*(��

d��*(�%"��#"�'�$"��X#5�"*(�"��#5� !"�#�50"��*��"*(��e5/�#�"�

�$��#��510!��(�5� !"�(�("1�5�"��"17d��*��"*(��!"��"(�$��W"#"��0

25*� !"�#�0�#�X��0��0�#��*(�#"��(�5� !"��#".fg��ha,ijkdgX�llOa

iYmik,ifVX��37d��0X��*��#��"*#�n5�#5�"*(�""�(��51"� !"�#�502�*�0"

��*��*"*("1��"0�'�0�*("� !"�#�50"�(��51"#��"(�'�.dd3�0#�� !"�"��5(��

�"��'�.d+3�X�0#��)�*��"#�0�#�#�"�(��51"� !"�"��*��"*(��#�0��

o+1��'"��5��15��'"��(�5� !"�(�("14"�"��"$�0#�"�.[�[X[�[X[([X[#[X[p[X[$[37

�d�(��51"#��!"��1�0�*(��*(��*"�"'�#"#��5�"1Xn5��!"�"(5"��(�5�*#�"�"��"$�0#�"�#5�"*(�"��#5� !"�#�2�*�0"�7Y��(��("�!"��*'�1'�#��#��"�(��51"#��X"(�'��"��'�X��n5"��#�&*�0��*(�#�"�(��51"� !"�7

Figura 5: Sobreposição do gráfico das vogais orais tônicasdo PB no espaço F1×F2 (eixos com valores decrescentespara facilitar a análise) à ilustração indicando a posição dalı́ngua durante a produção desses fonemas.

Fonte: Adaptado de (RUSSO; BEHLAU, 1993)

2.3.2 Semivogais ou Glides

Também são fonemas vozeados similares às vogais, porém com menor

intensidade e duração. No PB conectam-se a vogais para formar ditongos ou tritongos,

podendo ser: /j/, como na palavra [paj] - “pai”; e /w/, como na palavra [maw] - “mau”.

2.3.3 Consoantes

Ao contrário das vogais, durante a produção de uma consoante o fluxo de ar

egresso dos pulmões obstrução total ou parcial. As consoantes são categorizadas em

função do modo, bem como do ponto da obstrução ocorrida (RUSSO; BEHLAU, 1993;

ENGELBERT, 2011). Assim, considerando que durante a articulação de um fonema

consonantal ocorre a movimentação de um articulador ativo (AA) em direção ao outro

passivo (AP) 1, em decorrência do modo de articulação as consoantes podem ser:

1Articuladores são elementos presentes na cavidade bucal, que irão atuar obstruindo a passagemde ar durante a produção de fonemas. Neste processo estarão envolvidos dois articuladores, ativo epassivo, os quais definem o ponto de articulação.

F1 l

F2 ↔

Fonte: Adaptado de (RUSSO;BEHLAU, 1993). 22 / 54Figura 6: Sobreposição do gráfico das vogais orais tônicasdo PB no espaço F1×F2 (eixos com valores decrescentespara facilitar a análise) à ilustração indicando a posição dalı́ngua durante a produção desses fonemas.

Fonte: Adaptado de (RUSSO; BEHLAU, 1993)

alterando a configuração das formantes.

3.3.2 Semivogais ou Glides

Também são fonemas vozeados similares às vogais, porém com menor

intensidade e duração. No PB conectam-se a vogais para formar ditongos ou tritongos,

podendo ser: /j/, como na palavra [paj] - “pai”; e /w/, como na palavra [maw] - “mau”.

3.3.3 Consoantes

Ao contrário das vogais, durante a produção de uma consoante o fluxo

de ar egresso dos pulmões sofre obstrução total ou parcial. As consoantes são

categorizadas em função do modo, bem como do ponto da obstrução ocorrida

(RUSSO; BEHLAU, 1993; ENGELBERT, 2011).

Durante a articulação de um fonema consonantal ocorre a movimentação de

30

um articulador ativo (AA) em direção ao outro passivo (AP) 1.

Em decorrência do modo de articulação as consoantes são classificadas em:

• Plosivas ou oclusivas: obstrução total à passagem de ar ( /p/, /b/, /t/, /d/, /k/, /g/).

• Nasais: obstrução total à passagem de ar na cavidade oral, porém com

acoplamento da cavidade nasal (/m/, /n/, /ñ/ em [soño] - “sonho”).

• Fricativas: articuladores se aproximam produzindo fricção ( /f/, /v/, /s/, /z/, /Z/ em

[Zato] - “jato”, /S/ em [Sato] - “chato”, róticos2 /x/, /G/, /h/ e /H/).

• Laterais: articuladores se tocam e a corrente de ar é obstruı́da no eixo central

(/l/, /L/ em [paLa] - “palha”).

• Tepes: articuladores se tocam rapidamente uma única vez (/R/ em [caRo] - “caro”).

No PB há ainda alguns modos de articulação presentes apenas em variedades

regionais:

• Africadas: alofones (variantes fonéticas) dos fonemas /Z/ e /S/. O segmento inicia-

se com oclusão e termina com fricção (/Ã/ em [Ãia] - “dia”, /Ù/ em [Ùia] - “tia”).

• Vibrantes: os articuladores se tocam várias vezes causando vibração. “R forte”

de algumas variedades regionais, pronunciado de forma prolongada (/ř/).

• Retroflexas: produzido com encurvamento da lı́ngua, variedade regional

conhecida como “R caipira” (/ô/).

Quanto à classificação em função do ponto da articulação, as consoantes

podem ser:

• Bilabiais: AA - lábio inferior, AP - lábio superior (/p/, /b/, /m/).

• Labiodentais: AA - lábio inferior, AP - dentes incisivos superiores (/f/, /v/).

• Alveolares: AA - ponta da lı́ngua, AP - alvéolos (/t/, /d/, /n/, /l/, /R/, /s/, /z/).

1Articuladores são elementos presentes na cavidade bucal, que irão atuar obstruindo a passagemde ar durante a produção de fonemas. Neste processo estarão envolvidos dois articuladores, ativo epassivo, os quais definem o ponto de articulação.

2Sons de “r”, que quanto ao modo de articulação podem ser fricativas, tepes, vibrantes ou retroflexas,e quanto ao ponto de articulação alveolares, velares ou glotais.

31

• Alveopalatares: AA - parte anterior da lı́ngua, AP - parte medial do palato duro (

/Z/, /S/, /Ã/, /Ù/).

• Palatais: AA - parte medial da lı́ngua, AP - parte final do palato duro (/L/, /ñ/).

• Velares: AA - parte posterior da lı́ngua, AP - véu palatino (/k/, /g/, /x/, /G/).

• Glotais: constrição na glote. “R forte” presente apenas em algumas variedades

regionais, como o carioca (/h/ e /H/).

As consoantes ainda podem ser vozeadas ou desvozeadas, sendo que na

análise espectral de consoantes com mesmo ponto e modo de articulação (como por

exemplo [f] e [v], de “faca” e “vaca”), a diferença pode ser observada através da barra

de vozeamento (para o [v]).

Durante a fala os segmentos vocálicos e consonantais são produzidos de

forma encadeada, sendo que o ponto e o modo de articulação de um determinado

fonema provocam efeitos de coarticulação nos fonemas vizinhos.

3.4 MODELO DE AGRUPAMENTO K-MEANS

O k-means é um método para agrupamento dos padrões de entrada em K

grupos, sendo K um parâmetro definido a priori. Conforme descrito em (GOPI,

2014), antes de dar inı́cio ao processo em si é necessário inicializar os centroides

(µµµ111,µµµ222, · · · ,µµµKKK) dos K agrupamentos, o que normalmente é realizado com valoresaleatórios. Uma vez inicializado, o algoritmo apresenta duas etapas principais, as

quais têm relação com o método de Maximização de Expectativa (BISHOP, 1995).

A primeira etapa consiste na atribuição de cada padrão de entrada xxxnnn ao

agrupamento mais próximo, sendo a medida de proximidade representada pela

distância euclidiana d expressa na Equação 7, a qual corresponde à menor distância

geométrica entre xxxnnn e o centro do agrupamento µµµkkk no espaço N-dimensional. A

variável responsável pelo rótulo de cada padrão é definida como rnk∈ [0,1], ondek = 1, ...,K, como sendo rnk = 1 se xxxnnn pertence ao agrupamento k e rnk = 0 caso

contrário.

d =

√N

∑i=1

(xni−µki)2 (7)

32

Na segunda etapa, após a atribuição de todos os padrões de entrada a um

dos K agrupamentos, é realizado o cálculo dos novos centros definidos pelo primeiro

estágio do algoritmo, através da Equação 8.

µµµkkk =

N∑

n=1rnkxxxnnn

N∑

n=1rnk

. (8)

O processo se repete até a convergência (ou seja, até que nenhuma nova

alteração seja verificada nos agrupamentos), ou até que um determinado número de

iterações tenha ocorrido. Ao final, cada padrão de entrada está associado a um dos

agrupamentos definidos, aos quais estão atribuı́dos os novos valores de centros. Tal

processo equivale ao pseudo-código apresentado a seguir.

1 if Centroides nao Inicializados{

2 Selecionar valores iniciais dos K centroides aleatoriamente;

3 }

4 while (i++ < Numero Maximo de Iteracoes){

5 for (j++

33

4 MATERIAIS E MÉTODOS

4.1 AMOSTRAS DE DADOS

Para os experimentos foram utilizadas como amostras de dados arquivos de

áudio produzidos em três corpora, descritos a seguir.

4.1.1 Corpus UTFPR

Apresenta arquivos de áudio produzidos em pesquisa realizada pelo Grupo

de Estudos de Sons da Fala da UTFPR (GOMES, 2013). Trata-se de gravações

realizadas durante a leitura de um texto pré-definido, com duração aproximada de

60 segundos.

Os fonemas alvo daquele estudo estavam presentes em sı́labas tônicas e

em contexto interplosivo, de forma a minimizar os efeitos de coarticulação. O texto

continha quatro repetições para cada uma das sete vogais orais tônicas do PB, as

quais foram manualmente etiquetadas, servindo de referência. As gravações foram

organizadas em cinco grupos.

4.1.2 Corpus SPOLTECH

Compilado através do projeto “CORPORA from CSLU: The Spoltech Brazilian

Portuguese v1.0” (SCHRAMM et al., 2000), apresenta 8.080 trechos com falas de

477 falantes, consistindo de leituras de sentenças foneticamente balanceadas e de

respostas a perguntas.

Apesar da duração de áudio total de cada falante ser relativamente pequena

(aproximadamente 30 segundos), tem sido uma base bastante utilizada em pesquisas

do PB, além de trazer um contexto com fluidez diferente daquela apresentada pelo

corpus UTFPR, o que justifica sua utilização neste trabalho.

Na preparação das amostras foram concatenados todos os trechos

pertencentes aos 20 primeiros falantes, sendo gerados arquivos individuais

distribuı́das em dois grupos.

34

4.1.3 Corpus C-ORAL

Base compilada através do projeto “C-ORAL”, desenvolvido pelo Núcleo de

Estudos em Linguagem, Cognição e Cultura da Universidade Federal de Minas Gerais

(RASO; MELLO, 2012), que apresenta registros com fala espontânea, trazendo uma

proximidade maior de situações reais.

Foram selecionadas as amostras classificadas como monólogos, por

apresentarem maior duração de fala exclusiva do falante alvo. Na preparação, excluiu-

se qualquer trecho em que houvesse interferência do entrevistador ou de outro falante

que não fosse o alvo. Os arquivos resultantes das amostras apresentaram em média

oito minutos de duração, divididos em dois grupos.

Com a utilização das amostras provenientes das bases UTFPR e SPOLTECH,

obteve-se variedade de sujeitos para avaliações interfalantes, enquanto que a maior

duração das amostras da base C-ORAL permitiu análises intrafalantes. Na Tabela 1

são apresentados os grupos em que estavam organizadas as amostras utilizadas

durante os experimentos.

Tabela 1: Amostras de dados utilizadas nos experimentos.

Corpus Caracterı́sticas das amostras Grupo Qtd. Falantes

UTFPR Leitura (∼ 60 s)

GC 10 pesquisadorasGM 10 sexo feminino (> 35 anos)GG 10 sexo feminino (< 25 anos)GH 10 sexo masculino (> 35 anos)GR 10 sexo masculino (< 25 anos)

Total 50 (∼50 min)

SPOLTECH Leitura/respostas (∼ 30 s) M 9 sexo femininoH 11 sexo masculino

Total 20 (∼10 min)

C-ORAL Monólogos (∼ 8 min) M 4 sexo femininoH 2 sexo masculino

Total 6 (∼48 min)

35

4.2 FERRAMENTAL DE EDIÇÃO DE ÁUDIO

A conversão dos arquivos originais em arquivos com compressão ou com

adição de ruı́do foi realizada com o auxı́lio das ferramentas de edição de áudio e

vı́deo SoX (SOX, 2015) e FFMPEG (FFMPEG, 2015).

Para a implementação dos algoritmos indicados na Seção 4.3, utilizou-se o

software de análise de áudio Praat, assim como o software de análise matemática

Matlab, e sua toolbox de Processamento de Sinais.

4.3 ALGORITMOS UTILIZADOS

Após a seleção no Praat do arquivo ou trecho a ser submetido à análise, inicia-

se o processamento, conforme ilustrado no fluxograma apresentado na Figura 7, nos

qual os blocos principais estão enumerados de acordo com a subseção em que serão

descritos na sequência.

Inı́cioSeleção de trecho epré-processamento

Cálculo de ZCR,F0, F1··4 e BW1··4

Tabelasresultantes

F0, ZCR, BW1,BW2 ok?

Busca inicialde centroides

Amostra ∈cluster válido?

Continuidadeok?

Busca decentroides

Amostra ∈cluster válido?

Descarte deamostras

Nuvem de pontosresultantes Gráficos e relatórios Fim

S

SS

S

NN N

Blocos implementados no software Praat conforme código apresentado no Apêndice A

Blocos implementados no software Matlab conforme código apresentado no Apêndice B

4.3.1 4.3.2 4.3.3 4.3.4

4.3.5

4.3.6 4.3.8 4.3.94.3.74.3.8 4.3.94.3.7

Figura 7: Fluxograma dos algoritmos implementados. A numeração ao lado decada bloco refere-se a sua subseção correspondente da Seção 4.3. Também sãoindicados os blocos programados no software Praat (Apêndice A) e no softwareMatlab (Apêndice B).

36

4.3.1 Pré-processamento

Nesta etapa o sinal é reamostrado a uma taxa de 8 kHz, e o nı́vel CC removido

através da subtração do nı́vel médio do sinal de áudio. Um exemplo de gráfico gerado

nesta etapa apresentado na Figura 8(a), sendo que a área de interesse do gráfico está

delimitada pelo trapézio vermelho na Figura 8(b).

Materiais e métodos: algoritmos

� Gráfico da nuvem F1 × F2 com todos ospontos:

500100015002000250030003500

200

600

1000

1400

1800

2200

F2(Hz)

F1(Hz)

Pontos F1 × F

2

27 / 54(a)


� Gráfico da nuvem F1 × F2 com todos ospontos:

500100015002000250030003500

200

600

1000

1400

1800

2200

F2(Hz)

F1(Hz)

Pontos F1 × F

2

27 / 54(b)

Figura 8: Exemplo de gráfico com resultados de umadas amostras de áudio do grupo GC da UTFPR. (a)Gráfico da nuvem F1×F2 com os valores de formantesobtidos para todos os pontos. (b) Trapézio indicandoo formato desejado para conformação da nuvem.

37

4.3.2 Rotina para Cálculo da Taxa de Passagem por Zero

O sinal é dividido em janelas com duração de 25 ms1, sendo efetuado o cálculo

do número de vezes em que há alteração do sinal do valor da amostra (mudança de

sinal de positivo para negativo e vice-versa). Após a finalização do processo descrito,

os resultados de todas as janelas são normalizados (valores entre [0,1]).

4.3.3 Detecção da Frequência Fundamental

No Praat é utilizada a opção “To Pitch (ac)...”, por permitir a configuração

dos parâmetros de inicialização, que incluem a definição das frequências mı́nima

e máxima, além da escolha do tipo de janela (opção “Very accurate” para janela

Gaussiana). O tamanho da janela não é definido, por ser uma função da frequência

mı́nima.

Neste primeiro momento mantiveram-se os valores de custo padrão. O

objeto resultante é convertido para “PitchTier ” e em seguida para tabela, permitindo

o armazenamento na forma de arquivo. Um exemplo de gráfico gerado após a

detecção de frequência fundamental pode ser visto na Figura 9. É possı́vel observar

que a simples remoção das amostras em que não houve detecção de frequência

fundamental já resulta em um gráfico F1 × F2 mais próximo do trapézio vocálico,conforme pode ser visto na Figura 5 (p. 28).


� Gráfico da nuvem F1 × F2 após análise deF0 e ZCR:

500100015002000250030003500

200

600

1000

1400

1800

2200

F2(Hz)

F1(Hz)

Pontos F1 × F

2

29 / 54Figura 9: Gráfico de nuvem de pontos F1×F2 com osvalores de formantes após análise de F0 e de ZCR.

1Tal valor na prática é fixado entre 10 e 30 ms, sendo definido de forma que a janela tenha duraçãosuficiente para capturar as caracterı́sticas de um determinado fonema.

38

Contudo, o gráfico demonstrado na Figura 9 ainda apresenta pontos de

frequências mais altas, possivelmente associado aos loci de fonemas consonantais

devido a efeitos de coarticulação, o que exigiu a aplicação dos demais algoritmos

apresentados para obtenção de um conjunto resultante mais consistente.

Nas próximas etapas os pontos que persistirem serão submetidos a novas

seleções, no intuito de se obter uma nuvem mais próxima possı́vel do trapézio vocálico,

como a apresentada na Figura 10. Assim torna-se possı́vel proceder à análises do

comportamento formântico do indivı́duo.


� Gráfico da nuvem F1 × F2 resultante

5001000150020002500

200

400

600

800

1000

1200

F2(Hz)

F1(Hz)

Pontos F1 × F

2

34 / 54

Figura 10: Gráfico de nuvem de pontos F1 × F2 com osvalores de formantes após análise inicial de agrupamento,aproximando-se do formato desejado do trapézio vocálico.

4.3.4 Cálculo de Formantes

No software Praat é utilizada a opção “To Formant (Burg)...” que possibilita

a escolha do número máximo de formantes a ser buscado e do valor máximo da

frequência. A largura da janela é configurada em 25 ms, por ser um valor considerado

(empiricamente) razoável para este tipo de análise.

Mantem-se em 50 Hz o valor do filtro de pré-ênfase, que corresponde ao

valor inicial em que o filtro atuará para corrigir a combinação da atenuação de altas

frequências provocada pelo trato vocal e a amplificação associada à radiação do som

através da abertura dos lábios.

39

Em seguida a matriz obtida é submetida à função “Formant Track”, que

considera os valores obtidos para cada frame como um candidato, ao qual é atribuı́do

um custo referente ao valor da frequência, à banda e à transição entre oitavas. O

número máximo de formantes será menor, porém com maior exatidão dos valores

obtidos.

Com relação às frequências definidas para cálculo do custo dos valores dos

formantes, usualmente adota-se como referência os valores médios 550 Hz, 1650 Hz,

2750 Hz, 3850, Hz 4950 Hz para F1 · ·F5. Contudo, devido a variação de F1 e F2,tal prática desfavorece o reconhecimento das vogais posteriores alta e média-alta

(DRESCH et al., 2015). A alternativa encontrada, e aplicada no segundo método

de inicialização de centroides tratado na Subseção 4.3.9, foi o cálculo simultâneo

de “trilhas” de formantes, isto é, matrizes com diferentes valores de referência dos

formantes F1 e F2. As trilhas são mescladas durante a etapa de avaliação da

continuidade (Subseção 4.3.6).

Após tal processo é realizada ainda uma limpeza de valores “undefined”, e em

seguida os vetores são convertidos para tabela, de modo que o arquivo salvo possa

ser corretamente carregado no Matlab.

4.3.5 Seleção de Amostras

No Matlab, as tabelas geradas pelas rotinas do software Praat são carregadas

e salvas em matrizes. Realiza-se em seguida a etapa de seleção das amostras a

terem os valores de formantes considerados. Inicialmente são eliminadas as que

apresentem taxa de passagem por zero (ZCR) maior que 0,5 (50% do valor máximo),

por apresentarem baixa probabilidade de serem voz.

Conforme demonstrado nos gráficos alinhados temporalmente da Figura 11,

nos pontos em que há detecção de F0, a energia do sinal é menor e há uma maior

taxa de passagem por zero. Na Figura 11(a), em que é apresentado um oscilograma

(forma de onda) para um trecho de sinal de fala com sobreposição dos traçados de

STE (energia de curto termo) e de ZCR, pode-se visualizar que os trechos com maior

STE também apresentam menor ZCR.

Quando o oscilograma é comparado com o espectrograma (apresentado em

banda estreita para melhor observação da curva de F0) da Figura 11(b), percebe-se

que tais pontos correspondem àqueles em que houve a detecção de F0.

40

Assim, são mantidos para as próximas análises aqueles pontos que

obedecerem a esse critério, conforme ilustrado na Figura 11(c) (neste caso,

apresentado em banda larga, que destaca as curvas dos formantes). Ou seja, em

regiões vozeadas: F0∃, ZCR ↓ e STE ↑, logo os pontos F1 · ·Fn são analisados.Enquanto que em regiões desvozeadas: F0@, ZCR ↑ e STE ↓, sendo F1 · ·Fndescartados.

0.5 1 1.5 2 2.5 3

-1

-0.5

0

0.5

1

t(s)

Oscilograma: Sinal de fala original - ZCR - STE

Fala

ZCR

STE

0.5 1 1.5 2 2.5 3

1000

2000

3000

4000

F(H

z)

t(s)

Espectrograma banda estreita com sobreposição da curva de de F0 nas áreas vozeadas

0.5 1 1.5 2 2.5 3

1000

2000

3000

4000

F(H

z)

t(s)

Espectrograma banda larga com curvas dos formantes F1 a F

4 sobrepostos nas áreas vozeadas

V V V V V V V V V V V V V V V

F1

F2

F3

F4

F0

(a)

0.5 1 1.5 2 2.5 3

-1

-0.5

0

0.5

1

t(s)


Fala

ZCR

STE

0.5 1 1.5 2 2.5 3

1000

2000

3000

4000

F(H

z)

t(s)


0.5 1 1.5 2 2.5 3

1000

2000

3000

4000

F(H

z)

t(s)




F1

F2

F3

F4

F0

(b)

0.5 1 1.5 2 2.5 3

-1

-0.5

0

0.5

1

t(s)


Fala

ZCR

STE

0.5 1 1.5 2 2.5 3

1000

2000

3000

4000

F(H

z)

t(s)


0.5 1 1.5 2 2.5 3

1000

2000

3000

4000

F(H

z)

t(s)




F1

F2

F3

F4

F0

(c)

Figura 11: Trecho de áudio com a repetição: “nove, um, zero, quatro, zero, três,dois, zero”. (a) Forma de onda em azul com sobreposição dos gráficos de STE emvermelho e de ZCR em preto; (b) Espectrograma de banda estreita com sobreposiçãodos pontos de frequência fundamental em pret

Documents

UNIVERSIDADE TECNOLOGICA FEDERAL DO PARAN´ A´ PROGRAMA DE …repositorio.utfpr.edu.br/jspui/bitstream/1/1799/1/CT... · 2016. 10. 26. · Marcia, Lucas, Denise e Marilisa. O apoio