Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁPROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA BIOMÉDICA
ANDRÉA ALVES GUIMARÃES DRESCH
MÉTODO PARA RECONHECIMENTO DE VOGAIS E EXTRAÇÃO DEPARÂMETROS ACÚSTICOS PARA ANÁLISES FORENSES
DISSERTAÇÃO
CURITIBA
2015
ANDRÉA ALVES GUIMARÃES DRESCH
MÉTODO PARA RECONHECIMENTO DE VOGAIS E EXTRAÇÃO DEPARÂMETROS ACÚSTICOS PARA ANÁLISES FORENSES
Dissertação apresentada ao Programa dePós-Graduação em Engenharia Biomédicada Universidade Tecnológica Federal doParaná como requisito parcial para obtençãodo grau de “Mestre em Ciências” – Área deConcentração: Engenharia Biomédica.
Orientador: Prof. Dr. Hugo Vieira Neto
Coorientador: Prof. Dr. Rubens Alexandre deFaria
CURITIBA
2015
Dados Internacionais de Catalogação na Publicação
D773m Dresch, Andréa Alves Guimarães
2015 Método para reconhecimento de vogais e extração de
parâmetros acústicos para análises forenses / Andréa Alves
Guimarães Dresch.-- 2015.
105 f.: il.; 30 cm
Texto em português, com resumo em inglês.
Dissertação (Mestrado) - Universidade Tecnológica
Federal do Paraná. Programa de Pós-graduação em Engenharia
Biomédica, Curitiba, 2015.
Bibliografia: f. 67-72.
1. Fonética acústica. 2. Fonética forense. 3. Língua
portuguesa - Vogais. 4. Processamento de sinais -
Modelos matemáticos. 5. Teoria da previsão. 6. Medição.
7. Métodos de simulação. 8. Engenharia biomédica -
Dissertações. I. Vieira Neto, Hugo, orient. II. Faria,
Rubens Alexandre de, coorient. III. Universidade Tecnológica
Federal do Paraná. Programa de Pós-graduação em Engenharia
Biomédica. IV. Título.
CDD: Ed. 22 -- 610.28
Biblioteca Central da UTFPR, Câmpus Curitiba
UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ
Campus Curitiba
Programa de Pós-Graduação em Engenharia Biomédica
Título da Dissertação Nº 048
“Método para reconhecimento de vogais e extração de parâmetros acústicos para análises forenses”
por
Andréa Alves Guimarães Dresch ÁREA DE CONCENTRAÇÃO: Engenharia Biomédica.
LINHA DE PESQUISA: Instrumentação Biomédica.
Esta dissertação foi apresentada como requisito parcial à obtenção do grau de MESTRE EM CIÊNCIAS (M.Sc.) – Área de Concentração: Engenharia Biomédica, pelo Programa de Pós-Graduação em Engenharia Biomédica (PPGEB), – da Universidade Tecnológica Federal do Paraná (UTFPR), Campus Curitiba, às 10h00min do dia 14 de dezembro de 2015. O trabalho foi aprovado pela Banca Examinadora, composta pelos professores:
________________________________ Prof. Rubens Alexandre de Faria, Dr.
(Presidente – UTFPR)
________________________________ Prof. Luiz Eduardo Soares de Oliveira , Dr.
(UFPR)
________________________________ Prof. André Eugênio Lazzaretti, Dr.
(UTFPR)
Visto da coordenação:
________________________________ Profª. Leandra Ulbricht.,Drª. (Coordenadora do PPGEB)
AVISO: A Folha de Aprovação assinada encontra-se na Coordenação do PPGEB.
À vovó Corina (in memoriam).
AGRADECIMENTOS
O caminho dessa etapa da minha vida só foi possı́vel de ser percorrido por
valiosas contribuições que recebi. Por isso expresso minha gratidão a essas pessoas.
Agradeço ao Grupo de Estudos dos Sons da Fala da UTFPR, em especial à
professora Malu, pela cessão de amostras de áudio utilizadas neste trabalho.
Agradeço aos colegas do LAPIS, especialmente Eduardo, Philipe, Charles e
Ricardo, pelo convı́vio que permitiu um imenso aprendizado.
Agradeço aos meus colegas da Seção de Perı́cias Audiovisuais, Aninha, Ivo,
Márcia, Lucas, Denise e Marilisa. O apoio de vocês foi muito importante.
Agradeço ao meu orientador Hugo Vieira Neto, que tem tido um papel
fundamental em minha formação. Nos momentos crı́ticos sempre soube trazer a
motivação necessária.
Ao meu coorientador Rubens Alexandre Faria por abrir as portas para
Engenharia Forense no programa.
A André Eugênio Lazzareti, pelo auxı́lio com as análises dos resultados dos
experimentos.
Agradeço aos meus familiares e amigos, por toda compreensão neste perı́odo.
À minha mãe, dona Aparecida, por todas as orações sempre que eu precisava.
Aos meus irmãos Karine, Rogério e Lucas, sempre irmãozinhos no meu
coração.
À Josianne, irmã por afinidade, pela amizade que atravessa os anos.
Agradeço ao meu esposo, Marcio, companheiro de jornada e meu melhor
amigo, sempre me amparando em todos os passos.
“Caminhante, não há caminho, faz-se caminho ao andar.”(Antônio Machado Ruiz)
“NÃO ENTRE EM PÂNICO!”(Douglas Adams, Guia do Mochileiro das Galáxias)
RESUMO
Dresch, Andréa Alves Guimarães. MÉTODO PARA RECONHECIMENTO DE VOGAISE EXTRAÇÃO DE PARÂMETROS ACÚSTICOS PARA ANÁLISES FORENSES. 105 f.Dissertação – Programa de Pós-Graduação em Engenharia Biomédica, UniversidadeTecnológica Federal do Paraná. Curitiba, 2015.
Exames de Comparação Forense de Locutores apresentam caracterı́sticascomplexas, demandando análises demoradas quando realizadas manualmente.Propõe-se um método para reconhecimento automático de vogais com extração decaracterı́sticas para análises acústicas, objetivando-se contribuir com uma ferramentade apoio nesses exames. A proposta baseia-se na medição dos formantes atravésde LPC (Linear Predictive Coding), seletivamente por detecção da frequênciafundamental, taxa de passagem por zero, largura de banda e continuidade, sendo oagrupamento das amostras realizado por meio do método k-means. Experimentosrealizados com amostras de três diferentes bases de dados trouxeram resultadospromissores, com localização das regiões correspondentes a cinco das vogais doPortuguês Brasileiro, propiciando a visualização do comportamento do trato vocal deum falante, assim como detecção de trechos correspondentes às vogais-alvo.
Palavras-chave: Análise Acústica, Exame de Comparação de Locutores, FonéticaForense, Processamento de Sinais de Áudio, Trapézio Fonético.
ABSTRACT
Dresch, Andréa Alves Guimarães. METHOD FOR RECOGNITION OF VOWELS ANDEXTRACTION OF ACOUSTIC PARAMETERS FOR FORENSIC ANALYSIS. 105 f.Master’s Dissertation – Post-graduation Program in Biomedical Engineering, FederalUniversity of Technology - Paraná. Curitiba, 2015.
Forensic Speaker Comparison exams have complex characteristics, demanding a longtime for manual analysis. A method for automatic recognition of vowels, providingfeature extraction for acoustic analysis is proposed, aiming to contribute as a supporttool in these exams. The proposal is based in formant measurements by LPC (LinearPredictive Coding), selectively by fundamental frequency detection, zero crossing rate,bandwidth and continuity, with the clustering being done by the k-means method.Experiments using samples from three different databases have shown promisingresults, in which the regions corresponding to five of the Brasilian Portuguese vowelswere successfully located, providing visualization of a speaker’s vocal tract behavior,as well as the detection of segments corresponding to target vowels.
Keywords: Acoustic Analysis, Audio Signal Processing, Forensic Phonetics, ForensicSpeaker Comparison Exam, Phonetic Trapezium.
LISTA DE FIGURAS
–FIGURA.1 Fluxograma das etapas principais da proposta . . . . . . . . . . . . . . . . . . . . 18–FIGURA.2 Diagrama em corte sagital do aparelho fonador com indicação dos
sistemas que o compõem e seus principais elementos . . . . . . . . . . . . 22–FIGURA.3 Diagrama esquemático do mecanismo de produção de voz humana 23–FIGURA.4 Comparação entre os espectros LPC e FFT . . . . . . . . . . . . . . . . . . . . . . . 26–FIGURA.5 Trapézio vocálico fonético de acordo com o IPA . . . . . . . . . . . . . . . . . . . 28–FIGURA.6 Sobreposição do gráfico de F1×F2 com ilustração com posição da
lı́ngua durante a produção das vogais orais tônicas . . . . . . . . . . . . . . . . 29–FIGURA.7 Fluxograma dos algoritmos implementados . . . . . . . . . . . . . . . . . . . . . . . 35–FIGURA.8 Gráfico de nuvem de pontos F1×F2 com os valores de formantes
obtidos para todos os pontos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36–FIGURA.9 Gráfico de nuvem de pontos F1×F2 com os valores de formantes
após análise de F0 e de ZCR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37–FIGURA.10 Gráfico de nuvem de pontos F1×F2 com os valores de formantes
após análise inicial de agrupamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38–FIGURA.11 Gráficos de um trecho de áudio: forma de onda com sobreposição
de traçados de STE e ZCR e espectrogramas com sobreposição decurvas de F0 e de formantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
–FIGURA.12 Gráficos de nuvens de pontos F1×F2 referentes a diferentes trilhasde formantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
–FIGURA.13 Fluxogramas dos algoritmos implementados para agrupamento ebusca de centroides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
–FIGURA.14 Divisão do espaço F1 × F2 em regiões horizontais a partir dosmı́nimos obtidos através da função da densidade de probabilidade 44
–FIGURA.15 Subdivisão de região do espaço F1 × F2 a partir dos mı́nimos emáximos da função densidade de probabilidade para inicializaçãodos centroides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
–FIGURA.16 Distribuição dos valores de razão entre as distâncias resultantes dosMétodos 1 e 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
–FIGURA.17 Gráfico de nuvem de pontos F1 × F2 com indicação do centroideassociado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
–FIGURA.18 Gráficos de nuvens de pontos e trechos F1×F2 sobrepostos peloscentroides resultantes obtidos pelos Métodos 1 e 2 . . . . . . . . . . . . . . . . 53
–FIGURA.19 Gráficos LTAS (Long Term Average Spectrum) . . . . . . . . . . . . . . . . . . . . 55–FIGURA.20 Boxplots com comparativo das distribuições de F1×F2 de amostras
do grupo GC com degradações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60–FIGURA.21 Gráficos de nuvens de pontos F1×F2 e boxplots das distribuições
dos formantes em diferentes trechos de uma amostra. . . . . . . . . . . . . 62
LISTA DE TABELAS
–TABELA.1 Amostras de dados utilizadas nos experimentos . . . . . . . . . . . . . . . . . . . 34–TABELA.2 Resultados dos centroides do grupo GC da UTFPR obtidos após
agrupamento por meio dos Métodos 1 e 2 . . . . . . . . . . . . . . . . . . . . . . . . . 48–TABELA.3 Diferenças entre os centros as referências do grupo GC da UTFPR
após agrupamento por meio dos Métodos 1 e 2 . . . . . . . . . . . . . . . . . . . . 49–TABELA.4 Diferença percentual da distância entre a fronteira de cada região a
referência mais próxima, com agrupamento pelos Métodos 1 e 2 . . . 51–TABELA.5 Quantidade de referências localizadas internamente às regiões
delimitadas por meio dos Métodos 1 e 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 51–TABELA.6 Corpus UTFPR: percentual de vogais-alvo representadas na nuvem
final e percentual médio das amostras dessas vogais . . . . . . . . . . . . . . 54–TABELA.7 Diferença dos valores F1 e F2 dos centroides em relação aos valores
de referência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56–TABELA.8 Percentual de vogais-alvo representadas na nuvem final - grupos do
corpus UTFPR sem degradação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56–TABELA.9 Diferença dos valores F1 e F2 dos centroides em relação aos valores
de referência, amostras com codificação . . . . . . . . . . . . . . . . . . . . . . . . . . . 57–TABELA.10 Teste t de Student para comparar valores obtidos com amostras
submetidas a codificações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57–TABELA.11 Percentual de vogais-alvo representadas na nuvem final - grupos do
corpus UTFPR com codificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58–TABELA.12 Número de centroides reconhecidos nos grupos analisados após
adição de ruı́do ao sinal das amostras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58–TABELA.13 Diferença dos valores F1 e F2 dos centroides em relação aos valores
de referência, amostras com adição de ruı́do . . . . . . . . . . . . . . . . . . . . . . 59–TABELA.14 Teste t de Student para comparar valores obtidos com amostras com
adição de ruı́do codificações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59–TABELA.15 Percentual de vogais-alvo representadas na nuvem final - grupos do
corpus UTFPR com adição de ruı́do . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60–TABELA.16 Diferença dos valores de centroides em comparações intrafalantes
para amostras do corpus C-ORAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
LISTA DE SIGLAS
CL Comparação de LocutoresMFCC Mel-Frequency Cepstral CoefficientsLPCC Linear Prediction Cepstral CoefficientsHMM Hidden Markov ModelGMM Gaussian Mixture ModelSVM Support Vector MachineZCR Zero Crossing RateSTE Short Term EnergyMDF Most Dominant FrequencyF0 Frequência FundamentalF1 Primeiro FormanteF2 Segundo FormanteFn Enésimo FormanteLPC Linear Predictive CodingFFT Fast Fourier TransformPB Português BrasileiroIPA International Phonetic AlphabetBW1 Banda de passagem de F1BW2 Banda de passagem de F2PCM Pulse Code ModulationAMR-nb Adaptative multi rate - narrow bandAMR Adaptative multi rate3GPP 3rd Generation Partnership ProjectMP3 MPEG layer 3LTAS Long Term Average Spectrum
LISTA DE SÍMBOLOS
rx(τ) Autocorrelação do sinalrxw(τ) Autocorrelação do sinal após janelamentorw(τ) Autocorrelação da janelas[n] Sinal de saı́dax[n] Sinal de áudio de entradam Número de coeficientes LPCŝ[n] Sinal de saı́da estimado através dos coeficientes LPCa[i] Coeficientes LPCe[n] Erro de predição do sistema LPCyn Predição linear das amostras anterioreszn Predição linear das amostras posterioresK Número de agrupamentos do método k-meansd Distância Euclidianaµµµkkk K-ésimo centro de agrupamento do método k-meansrnk Rótulo do enésimo padrão de entradaxxxnnn Enésimo padrão de entrada do método k-meansµ Média da distribuição
SUMÁRIO
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.1 MOTIVAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.2 OBJETIVOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.2.1 Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.2.2 Objetivos Especı́ficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.3 ABORDAGEM PROPOSTA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.4 ESTRUTURA DA DISSERTAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 TRABALHOS CORRELATOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 FUNDAMENTAÇÃO TEÓRICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.1 PRODUÇÃO DE VOZ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.1.1 Sistema Respiratório . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.1.2 Sistema Laringeal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.1.3 Sistema Articulatório . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.2 TEORIA FONTE-FILTRO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.2.1 Frequência Fundamental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.2.2 Formantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.3 FONEMAS DO PORTUGUÊS BRASILEIRO (PB) . . . . . . . . . . . . . . . . . . . . . . . . . . 273.3.1 Vogais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.3.2 Semivogais ou Glides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.3.3 Consoantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.4 MODELO DE AGRUPAMENTO K-MEANS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314 MATERIAIS E MÉTODOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.1 AMOSTRAS DE DADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.1.1 Corpus UTFPR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.1.2 Corpus SPOLTECH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.1.3 Corpus C-ORAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344.2 FERRAMENTAL DE EDIÇÃO DE ÁUDIO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.3 ALGORITMOS UTILIZADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.3.1 Pré-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.3.2 Rotina para Cálculo da Taxa de Passagem por Zero . . . . . . . . . . . . . . . . . . . . . . . 374.3.3 Detecção da Frequência Fundamental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.3.4 Cálculo de Formantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384.3.5 Seleção de Amostras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.3.6 Continuidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.3.7 Modelo de Agrupamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.3.8 Inicialização dos Centroides - “Método 1” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.3.9 Inicialização dos Centroides - “Método 2” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455 EXPERIMENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.1 COMPARAÇÃO ENTRE OS MÉTODOS DE INICIALIZAÇÃO . . . . . . . . . . . . . . . 465.2 ALOCAÇÃO DOS CENTROIDES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.3 RECONHECIMENTO DOS TRECHOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.4 CODIFICAÇÃO DOS SINAIS DE ÁUDIO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.5 ADIÇÃO DE RUÍDO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475.6 COMPARAÇÃO INTRAFALANTES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 476 RESULTADOS E DISCUSSÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486.1 COMPARAÇÃO ENTRE OS MÉTODOS DE INICIALIZAÇÃO . . . . . . . . . . . . . . . 486.1.1 Alocação dos Centroides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486.1.2 Reconhecimento dos Trechos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 536.1.3 Média Espectral após o Reconhecimento dos Trechos . . . . . . . . . . . . . . . . . . . . . 546.2 RESULTADOS PARA DEGRADAÇÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556.2.1 Codificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 566.2.2 Adição de Ruı́do . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 586.3 RESULTADOS PARA COMPARAÇÃO INTRAFALANTES . . . . . . . . . . . . . . . . . . . 617 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 637.1 TRABALHOS FUTUROS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67APÊNDICE A - CÓDIGO DOS PROGRAMAS GERADOS NO PRAAT . . . . . . . . . . 73A.1 ROTINA PARA CÁLCULO E GERAÇÃO DE TABELAS COM VALORES DE
STE, ZCR, F0 E TRILHAS DE F1,2,3 E BW1,2,3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73A.2 ROTINA PARA CRIAÇÃO DE TEXTGRIDS COM VALORES DE TRECHOS 82APÊNDICE B - CÓDIGO DOS PROGRAMAS GERADOS NO MATLAB . . . . . . . . . 86B.1 FUNÇÃO PRINCIPAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86B.2 FUNÇÃO PARA FORMATAR TABELAS GERADAS NO PRAAT . . . . . . . . . . . . . 87B.3 FUNÇÕES PARA GERAR NUVEM DE PONTOS F1×F2 - MÉTODO 1 . . . . . . 88B.4 FUNÇÕES PARA GERAR NUVEM DE PONTOS F1×F2 - MÉTODO 2 . . . . . . 92B.5 FUNÇÃO PARA CALCULAR VALORES MÉDIOS NOS TRECHOS . . . . . . . . . 95APÊNDICE C - RESULTADOS OBTIDOS DURANTE OS EXPERIMENTOS . . . . . 97C.1 RESULTADOS OBTIDOS POR MEIO DOS MÉTODOS 1 E 2 . . . . . . . . . . . . . . . 97C.2 DISTÂNCIAS RESULTANTES APÓS AGRUPAMENTO POR MEIO DOS
MÉTODOS 1 E 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98C.3 DIFERENÇA DOS VALORES F1 E F2 DOS CENTROIDES EM RELAÇÃO
AOS VALORES DE REFERÊNCIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99C.4 PERCENTUAL DE VOGAIS-ALVO REPRESENTADAS NA NUVEM FINAL -
GRUPOS DO CORPUS UTFPR SEM DEGRADAÇÃO . . . . . . . . . . . . . . . . . . . . . 99C.5 DIFERENÇA DOS VALORES F1 E F2 DOS CENTROIDES EM RELAÇÃO
AOS VALORES DE REFERÊNCIA, AMOSTRAS COM CODIFICAÇÃO . . . . .100C.6 PERCENTUAL DE ACERTO DE VOGAIS-ALVO PARA AMOSTRAS COM
CODIFICAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101C.7 NÚMERO DE CENTROIDES RECONHECIDOS APÓS ADIÇÃO DE RUÍDO
AO SINAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .102C.8 DIFERENÇA DOS VALORES F1 E F2 DOS CENTROIDES EM RELAÇÃO
AOS VALORES DE REFERÊNCIA, AMOSTRAS COM ADIÇÃO DE RUÍDO 103C.9 PERCENTUAL DE ACERTO DE VOGAIS-ALVO PARA AMOSTRAS COM
ADIÇÃO DE RUÍDO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .104C.10 DIFERENÇA DOS VALORES DE CENTROIDES EM COMPARAÇÕES
INTRAFALANTES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .105
14
1 INTRODUÇÃO
A produção de provas, regulamentada através do Código de Processo Penal
(BRASIL, 1941; BRASIL, 2008), tem sido cada vez mais comum por meio de
registros de áudio, em especial após a promulgação da Lei 9296/96 que trata das
interceptações telefônicas (BRASIL, 1996), disciplinada pelas Resoluções nº 59 e
nº 84 (CNJ, 2008; CNJ, 2009). Consequentemente, as demandas da área forense
referentes às perı́cias audiovisuais para atribuição de autorias têm se intensificado.
O exame de Comparação de Locutores (CL) tem por finalidade verificar se
dois registros de voz e fala foram produzidos por um mesmo indivı́duo, consistindo
na comparação entre um registro de áudio denominado questionado - sobre o qual
pairam dúvidas quanto à autoria das falas - e um registro padrão - registros de fala
de identidade conhecida (MORISSON, 2003; GRECO, 2013; GONÇALVES; PETRY,
2015). A importância desse exame reside na possibilidade de vincular ou desvincular
um indivı́duo a um fato delituoso materializado através de um registro de áudio
(BRAID, 2003).
Um exemplo no qual um exame de CL seria destacadamente importante
supõe uma gravação oriunda de interceptação telefônica, cumprindo todos os
requisitos legais, seja a única prova material para esclarecimento de um crime. Seu
conteúdo trata-se de um diálogo entre duas pessoas, identificadas como João e
Maria, que trocam informações sobre um homicı́dio perpetrado por ambos contra
um terceiro indivı́duo, sendo que os falantes não apenas explicitam sua participação,
como também mencionam detalhes que alteram a classificação do delito de homicı́dio
simples para qualificado, de acordo com o Código Penal (BRASIL, 1940). Ocorre que,
durante o processo penal, o defensor dos acusados argumenta que as vozes ouvidas
na gravação não são de seus clientes.
É indiscutı́vel a importância do exame de CL para dirimir dúvidas como a
descrita no exemplo. Nesse caso hipotético, associar ou não, equivocadamente,
as vozes presentes na gravação às pessoas João e Maria, leva a dois cenários
diametralmente opostos: impunidade de indivı́duos culpados de um crime de maior
potencial ofensivo, ou situação eticamente ainda pior, reclusão injusta de cidadãos
inocentes do crime imputado.
15
Relatórios de diagnóstico da Segurança Pública e da Perı́cia Criminal
brasileira apontam a carência de peritos criminais (SENASP, 2012; ENASP, 2012), o
que consequentemente culmina em passivo de laudos nos Institutos de Criminalı́stica.
O represamento de materiais a serem examinados prejudica a celeridade necessária
para a produção de provas, o que, de acordo com Vargas e colaboradores (2006),
contribui para a morosidade de um processo penal.
Nesse contexto, agravado pela complexidade das análises envolvidas, uma
vez que o exame de CL requer um tempo de execução muito superior à média dos
demais exames periciais, a gestão de recursos humanos de Seções de Perı́cias
Audiovisuais é dificultada, analogamente ao constatado por Vrubel e colaboradores
(2013) em relação à Seção de Computação Forense .
Segundo Gomes e Carneiro (2014), nos órgãos brasileiros que realizam
exames de CL, observa-se uma preponderância de fonoaudiólogos e engenheiros
eletricistas. Contudo, independentemente da área de formação do perito criminal,
a interdisciplinaridade inerente a esse exame (GOMES et al., 2012) exige uma grande
construção de conhecimento. Portanto, a capacitação deve ser rigorosa, pois em
cada exame um diferente aspecto poderá ser decisivo para determinação/exclusão
de autoria (MIQUILUSSI et al., 2014). Dessa forma, torna-se ainda mais reduzido
o número de peritos criminais aptos para receberem designações de exames de
CL. É desejável, portanto, que se busque o aperfeiçoamento das técnicas adotadas,
para melhor aproveitamento dos recursos humanos disponı́veis e para otimização -
quantitativa e qualitativa - do exame.
Em pesquisa realizada por Gold e French (2011), foi efetuado um
levantamento das técnicas utilizadas para esse exame em 13 paı́ses, sendo
constatada a predominância da utilização das análises classificadas como perceptivo-
auditiva e acústico-instrumental, ou simplesmente perceptiva e acústica (MORISSON
et al., 2009). Os autores observaram ainda que, mesmo quando algum sistema de
reconhecimento automático é utilizado, não se abandona por completo as análises
humanas, tanto que recentemente tem-se adotado a nomenclatura “Automático com
Supervisão Humana” (MORRISON et al., 2015).
No cenário brasileiro, a constatação de Gold e French (2011) é de que as
análises perceptiva e acústica são adotadas combinadamente, sendo tal apontamento
corroborado por autores brasileiros (MORISSON et al., 2009; GONÇALVES; PETRY,
2015).
16
A análise perceptiva requer um profissional capacitado para identificar
propriedades da qualidade da voz, padrões articulatórios, traços linguı́sticos, entre
outros atributos. Recentemente foi proposto por Gonçalves e Petry (2015) o ”Protocolo
Forense para Análise Perceptivo-Auditiva de Amostras de Fala”, para auxiliar a
identificação e análise de caracterı́sticas relativas à qualidade de voz, que também
ampara análises de sociofonética (GONÇALVES; BRESCANCINI, 2014).
Por sua vez, a análise acústica engloba medições de curto e de longo
termo, nos domı́nios temporal e espectral, sendo que, de acordo com Morisson
e colaboradores (2009), os parâmetros acústicos servem como suporte para
achados em análises perceptivas. Contudo, algumas análises requerem extensiva
segmentação de trechos com fonemas a serem submetidos à extração de parâmetros,
o que, dependendo do volume do material, pode tornar o exame extremamente
laborioso.
Sendo assim, a proposta desta pesquisa é o desenvolvimento de um método
para contribuir para o desenvolvimento de uma ferramenta para auxı́lio de análises
acústicas que facilite a visualização de caracterı́sticas úteis para o exame de CL:
energia, frequência fundamental, frequência e banda de formantes, taxa de subida
ou descida de formantes em um trecho.
1.1 MOTIVAÇÃO
Objetiva-se que o método proposto seja integrado em ferramenta de apoio em
exames de CL. Para tal implementação, a escolha do aproveitamento de interfaces do
aplicativo Praat (BOERSMA; WEENINK, 2015) se deve pelo mesmo ser um software
livre e amplamente difundido tanto no ambiente acadêmico como no forense, tal que
os profissionais da área já estão familiarizados com o mesmo.
Embora o foco seja forense, a ferramenta também poderá ser utilizada em
outras áreas de linguı́stica ou de fonoaudiologia. O intento é o reconhecimento
de trechos vozeados de uma gravação, sem a obrigatoriedade de pré-segmentação
manual, além da disponibilização de gráficos, com possibilidade de seleção de áreas
a serem reavaliadas com a visualização de oscilograma e espectrograma, com os
trechos de interesse concatenados ou simplesmente etiquetados.
Tal funcionalidade seria útil, por exemplo, em análises do comportamento
formântico a longo termo do trato vocal de um dado falante. Porém, nos casos
17
em que tal hipótese não se confirme devido à interferência agressiva de ruı́do ou a
particularidades da voz em questão, ou mesmo no caso de outliers, o perito teria a
possibilidade de confirmar perceptivamente o que ocorreu.
O método proposto poderá auxiliar em análises acústicas manuais, sem
detrimento da utilização de sistemas de reconhecimento automático. Além disso, um
padrão visual auxiliaria em análise intra e inter-sujeito, pois se espera em uma CL que
sejam encontrados elementos estáveis o suficiente e que denotem similaridades em
falas pertencentes a um falante, mas que não sejam comuns a outros indivı́duos.
1.2 OBJETIVOS
1.2.1 Objetivo Geral
Obter um método para reconhecimento de vogais, com a finalidade de
segmentar automaticamente e extrair caracterı́sticas acústicas de fonemas vocálicos
em exames de CL.
1.2.2 Objetivos Especı́ficos
• Selecionar amostras de áudio viáveis para extração e análise de parâmetros
acústicos.
• Implementar funções nos software Praat e Matlab para segmentação de trechos
vocálicos, assim como a obtenção do trapézio fonético vocálico.
• Estabelecer critérios para avaliação de desempenho dos métodos
implementados.
• Conduzir experimentos com diversos tipos de degradação do sinal de áudio, tais
como codificação, compressão e adição de ruı́do.
1.3 ABORDAGEM PROPOSTA
Com a finalidade de proporcionar uma visão geral da metodologia proposta,
apresenta-se a seguir um resumo de suas etapas, as quais estão ilustradas na
Figura 1.
18
ENTRADA
Seleção de trechos apartir de três corpora,e preparação dasamostras
EXTRAÇÃO DECARACTERÍSTICAS
Cálculo de parâmetrosacústicos e geração detabelas com resultados
PROCESSAMENTODO SINAL
Processamento do sinal paraclassificação das amostras eseu agrupamento, comutilização de dois métodosde inicialização
SAÍDA
Nuvem resultante dosprimeiros formantes esegmentação emtrechos vocálicos enão-vocálicos
Figura 1: Fluxograma das etapas principais da proposta.
• Entrada: para realização dos experimentos foram selecionadas amostras de
áudio de três diferentes corpora. Para avaliação da robustez do método, as
análises foram efetuadas não apenas para os sinais de áudio sem degradação,
como também com os mesmos submetidos a codificação, compressão ou adição
de ruı́do. A escolha das degradações foi feita com base na natureza de materiais
que costumeiramente são encaminhados para perı́cia: provenientes de ligações
telefônicas, gravadas em formatos que utilizam compressão com perdas ou com
ruı́do de fundo.
• Extração de Caracterı́sticas: cálculo de parâmetros acústicos do sinal. No
método proposto, a medição dos formantes é feita pela técnica LPC (Linear
Predictive Coding), conforme o método de Burg (COLLOMB, 2009), com
posterior ponderação de custos para determinação final dos valores de cada
formante (com base na frequência e na banda). São descartados os pontos
em que não há detecção de F0 (frequência fundamental), calculados através de
autocorrelação nas janelas (trechos em análise) com energia acima e taxa de
passagem por zero abaixo de limiares pré-estabelecidos.
• Processamento do sinal: reconhecimento de agrupamentos de pontos (ou
clusters) relacionados à anterioridade e à altura das vogais, identificando que
vogal se refere a cada região especı́fica (/a/, /e/, /E/, /i/, /o/, /O/ e /u/).
Embora, como constatado por Escudero e colaboradores (2009), no Português
Brasileiro (PB) tal determinação possa ser feita por meio de várias combinações
de parâmetros, a combinação dos formantes F1×F2 é a que melhor evidencia adistribuição das vogais.
Com o mecanismo desenvolvido foi possı́vel proceder à análise das vogais, com
base em seus parâmetros acústicos, sem necessidade de segmentação prévia.
A estratégia explorada foi a de utilizar a detecção da frequência fundamental
(F0), a determinação de limiares de taxa de passagem por zero e de energia de
19
curto termo, assim como a avaliação da continuidade de valores em amostras
subsequentes, para possibilitar a seleção dos instantes com valores válidos de
formantes, de forma a minimizar a interferência de fonemas consonantais.
Foram avaliadas duas variações de métodos para reconhecimento das vogais,
os quais diferiam entre si na forma de realizar o agrupamento dos pontos F1×F2.No denominado “Método 1”, obtém-se uma matriz com valores de formantes
calculados a partir de um valor médio de vogais como referência e a busca de
centroides se baseia nos picos das distribuições de F1 × F2. Por outro lado,no “Método 2”, trabalha-se com várias matrizes de formantes, designadas de
“trilhas”, e a busca de centroides parte de valores iniciais definidos a priori.
• Saı́da: foram obtidas nuvens resultantes para os primeiros formantes F1×F2,assim como a segmentação do sinal de áudio em trechos vocálicos e não-
vocálicos. Os resultados obtidos demonstraram sucesso na segmentação
automática de vogais, sendo constatado um melhor desempenho do “Método
2” tanto em relação ao número de centroides localizados, como à quantidade e
duração dos trechos-alvo reconhecidos.
1.4 ESTRUTURA DA DISSERTAÇÃO
Esta dissertação está organizada da seguinte maneira: no Capı́tulo 2 são
trazidos trabalhos recentes de reconhecimento automático de vogais, enquanto que no
Capı́tulo 3 são abordados conceitos relacionados à produção de voz, à Teoria Fonte-
Filtro, caracterı́sticas acústicas associados aos fonemas, assim como ao modelo de
agrupamento k-means. O Capı́tulo 4 trata da descrição das amostras de dados,
ferramental e algoritmos utilizados. No Capı́tulo 5 são elencados os experimentos
realizados, sendo os resultados obtidos apresentados e discutidos no Capı́tulo 6. No
Capı́tulo 7, os principais resultados são retomados, sendo feita uma discussão acerca
da contribuição do método desenvolvido e de trabalhos futuros.
20
2 TRABALHOS CORRELATOS
Dentro da área de processamento de sinais de fala encontra-se a aplicação de
reconhecimento de locutor (ou falante), a qual apresenta três subdivisões principais:
detecção, identificação e verificação de locutor, podendo as mesmas ser classificadas
como dependentes ou independentes de texto (CAMPBELL JR, 1997).
A identificação de locutor ocorre em um contexto 1:N, pois efetua-se a
comparação do alvo com os indivı́duos de um dado grupo, podendo ou não existir
uma correspondência. Na verificação de locutor, por outro lado, existe uma relação
1:1 para comparação, uma vez que há uma identidade alegada para o alvo (ADAMI,
2004).
Os sistemas de reconhecimento automático de locutor apresentam estruturas
similares às dos sistemas de reconhecimento de fala. Englobam etapas de extração
de parâmetros, comparação e de decisão. A etapa de extração de parâmetros tem por
objetivo estimar um vetor de caracterı́sticas do sinal de áudio, a fim de possibilitar que
comparações possam ser feitas a partir desse vetor. A etapa de comparação envolve
o cálculo de um valor de correspondência, que expresse a similaridade entre as
caracterı́sticas extraı́das dos sinais sob análise. Por fim, à etapa de decisão compete
determinar se as vozes comparadas foram produzidas por um mesmo indivı́duo
(CAMPBELL JR, 1997).
O desenvolvimento de tais sistemas baseia-se, principalmente, na extração
de caracterı́sticas por meio de técnicas MFCC (Mel-Frequency Cepstral Coefficients),
LPCC (Linear Prediction Cepstral Coefficients), com modelamento HMM (Hidden
Markov Model), GMM (Gaussian Mixture Model), SVM (Support Vector Machine) ou
redes neurais (DRYGAJLO, 2012; FURUI, 2005; REYNOLDS, 2002; KINNUNEN; LI,
2010).
Ressalta-se, contudo, que a motivação deste trabalho foi contribuir com
ferramental para auxiliar peritos criminais durante a realização do exame, por meio
da segmentação de fonemas vocálicos. Com base nisso, buscou-se na literatura
trabalhos relacionados ao reconhecimento automático de vogais, especialmente em
contexto de fala encadeada.
21
Alotaibi e Hussain (2010) realizaram um sistema para reconhecimento de
vogais do idioma Árabe. Os autores efetuaram modelamento HMM, sendo a
extração de caracterı́sticas feita por meio de MFCC e de formantes, tendo obtido um
desempenho similar para ambas as técnicas, com taxa de acerto de até 91,6%.
Pradhan e Prasanna (2013) propõem a segmentação de regiões vocálicas
e não-vocálicas como estratégia para melhorar o desempenho na tarefa de
reconhecimento de falante. No método aplicado, essas regiões são submetidas de
forma independente ao estágio de extração de caracterı́sticas por meio de MFCC, e
em seguida à etapa de classificação com uso de GMM. Para decisão, os resultados
obtidos são combinados, porém com uma atribuição distinta de pesos (há um
favorecimento das regiões vocálicas que são menos degradadas por ruı́do). Tal
implementação resultou em redução da taxa de erro de 6,63% para 6%.
Deekshitha e Leena (2014) propõem um sistema para classificação de
fonemas presentes no Malaiala, uma das lı́nguas oficiais da Índia. O método de
extração de caracterı́sticas, que foi indicado como tendo melhor resultado, foi baseado
na combinação de coeficientes MFCC com caracterı́sticas do sinal - ZCR (Zero
Crossing Rate - taxa de passagem por zero), STE (Short Term Energy - energia
de curto termo), MDF (Most Dominant Frequency - frequência dominante), spectral
flatness (nivelamento espectral). Para classificação foram utilizadas redes neurais
artificiais. As autoras buscavam o reconhecimento das diferentes categorias de
consoantes além das vogais, para as quais foi obtida uma taxa de acerto de 60%
com o método de extração indicado.
Na abordagem proposta por Beke e Horvárth (2015) para reconhecimento
de vogais nasais do idioma Húngaro, a partir de um corpus de fala espontânea, a
extração de caracterı́sticas foi feita com MFCC e a classificação com HMM, sendo
utilizados 1490 vogais para treino e 745 para teste. Com essa abordagem os autores
conseguiram uma taxa de acerto de 75,8% no reconhecimento das vogais.
No presente trabalho optou-se pela extração de caracterı́sticas acústicas do
sinal, sendo a classificação das regiões vocálicas realizadas com a aplicação do
método de agrupamento k-means na nuvem de pontos F1× F2, após refinamentose inicialização detalhados na Seção 4.3. Adotou-se tal metodologia para ser possı́vel
realizar a segmentação sem a etapa de treinamento, procedimento necessário nos
métodos de classificação utilizados nos trabalhos mencionados anteriormente.
22
3 FUNDAMENTAÇÃO TEÓRICA
3.1 PRODUÇÃO DE VOZ
A fala é um dos principais recursos de comunicação humana. Inicia-se por um
processo interno do falante, que mentalmente formula a mensagem a ser transmitida,
ocorrendo em seguida a ativação motora dos músculos e órgãos do aparelho fonador
para a articulação da fala.
Após emissão da mensagem pelo falante e transmissão através do meio (o
próprio ar ou um canal telefônico, por exemplo), terá vez o processo de percepção dos
sons de fala pelo ouvinte. Tal processo é mais complexo do que a simples detecção de
sinais acústicos (como tons puros ou ruı́do), pois é necessário identificar, categorizar e
reconhecer esses sons em sua forma, para atribuir à fala seu significado (mensagem)
(RUSSO; BEHLAU, 1993; RABINER; SCHAFER, 2011).
Os elementos envolvidos na produção de voz compõem o aparelho fonador
(ilustrado na Figura 2), constituı́do pelos sistemas elencados na sequência.Produção da Fala
19
2 FUNDAMENTAÇÃO TEÓRICA
2.1 PRODUÇÃO DE VOZ
A fala é um dos principais recursos de comunicação humana. Inicia-se por um
processo interno do falante, que mentalmente formula a mensagem a ser transmitida,
ocorrendo em seguida a ativação motora dos músculos e órgãos do aparelho fonador
para a articulação da fala.
Após emissão da mensagem pelo falante e transmissão através do meio (o
próprio ar ou um canal telefônico, por exemplo), terá vez o processo de percepção dos
sons de fala pelo ouvinte. Tal processo é mais complexo do que a simples detecção de
sinais acústicos (como tons puros ou ruı́do), pois é necessário identificar, categorizar e
reconhecer esses sons em sua forma, para atribuir à fala seu significado (mensagem)
(RUSSO; BEHLAU, 1993; RABINER; SCHAFER, 2011).
Os elementos envolvidos na produção de voz compõem o aparelho fonador
(ilustrado na Figura 1), constituı́do pelos sistemas elencados na sequência.
Sistema Articulatório
Sistema Laringeal
Sistema Respiratório
Cavidade nasal
Narinas
Lábios
Lı́ngua
Dentes
Cavidade oral
Traqueia
Pulmões
Diafragma
Laringe
Palato duro
Palato mole(véu palatino)
Figura 1: Diagrama em corte sagital do aparelho fonador.
Fonte: Adaptado de (DELLER et al., 2000).
Fonte: Adaptado de (DELLER et al., 2000).
9 / 54
Figura 2: Diagrama em corte sagital do aparelho fonador,os sistemas que o compõem e seus principais elementos.
Fonte: Adaptado de (DELLER et al., 2000).
23
3.1.1 Sistema Respiratório
A geração da voz tem inı́cio no sistema respiratório (diafragma, pulmões,
traqueia), que produz a energia aerodinâmica necessária pra produção dos sons
da fala (LADEFOGED; JOHNSON, 2010). Na Figura 3 é possı́vel observar como o
volume de ar expelido pelos pulmões atua como fonte de energia para os demais
sistemas integrantes do aparelho fonador.Produção da Fala
20
2.1.1 Sistema Respiratório
A geração da voz tem inı́cio no sistema respiratório (diafragma, pulmões,
traqueia), que produz a energia aerodinâmica necessária pra produção dos sons
da fala (LADEFOGED; JOHNSON, 2010). Na Figura 2 é possı́vel observar como o
volume de ar expelido pelos pulmões atua como fonte de energia para os demais
sistemas integrantes do aparelho fonador.
��
����� ���������������
������������� ��������������
�����������������������
����� ��������������
�����!���������
�����������������
����"�#$%&'$#()&*+�&+����� �+%����������������,���
����
�������
�-������������������������������������
������
������������������
��.�������
/012345
61540789:027
;95?97@=A957
B012345
/CD34=0
;C5=@0=7:=
24
caracterı́stica de vozeamento das vogais e de algumas consoantes. A frequência
dessa vibração corresponde à frequência fundamental (F0), que possui como correlato
acústico o pitch (DELLER et al., 2000).
3.1.3 Sistema Articulatório
O sistema articulatório, também chamado por trato vocal, é composto pela
faringe, cavidade oral e cavidade nasal, elementos esses que participam da produção
sonora (RUSSO; BEHLAU, 1993). As caracterı́sticas anatomofisiológicas do trato
vocal produzem ressonâncias nos sons originados dos pulsos glóticos ou friccionais,
conforme descrito no modelo fonte-filtro (KENT; READ, 2002), apresentado na
Seção 3.2.
Durante a produção de fonemas vocálicos, as frequências amplificadas
resultam nos formantes (F1, F2, F3, ..., Fn) (RABINER; SCHAFER, 2011). Os primeiros
formantes, F1 e F2, têm relação direta com a altura e o recuo da lı́ngua (RUSSO;
BEHLAU, 1993). Sua representação gráfica é normalmente realizada através do
diagrama de Vogais Cardeais, também chamado de Trapézio Vocálico (CRISTÓFARO-
SILVA, 2011), conforme Figura 5 (p. 28).
3.2 TEORIA FONTE-FILTRO
A Teoria Fonte-Filtro é um legado de Fant 1960 e considera o sinal de voz
como uma composição de uma fonte de excitação acoplado a um filtro modelado pela
anatomia do trato vocal.
Conforme descrito em (KENT; READ, 2002), a aplicação da Teoria Fonte-Filtro
envolve suposições que permitem simplificações do modelo, tornando-o “tratável”
matematicamente. Sendo assim, é importante fazer as seguintes ressalvas sobre
algumas simplificações realizadas:
• Desconsidera-se a atuação dos tecidos do trato vocal na absorção e reflexão dos
sons.
• Considera-se que o trato vocal atua de forma invariante no tempo.
• Considera-se a propagação longitudinal das ondas, porém algumas podem se
propagar de forma transversal.
25
• Considera-se interações entre o sistema respiratório e o trato vocal.
• Considera-se o trato vocal como uma associação de tubos retos, embora
apresente curvatura e variações no calibre ao longo da passagem.
A Teoria Fonte-Filtro é considerada válida e tem sido adotada por diversos
autores em diferentes aplicações, contudo é importante se considerar as limitações
inerentes ao modelo nos casos práticos.
3.2.1 Frequência Fundamental
Estimadores de frequência fundamental procuram a componente frequencial
que se sobressai em um trecho do sinal, valor que deverá ser equivalente ao
perı́odo entre pulsos glóticos. Duas abordagens tradicionalmente utilizadas são
a autocorrelação e a análise cepstral. Neste trabalho, optou-se pelo método de
autocorrelação, por se mostrar mais robusto à presença de ruı́do (SHIMAMURA;
KOBAYASHI, 2001).
O algoritmo nativo do software Praat calcula a autocorrelação de cada bloco
de sinal submetido a uma janela de Hanning ou Gaussiana. O resultado é obtido pela
divisão da função de autocorrelação do sinal pela autocorrelação da própria janela,
como demonstrado na Equação (1), em que rx(τ) é correspondente à autocorrelação
resultante, rxw(τ) à autocorrelação do sinal após janelamento e rw(τ) à autocorrelação
da janela utilizada. Dessa forma, evita-se que harmônicos sejam confundidos com a
frequência fundamental (BOERSMA, 1993).
rx(τ)≈rxw(τ)rw(τ)
. (1)
Para estimativa de F0 no segmento do sinal em análise, busca-se o máximo
local da autocorrelação rx(τ), em que τ0 = (F0)−1. O algoritmo possui ainda
refinamentos, com limiares de silêncio e de vozeamento e a atribuição de custos para
transições de vozeamento/desvozeamento, valor de oitava e salto de oitava entre duas
janelas consecutivas. O tamanho da janela de análise também está atrelado ao limite
inferior para busca de frequência (pitch floor ) (BOERSMA; WEENINK, 2015).
26
3.2.2 Formantes
Uma forma de reconhecer as regiões vocálicas de um sinal de voz é através da
obtenção dos formantes, que pode ser feita pela aproximação do envelope espectral
desse sinal através de uma análise de predição linear, ou LPC (Linear Predictive
Coding). Na Figura 4 é possı́vel visualizar o espectro LPC, mais suavizado que o
espectro FFT, evidenciado os picos que correspondem aos formantes daquele instante
de tempo do sinal de voz em análise. Tal técnica consiste em separar o sinal de
excitação da resposta do trato vocal, extraindo justamente a informação de formantes
que é de interesse para a análise (RABINER; SCHAFER, 2011).Formantes Frequência (Hz)
Nív
el d
e pr
essã
o so
nora
(dB/
Hz)
0 1000 2000 3000 400010
20
30
40
50
60
70
80
90
Frequência (Hz)
Nív
el d
e pr
essã
o so
nora
(dB/
Hz)
0 1000 2000 3000 400010
20
30
40
50
60
70
80
90PADRÃO
Tempo (s)
Fre
quên
cia
(Hz)
3.639 3.7790
4000PADRÃO ESPECTRO LPC
Frequência (Hz)
Nív
el d
e pr
essã
o so
nora
(dB/
Hz)
0 1000 2000 3000 400010
20
30
40
50
60
70
80
90QUESTIONADO
Tempo (s)
Fre
quên
cia
(Hz)
3.639 3.7790
4000QUESTIONADO
PDFil
l PDF
Editor
with F
ree W
riter an
d Tool
s
Espectro FFTEspectro LPC
F1
F2F3 · · ·
15 / 54
Figura 4: Figura contemplando o espectro LPC (em azul na partesuperior), mais suavizado, em contraste com o espectro FFT (emvermelho na parte inferior).
A análise de predição linear parte do pressuposto de que cada amostra do
sinal de fala é, aproximadamente, uma combinação linear das amostras anteriores.
Normalmente é feita através de métodos de covariância ou de autocorrelação
(BARBOSA; REIS, 2012). Uma representação deste modelo pode ser visualizada
na Equação (2), em que s[n] representa o sinal de saı́da, x[n] o sinal de entrada e m o
número de coeficientes que corresponderá à ordem do sistema.
s[n] =m
∑i=1
ais[n− i]+ x[n]. (2)
Uma vez que o sinal de entrada é desconhecido, o valor ŝ[n] na Equação (3)
27
é uma estimativa do valor da amostra atual. O objetivo da análise preditiva é a
determinação dos coeficientes a[i] (em que i = 1, . . . ,m), de forma que o erro de
predição e[n] constante na Equação (4) seja o menor possı́vel.
ŝ[n] =m
∑i=1
ais[n− i]. (3)
e[n] = s[n]− ŝ[n]. (4)
Para este trabalho foi escolhido o algoritmo de Burg, por ser considerado um
modelo estável e que apresenta bons resultados para gravações de curta duração
(COLLOMB, 2009). O algoritmo de Burg considera, além da predição referente às
amostras anteriores, yn na Equação (5), também a predição referente às amostras
posteriores, zn na Equação (6).
yn =−m
∑i=1
aix[n− i]. (5)
zn =−m
∑i=1
aix[n+ i]. (6)
A escolha dos coeficientes é feita de forma a minimizar o erro de ambos os
sentidos. A quantidade máxima de número de coeficientes, na prática, é determinada
pelo valor da frequência de amostragem (em kHz) mais dois (BARBOSA; REIS, 2012).
Os valores e as bandas de passagens dos formantes são calculados a partir do
polinômio obtido com os coeficientes estimados.
3.3 FONEMAS DO PORTUGUÊS BRASILEIRO (PB)
As unidades linguı́sticas que organizam uma determinada lı́ngua são
denominadas fonemas. No PB os fonemas são subdivididos em vogais, semivogais
ou glides e consoantes.
3.3.1 Vogais
Representam o único tipo de segmento que pode atuar como núcleo
silábico. São segmentos vozeados ou sonoros, devido à vibração das pregas vocais
28
que sempre ocorre durante a sua articulação. Um ponto importante para sua
caracterização é que, durante a sua produção, o fluxo de ar não sofre obstruções no
trato vocal, e, como consequência, os segmentos vocálicos geralmente apresentam
maior energia que os consonantais (RUSSO; BEHLAU, 1993; RABINER; SCHAFER,
2011).
Na Figura 5 é apresentado o trapézio fonético das vogais, em que as barras
verticais e horizontais são alusivas à posição da lı́ngua nos respectivos eixos durante
a produção de cada vogal. Dessa forma, cada vogal corresponde a uma configuração
do trato vocal, interferindo diretamente nos valores dos formantes.
O formante F1 diz respeito à posição da lı́ngua no eixo vertical e F2 à sua
posição no eixo horizontal, conforme Figura 6, que ilustra as posições da lı́ngua
durante a produção das vogais orais tônicas /a/, /e/, /E/, /i/, /o/, /O/ e /u/ (“a”,
“ê”, “é”, “i”, “ô”, “ó” e “u”) (RUSSO; BEHLAU, 1993; ENGELBERT, 2011).Trapézio Vocálico
25
Na Figura 4 é apresentado o trapézio fonético das vogais, em que as barras
verticais e horizontais são alusivas à posição da lı́ngua nos respectivos eixos durante
a produção de cada vogal. Dessa forma, cada vogal corresponde a uma configuração
do trato vocal, interferindo diretamente nos valores dos formantes.
O formante F1 diz respeito à posição da lı́ngua no eixo vertical e F2 à sua
posição no eixo horizontal, conforme Figura 5, que ilustra as posições da lı́ngua
durante a produção das vogais orais tônicas /a/, /e/, /E/, /i/, /o/, /O/ e /u/ (“a”,
“ê”, “é”, “i”, “ô”, “ó” e “u”) (RUSSO; BEHLAU, 1993; ENGELBERT, 2011).
i y 1 0 W u
I Y U
e ø 9 8 G o
E œ 3 Æ 2 O
æ
a × A 6
@
5
Anterior Central Posterior
Alta (fechada)
Média-alta (meia fechada)
Média-baixa (meia aberta)
Baixa (aberta)
Figura 4: Trapézio vocálico fonético de acordo com o IPA -International Phonetic Alphabet (IPA, 2005). Pares de vogaiscom vogais arredondadas à direita e não-arredondadas àesquerda. Destaque em vermelho para as vogais queocorrem no PB.
Fonte: Adaptado de (CRISTÓFARO-SILVA; YEHIA, 2009).
Outra caracterı́stica que interfere nas vogais é o arredondamento dos lábios,
que pode ser observado nas vogais posteriores /O/, /o/ e /u/. Além disso, as vogais
podem ser nasais ou nasalizadas, situação em que o véu palatino é abaixado,
permitindo o acoplamento da cavidade nasal ao trato vocal e por conseguinte
alterando a configuração das formantes.
Fonte: Adaptado de (CRISTÓFARO-SILVA; YEHIA, 2009).
21 / 54
Figura 5: Trapézio vocálico fonético de acordo com o IPA -International Phonetic Alphabet (IPA, 2005). Pares de vogaiscom vogais arredondadas à direita e não-arredondadas àesquerda. Destaque em vermelho para as vogais queocorrem no PB.
Fonte: Adaptado de (CRISTÓFARO-SILVA; YEHIA, 2009).
Outra caracterı́stica que interfere nas vogais é o arredondamento dos lábios,
que pode ser observado nas vogais posteriores /O/, /o/ e /u/. Além disso, as vogais
podem ser nasais ou nasalizadas, situação em que o véu palatino é abaixado,
permitindo o acoplamento da cavidade nasal ao trato vocal e por conseguinte
29Trapézio Vocálico 26 ��
����
����
����
�
�����
���
����
������������������ !"�#�$�%"&��#"�'�$"����"��()�*��"�#�+,*����"� ��-��.��/����0'"1����#�������*(���"�"2"��1�("�""*%"1���34"�15�(�"� !"��*#��"*#�"����� !"�#"1%6*$5"#5�"*(�"���#5� !"�#�����2�*�0"�7
�89:;�?:�>8>;@ABCCDEFGHI=BJKLLMN
�7O7� ��0�'�$"���5PQRSTU
V"0�%�0 �!"�2�*�0"�'�W�"#����0�1"���4"�'�$"��X���%�0 ��0 0�*��
�*(�*��#"#��#5�"� !"�7Y�+,��*��("0Z��"'�$"���"�"2��0"�#�(�*$���5(��(�*$��X
��#�*#�����[\[X��0�*"�"1"'�"]�"\̂Z_�"�̀a�[b[X��0�*"�"1"'�"]0"b̂ Z_0"5̀7
�7O7O c�*��"*(��
d���*(�%"���#"�'�$"��X#5�"*(�"���#5� !"�#�50"��*��"*(��e5/�#�"�
�$�����#���510!������(�5� !"�(�("1�5�"���"17d���*��"*(���!"��"(�$���W"#"��0
25*� !"�#�0�#�X��0��0�#���*(�#"���(�5� !"�������#".fg��ha,ijkdgX�llOa
iYmik,ifVX����37d���0X��*��#��"*#�n5�#5�"*(�""�(��51"� !"�#�502�*�0"
��*��*"*("1������"0�'�0�*("� !"�#�50"�(��51"#��"(�'�.dd3�0#���� !"�"��5(��
�"���'�.d+3�X�0#�����)�*��"#�0�#�#�"�(��51"� !"�"���*��"*(����#�0����
o+1���'"��5��15��'"�����(�5� !"�(�("14"�"��"$�0#�"�.[�[X[�[X[([X[#[X[p[X[$[37
�d�(��51"#�����!"��1�0�*(�������*(��*"�"'�#"#��5�"1Xn5���!"�"(5"����(�5�*#�"�"��"$�0#�"�#5�"*(�"���#5� !"�#�2�*�0"�7Y��(�����������("�!"��*'�1'�#��#���"�(��51"#����X"(�'���"���'�X��n5"��#�&*�0���*(�#�"�(��51"� !"�7
Figura 5: Sobreposição do gráfico das vogais orais tônicasdo PB no espaço F1×F2 (eixos com valores decrescentespara facilitar a análise) à ilustração indicando a posição dalı́ngua durante a produção desses fonemas.
Fonte: Adaptado de (RUSSO; BEHLAU, 1993)
2.3.2 Semivogais ou Glides
Também são fonemas vozeados similares às vogais, porém com menor
intensidade e duração. No PB conectam-se a vogais para formar ditongos ou tritongos,
podendo ser: /j/, como na palavra [paj] - “pai”; e /w/, como na palavra [maw] - “mau”.
2.3.3 Consoantes
Ao contrário das vogais, durante a produção de uma consoante o fluxo de ar
egresso dos pulmões obstrução total ou parcial. As consoantes são categorizadas em
função do modo, bem como do ponto da obstrução ocorrida (RUSSO; BEHLAU, 1993;
ENGELBERT, 2011). Assim, considerando que durante a articulação de um fonema
consonantal ocorre a movimentação de um articulador ativo (AA) em direção ao outro
passivo (AP) 1, em decorrência do modo de articulação as consoantes podem ser:
1Articuladores são elementos presentes na cavidade bucal, que irão atuar obstruindo a passagemde ar durante a produção de fonemas. Neste processo estarão envolvidos dois articuladores, ativo epassivo, os quais definem o ponto de articulação.
F1 l
F2 ↔
Fonte: Adaptado de (RUSSO;BEHLAU, 1993). 22 / 54Figura 6: Sobreposição do gráfico das vogais orais tônicasdo PB no espaço F1×F2 (eixos com valores decrescentespara facilitar a análise) à ilustração indicando a posição dalı́ngua durante a produção desses fonemas.
Fonte: Adaptado de (RUSSO; BEHLAU, 1993)
alterando a configuração das formantes.
3.3.2 Semivogais ou Glides
Também são fonemas vozeados similares às vogais, porém com menor
intensidade e duração. No PB conectam-se a vogais para formar ditongos ou tritongos,
podendo ser: /j/, como na palavra [paj] - “pai”; e /w/, como na palavra [maw] - “mau”.
3.3.3 Consoantes
Ao contrário das vogais, durante a produção de uma consoante o fluxo
de ar egresso dos pulmões sofre obstrução total ou parcial. As consoantes são
categorizadas em função do modo, bem como do ponto da obstrução ocorrida
(RUSSO; BEHLAU, 1993; ENGELBERT, 2011).
Durante a articulação de um fonema consonantal ocorre a movimentação de
30
um articulador ativo (AA) em direção ao outro passivo (AP) 1.
Em decorrência do modo de articulação as consoantes são classificadas em:
• Plosivas ou oclusivas: obstrução total à passagem de ar ( /p/, /b/, /t/, /d/, /k/, /g/).
• Nasais: obstrução total à passagem de ar na cavidade oral, porém com
acoplamento da cavidade nasal (/m/, /n/, /ñ/ em [soño] - “sonho”).
• Fricativas: articuladores se aproximam produzindo fricção ( /f/, /v/, /s/, /z/, /Z/ em
[Zato] - “jato”, /S/ em [Sato] - “chato”, róticos2 /x/, /G/, /h/ e /H/).
• Laterais: articuladores se tocam e a corrente de ar é obstruı́da no eixo central
(/l/, /L/ em [paLa] - “palha”).
• Tepes: articuladores se tocam rapidamente uma única vez (/R/ em [caRo] - “caro”).
No PB há ainda alguns modos de articulação presentes apenas em variedades
regionais:
• Africadas: alofones (variantes fonéticas) dos fonemas /Z/ e /S/. O segmento inicia-
se com oclusão e termina com fricção (/Ã/ em [Ãia] - “dia”, /Ù/ em [Ùia] - “tia”).
• Vibrantes: os articuladores se tocam várias vezes causando vibração. “R forte”
de algumas variedades regionais, pronunciado de forma prolongada (/ř/).
• Retroflexas: produzido com encurvamento da lı́ngua, variedade regional
conhecida como “R caipira” (/ô/).
Quanto à classificação em função do ponto da articulação, as consoantes
podem ser:
• Bilabiais: AA - lábio inferior, AP - lábio superior (/p/, /b/, /m/).
• Labiodentais: AA - lábio inferior, AP - dentes incisivos superiores (/f/, /v/).
• Alveolares: AA - ponta da lı́ngua, AP - alvéolos (/t/, /d/, /n/, /l/, /R/, /s/, /z/).
1Articuladores são elementos presentes na cavidade bucal, que irão atuar obstruindo a passagemde ar durante a produção de fonemas. Neste processo estarão envolvidos dois articuladores, ativo epassivo, os quais definem o ponto de articulação.
2Sons de “r”, que quanto ao modo de articulação podem ser fricativas, tepes, vibrantes ou retroflexas,e quanto ao ponto de articulação alveolares, velares ou glotais.
31
• Alveopalatares: AA - parte anterior da lı́ngua, AP - parte medial do palato duro (
/Z/, /S/, /Ã/, /Ù/).
• Palatais: AA - parte medial da lı́ngua, AP - parte final do palato duro (/L/, /ñ/).
• Velares: AA - parte posterior da lı́ngua, AP - véu palatino (/k/, /g/, /x/, /G/).
• Glotais: constrição na glote. “R forte” presente apenas em algumas variedades
regionais, como o carioca (/h/ e /H/).
As consoantes ainda podem ser vozeadas ou desvozeadas, sendo que na
análise espectral de consoantes com mesmo ponto e modo de articulação (como por
exemplo [f] e [v], de “faca” e “vaca”), a diferença pode ser observada através da barra
de vozeamento (para o [v]).
Durante a fala os segmentos vocálicos e consonantais são produzidos de
forma encadeada, sendo que o ponto e o modo de articulação de um determinado
fonema provocam efeitos de coarticulação nos fonemas vizinhos.
3.4 MODELO DE AGRUPAMENTO K-MEANS
O k-means é um método para agrupamento dos padrões de entrada em K
grupos, sendo K um parâmetro definido a priori. Conforme descrito em (GOPI,
2014), antes de dar inı́cio ao processo em si é necessário inicializar os centroides
(µµµ111,µµµ222, · · · ,µµµKKK) dos K agrupamentos, o que normalmente é realizado com valoresaleatórios. Uma vez inicializado, o algoritmo apresenta duas etapas principais, as
quais têm relação com o método de Maximização de Expectativa (BISHOP, 1995).
A primeira etapa consiste na atribuição de cada padrão de entrada xxxnnn ao
agrupamento mais próximo, sendo a medida de proximidade representada pela
distância euclidiana d expressa na Equação 7, a qual corresponde à menor distância
geométrica entre xxxnnn e o centro do agrupamento µµµkkk no espaço N-dimensional. A
variável responsável pelo rótulo de cada padrão é definida como rnk∈ [0,1], ondek = 1, ...,K, como sendo rnk = 1 se xxxnnn pertence ao agrupamento k e rnk = 0 caso
contrário.
d =
√N
∑i=1
(xni−µki)2 (7)
32
Na segunda etapa, após a atribuição de todos os padrões de entrada a um
dos K agrupamentos, é realizado o cálculo dos novos centros definidos pelo primeiro
estágio do algoritmo, através da Equação 8.
µµµkkk =
N∑
n=1rnkxxxnnn
N∑
n=1rnk
. (8)
O processo se repete até a convergência (ou seja, até que nenhuma nova
alteração seja verificada nos agrupamentos), ou até que um determinado número de
iterações tenha ocorrido. Ao final, cada padrão de entrada está associado a um dos
agrupamentos definidos, aos quais estão atribuı́dos os novos valores de centros. Tal
processo equivale ao pseudo-código apresentado a seguir.
1 if Centroides nao Inicializados{
2 Selecionar valores iniciais dos K centroides aleatoriamente;
3 }
4 while (i++ < Numero Maximo de Iteracoes){
5 for (j++
33
4 MATERIAIS E MÉTODOS
4.1 AMOSTRAS DE DADOS
Para os experimentos foram utilizadas como amostras de dados arquivos de
áudio produzidos em três corpora, descritos a seguir.
4.1.1 Corpus UTFPR
Apresenta arquivos de áudio produzidos em pesquisa realizada pelo Grupo
de Estudos de Sons da Fala da UTFPR (GOMES, 2013). Trata-se de gravações
realizadas durante a leitura de um texto pré-definido, com duração aproximada de
60 segundos.
Os fonemas alvo daquele estudo estavam presentes em sı́labas tônicas e
em contexto interplosivo, de forma a minimizar os efeitos de coarticulação. O texto
continha quatro repetições para cada uma das sete vogais orais tônicas do PB, as
quais foram manualmente etiquetadas, servindo de referência. As gravações foram
organizadas em cinco grupos.
4.1.2 Corpus SPOLTECH
Compilado através do projeto “CORPORA from CSLU: The Spoltech Brazilian
Portuguese v1.0” (SCHRAMM et al., 2000), apresenta 8.080 trechos com falas de
477 falantes, consistindo de leituras de sentenças foneticamente balanceadas e de
respostas a perguntas.
Apesar da duração de áudio total de cada falante ser relativamente pequena
(aproximadamente 30 segundos), tem sido uma base bastante utilizada em pesquisas
do PB, além de trazer um contexto com fluidez diferente daquela apresentada pelo
corpus UTFPR, o que justifica sua utilização neste trabalho.
Na preparação das amostras foram concatenados todos os trechos
pertencentes aos 20 primeiros falantes, sendo gerados arquivos individuais
distribuı́das em dois grupos.
34
4.1.3 Corpus C-ORAL
Base compilada através do projeto “C-ORAL”, desenvolvido pelo Núcleo de
Estudos em Linguagem, Cognição e Cultura da Universidade Federal de Minas Gerais
(RASO; MELLO, 2012), que apresenta registros com fala espontânea, trazendo uma
proximidade maior de situações reais.
Foram selecionadas as amostras classificadas como monólogos, por
apresentarem maior duração de fala exclusiva do falante alvo. Na preparação, excluiu-
se qualquer trecho em que houvesse interferência do entrevistador ou de outro falante
que não fosse o alvo. Os arquivos resultantes das amostras apresentaram em média
oito minutos de duração, divididos em dois grupos.
Com a utilização das amostras provenientes das bases UTFPR e SPOLTECH,
obteve-se variedade de sujeitos para avaliações interfalantes, enquanto que a maior
duração das amostras da base C-ORAL permitiu análises intrafalantes. Na Tabela 1
são apresentados os grupos em que estavam organizadas as amostras utilizadas
durante os experimentos.
Tabela 1: Amostras de dados utilizadas nos experimentos.
Corpus Caracterı́sticas das amostras Grupo Qtd. Falantes
UTFPR Leitura (∼ 60 s)
GC 10 pesquisadorasGM 10 sexo feminino (> 35 anos)GG 10 sexo feminino (< 25 anos)GH 10 sexo masculino (> 35 anos)GR 10 sexo masculino (< 25 anos)
Total 50 (∼50 min)
SPOLTECH Leitura/respostas (∼ 30 s) M 9 sexo femininoH 11 sexo masculino
Total 20 (∼10 min)
C-ORAL Monólogos (∼ 8 min) M 4 sexo femininoH 2 sexo masculino
Total 6 (∼48 min)
35
4.2 FERRAMENTAL DE EDIÇÃO DE ÁUDIO
A conversão dos arquivos originais em arquivos com compressão ou com
adição de ruı́do foi realizada com o auxı́lio das ferramentas de edição de áudio e
vı́deo SoX (SOX, 2015) e FFMPEG (FFMPEG, 2015).
Para a implementação dos algoritmos indicados na Seção 4.3, utilizou-se o
software de análise de áudio Praat, assim como o software de análise matemática
Matlab, e sua toolbox de Processamento de Sinais.
4.3 ALGORITMOS UTILIZADOS
Após a seleção no Praat do arquivo ou trecho a ser submetido à análise, inicia-
se o processamento, conforme ilustrado no fluxograma apresentado na Figura 7, nos
qual os blocos principais estão enumerados de acordo com a subseção em que serão
descritos na sequência.
Inı́cioSeleção de trecho epré-processamento
Cálculo de ZCR,F0, F1··4 e BW1··4
Tabelasresultantes
F0, ZCR, BW1,BW2 ok?
Busca inicialde centroides
Amostra ∈cluster válido?
Continuidadeok?
Busca decentroides
Amostra ∈cluster válido?
Descarte deamostras
Nuvem de pontosresultantes Gráficos e relatórios Fim
S
SS
S
NN N
Blocos implementados no software Praat conforme código apresentado no Apêndice A
Blocos implementados no software Matlab conforme código apresentado no Apêndice B
4.3.1 4.3.2 4.3.3 4.3.4
4.3.5
4.3.6 4.3.8 4.3.94.3.74.3.8 4.3.94.3.7
Figura 7: Fluxograma dos algoritmos implementados. A numeração ao lado decada bloco refere-se a sua subseção correspondente da Seção 4.3. Também sãoindicados os blocos programados no software Praat (Apêndice A) e no softwareMatlab (Apêndice B).
36
4.3.1 Pré-processamento
Nesta etapa o sinal é reamostrado a uma taxa de 8 kHz, e o nı́vel CC removido
através da subtração do nı́vel médio do sinal de áudio. Um exemplo de gráfico gerado
nesta etapa apresentado na Figura 8(a), sendo que a área de interesse do gráfico está
delimitada pelo trapézio vermelho na Figura 8(b).
Materiais e métodos: algoritmos
� Gráfico da nuvem F1 × F2 com todos ospontos:
500100015002000250030003500
200
600
1000
1400
1800
2200
F2(Hz)
F1(Hz)
Pontos F1 × F
2
27 / 54(a)
Materiais e métodos: algoritmos
� Gráfico da nuvem F1 × F2 com todos ospontos:
500100015002000250030003500
200
600
1000
1400
1800
2200
F2(Hz)
F1(Hz)
Pontos F1 × F
2
27 / 54(b)
Figura 8: Exemplo de gráfico com resultados de umadas amostras de áudio do grupo GC da UTFPR. (a)Gráfico da nuvem F1×F2 com os valores de formantesobtidos para todos os pontos. (b) Trapézio indicandoo formato desejado para conformação da nuvem.
37
4.3.2 Rotina para Cálculo da Taxa de Passagem por Zero
O sinal é dividido em janelas com duração de 25 ms1, sendo efetuado o cálculo
do número de vezes em que há alteração do sinal do valor da amostra (mudança de
sinal de positivo para negativo e vice-versa). Após a finalização do processo descrito,
os resultados de todas as janelas são normalizados (valores entre [0,1]).
4.3.3 Detecção da Frequência Fundamental
No Praat é utilizada a opção “To Pitch (ac)...”, por permitir a configuração
dos parâmetros de inicialização, que incluem a definição das frequências mı́nima
e máxima, além da escolha do tipo de janela (opção “Very accurate” para janela
Gaussiana). O tamanho da janela não é definido, por ser uma função da frequência
mı́nima.
Neste primeiro momento mantiveram-se os valores de custo padrão. O
objeto resultante é convertido para “PitchTier ” e em seguida para tabela, permitindo
o armazenamento na forma de arquivo. Um exemplo de gráfico gerado após a
detecção de frequência fundamental pode ser visto na Figura 9. É possı́vel observar
que a simples remoção das amostras em que não houve detecção de frequência
fundamental já resulta em um gráfico F1 × F2 mais próximo do trapézio vocálico,conforme pode ser visto na Figura 5 (p. 28).
Materiais e métodos: algoritmos
� Gráfico da nuvem F1 × F2 após análise deF0 e ZCR:
500100015002000250030003500
200
600
1000
1400
1800
2200
F2(Hz)
F1(Hz)
Pontos F1 × F
2
29 / 54Figura 9: Gráfico de nuvem de pontos F1×F2 com osvalores de formantes após análise de F0 e de ZCR.
1Tal valor na prática é fixado entre 10 e 30 ms, sendo definido de forma que a janela tenha duraçãosuficiente para capturar as caracterı́sticas de um determinado fonema.
38
Contudo, o gráfico demonstrado na Figura 9 ainda apresenta pontos de
frequências mais altas, possivelmente associado aos loci de fonemas consonantais
devido a efeitos de coarticulação, o que exigiu a aplicação dos demais algoritmos
apresentados para obtenção de um conjunto resultante mais consistente.
Nas próximas etapas os pontos que persistirem serão submetidos a novas
seleções, no intuito de se obter uma nuvem mais próxima possı́vel do trapézio vocálico,
como a apresentada na Figura 10. Assim torna-se possı́vel proceder à análises do
comportamento formântico do indivı́duo.
Materiais e métodos: algoritmos
� Gráfico da nuvem F1 × F2 resultante
5001000150020002500
200
400
600
800
1000
1200
F2(Hz)
F1(Hz)
Pontos F1 × F
2
34 / 54
Figura 10: Gráfico de nuvem de pontos F1 × F2 com osvalores de formantes após análise inicial de agrupamento,aproximando-se do formato desejado do trapézio vocálico.
4.3.4 Cálculo de Formantes
No software Praat é utilizada a opção “To Formant (Burg)...” que possibilita
a escolha do número máximo de formantes a ser buscado e do valor máximo da
frequência. A largura da janela é configurada em 25 ms, por ser um valor considerado
(empiricamente) razoável para este tipo de análise.
Mantem-se em 50 Hz o valor do filtro de pré-ênfase, que corresponde ao
valor inicial em que o filtro atuará para corrigir a combinação da atenuação de altas
frequências provocada pelo trato vocal e a amplificação associada à radiação do som
através da abertura dos lábios.
39
Em seguida a matriz obtida é submetida à função “Formant Track”, que
considera os valores obtidos para cada frame como um candidato, ao qual é atribuı́do
um custo referente ao valor da frequência, à banda e à transição entre oitavas. O
número máximo de formantes será menor, porém com maior exatidão dos valores
obtidos.
Com relação às frequências definidas para cálculo do custo dos valores dos
formantes, usualmente adota-se como referência os valores médios 550 Hz, 1650 Hz,
2750 Hz, 3850, Hz 4950 Hz para F1 · ·F5. Contudo, devido a variação de F1 e F2,tal prática desfavorece o reconhecimento das vogais posteriores alta e média-alta
(DRESCH et al., 2015). A alternativa encontrada, e aplicada no segundo método
de inicialização de centroides tratado na Subseção 4.3.9, foi o cálculo simultâneo
de “trilhas” de formantes, isto é, matrizes com diferentes valores de referência dos
formantes F1 e F2. As trilhas são mescladas durante a etapa de avaliação da
continuidade (Subseção 4.3.6).
Após tal processo é realizada ainda uma limpeza de valores “undefined”, e em
seguida os vetores são convertidos para tabela, de modo que o arquivo salvo possa
ser corretamente carregado no Matlab.
4.3.5 Seleção de Amostras
No Matlab, as tabelas geradas pelas rotinas do software Praat são carregadas
e salvas em matrizes. Realiza-se em seguida a etapa de seleção das amostras a
terem os valores de formantes considerados. Inicialmente são eliminadas as que
apresentem taxa de passagem por zero (ZCR) maior que 0,5 (50% do valor máximo),
por apresentarem baixa probabilidade de serem voz.
Conforme demonstrado nos gráficos alinhados temporalmente da Figura 11,
nos pontos em que há detecção de F0, a energia do sinal é menor e há uma maior
taxa de passagem por zero. Na Figura 11(a), em que é apresentado um oscilograma
(forma de onda) para um trecho de sinal de fala com sobreposição dos traçados de
STE (energia de curto termo) e de ZCR, pode-se visualizar que os trechos com maior
STE também apresentam menor ZCR.
Quando o oscilograma é comparado com o espectrograma (apresentado em
banda estreita para melhor observação da curva de F0) da Figura 11(b), percebe-se
que tais pontos correspondem àqueles em que houve a detecção de F0.
40
Assim, são mantidos para as próximas análises aqueles pontos que
obedecerem a esse critério, conforme ilustrado na Figura 11(c) (neste caso,
apresentado em banda larga, que destaca as curvas dos formantes). Ou seja, em
regiões vozeadas: F0∃, ZCR ↓ e STE ↑, logo os pontos F1 · ·Fn são analisados.Enquanto que em regiões desvozeadas: F0@, ZCR ↑ e STE ↓, sendo F1 · ·Fndescartados.
0.5 1 1.5 2 2.5 3
-1
-0.5
0
0.5
1
t(s)
Oscilograma: Sinal de fala original - ZCR - STE
Fala
ZCR
STE
0.5 1 1.5 2 2.5 3
1000
2000
3000
4000
F(H
z)
t(s)
Espectrograma banda estreita com sobreposição da curva de de F0 nas áreas vozeadas
0.5 1 1.5 2 2.5 3
1000
2000
3000
4000
F(H
z)
t(s)
Espectrograma banda larga com curvas dos formantes F1 a F
4 sobrepostos nas áreas vozeadas
V V V V V V V V V V V V V V V
F1
F2
F3
F4
F0
(a)
0.5 1 1.5 2 2.5 3
-1
-0.5
0
0.5
1
t(s)
Oscilograma: Sinal de fala original - ZCR - STE
Fala
ZCR
STE
0.5 1 1.5 2 2.5 3
1000
2000
3000
4000
F(H
z)
t(s)
Espectrograma banda estreita com sobreposição da curva de de F0 nas áreas vozeadas
0.5 1 1.5 2 2.5 3
1000
2000
3000
4000
F(H
z)
t(s)
Espectrograma banda larga com curvas dos formantes F1 a F
4 sobrepostos nas áreas vozeadas
V V V V V V V V V V V V V V V
F1
F2
F3
F4
F0
(b)
0.5 1 1.5 2 2.5 3
-1
-0.5
0
0.5
1
t(s)
Oscilograma: Sinal de fala original - ZCR - STE
Fala
ZCR
STE
0.5 1 1.5 2 2.5 3
1000
2000
3000
4000
F(H
z)
t(s)
Espectrograma banda estreita com sobreposição da curva de de F0 nas áreas vozeadas
0.5 1 1.5 2 2.5 3
1000
2000
3000
4000
F(H
z)
t(s)
Espectrograma banda larga com curvas dos formantes F1 a F
4 sobrepostos nas áreas vozeadas
V V V V V V V V V V V V V V V
F1
F2
F3
F4
F0
(c)
Figura 11: Trecho de áudio com a repetição: “nove, um, zero, quatro, zero, três,dois, zero”. (a) Forma de onda em azul com sobreposição dos gráficos de STE emvermelho e de ZCR em preto; (b) Espectrograma de banda estreita com sobreposiçãodos pontos de frequência fundamental em pret