71
Universidade Federal do Rio de Janeiro Escola Polit´ ecnica Departamento de Eletrˆonica e de Computa¸c˜ ao Modelagem de Pros´odia para Conversores Texto-Fala Autor: Lucas Arrabal Thomaz Orientador: Prof. Sergio Lima Netto, Ph. D. Examinador: Prof. Luiz Wagner Pereira Biscainho, D.Sc. Examinador: Vagner Luis Latsch, D.Sc. DEL Setembro de 2012

Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Embed Size (px)

Citation preview

Page 1: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Universidade Federal do Rio de Janeiro

Escola Politecnica

Departamento de Eletronica e de Computacao

Modelagem de Prosodia para Conversores Texto-Fala

Autor:

Lucas Arrabal Thomaz

Orientador:

Prof. Sergio Lima Netto, Ph. D.

Examinador:

Prof. Luiz Wagner Pereira Biscainho, D.Sc.

Examinador:

Vagner Luis Latsch, D.Sc.

DEL

Setembro de 2012

Page 2: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

UNIVERSIDADE FEDERAL DO RIO DE JANEIRO

Escola Politecnica - Departamento de Eletronica e de Computacao

Centro de Tecnologia, bloco H, sala H-217, Cidade Universitaria

Rio de Janeiro - RJ CEP 21949-900

Este exemplar e de propriedade da Universidade Federal do Rio de Janeiro, que

podera incluı-lo em base de dados, armazenar em computador, microfilmar ou adotar

qualquer forma de arquivamento.

E permitida a mencao, reproducao parcial ou integral e a transmissao entre bibli-

otecas deste trabalho, sem modificacao de seu texto, em qualquer meio que esteja

ou venha a ser fixado, para pesquisa academica, comentarios e citacoes, desde que

sem finalidade comercial e que seja feita a referencia bibliografica completa.

Os conceitos expressos neste trabalho sao de responsabilidade do(s) autor(es) e

do(s) orientador(es).

ii

Page 3: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

“-Escute so - disse Ford, ainda fascinado pelo folheto - Diz coisas fantasticas sobre

a cibernetica da nave. Uma nova geracao de robos e computadores da Companhia

Cibernetica de Sirius, contando com o novo recurso PGH.

-O que e PGH? - Disse Arthur?

-Diz que e ‘Personalidade Humana Genuına’.

-Que coisa horrıvel - disse Arthur

-Poe horrıvel nisso - disse uma voz atras deles. (...) - E horrivel - prosseguiu

Marvin - Tudo isso. Medonho. Melhor nem falar nisso. Vejam essa porta - disse,

entrando. Os circuitos de ironia comecaram a atuar sobre seu modulador de voz, e

Marvin pos-se a parodiar o estilo do folhero de vendas.

-Todas as portas dessa nave sao alegres e bem humoradas. E um prazer para elas

abrir para voce, e fechar de novo com a consiencia de quem fez um servico

bem-feito.

Ao fechar-se, a porta realmente parecia dar um suspiro de satisfacao:

‘Hummmmmmmmmmmmmmmmm ah!’”

(Trecho do Livro “O Guia do Mochileiro das Galaxias”de Douglas Adams)

iii

Page 4: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

AGRADECIMENTO

Agradeco inicialmente a minha famılia, pela formacao pessoal e educacional que

me proporcionou ao longo dos anos. Pelo apoio e incentivo em todos os momentos

do meu caminho, antes e durante o curso de graduacao, me motivando e cobrando

quando necessario e sempre estando disponıveis quando precisei de alguma ajuda.

Agradeco tambem aos meus amigos e colegas, que durante todo esse percurso

caminharam ao meu lado proporcionando momentos de diversao e colaborando para

que esse projeto fosse concluıdo. Agradeco a todos que me acompanharem ao longo

desses anos.

Agradeco ainda, ao meu orientador, professor Sergio Lima Netto, que acompanhou

minha jornada nos ultimos anos e me indicou os caminhos a seguir, culminando

nesse trabalho. Agradeco por ter confiado em mim para que chegasse ate aqui, por

expandir meus horizontes para areas que eu nao conhecia e por abrir as portas para

novas oportunidades.

Por fim, agradeco a todos que de alguma maneira se fizeram presentes e colabo-

raram para a conclusao desse ciclo.

iv

Page 5: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

RESUMO

Para que um conversor texto-fala (TTS) produza uma saıda que se aproxime

da fala humana e necessario que lhe seja incorporada uma etapa de manipulacao

prosodica de atitudes, a fim de garantir a sintetizacao adequada das caracterısticas

pragmaticas do seu conteudo.

LATSCH [1] criou o sistema SASPRO (Sistema de Analise e Sıntese da Prosodia),

que implementa um conversor TTS nao comercial, voltado para o uso com o por-

tugues brasileiro. Por nao ser exatamente um sistema TTS completo, uma de suas

limitacoes esta relacionada a estrutura da sentenca que deve ser utilizada de modo

a se obter, como sinal sintetizado, um sinal cujas caracterısticas prosodicas estejam

de acordo com a atitude esperada.

Este trabalho tem como objetivo a ampliacao da funcionalidade de manipulacao

prosodica das atitudes do sistema SASPRO, permitindo que opere com uma maior

variedade de estruturas silabicas. O produto final e um algoritmo que faz o trans-

plante de prosodia da uma atitude para uma sentenca, que pode conter uma es-

trutura silabica menos limitada que a versao anterior do sistema SASPRO. Como

resultado do trabalho, 9 das 14 atitudes modeladas foram avaliadas como aceitaveis,

de forma que o trabalho alcancou o seu objetivo de implementar um metodo de

imposicao de atitudes que independa da estrutura silabica.

Palavras-Chave: conversor texto-fala, manipulacao prosodica, atitudes, trans-

plante parametrico de prosodia.

v

Page 6: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

ABSTRACT

For a text-to-speech (TTS) conversor to produce a signal that is similar to the

human speech it needs to have a prosodic manipulation step in it, since that is the

only way the system can synthesize the context characteristics of the sentences.

In his doctor thesis LATSCH [1] creates the SASPRO system, that implements a

non-comercial TTS conversor, focused in the Brazilian Portuguese idiom. Since it

is not a complete TTS system, there are some limitations like the syllabic structure

of the sentence that you have to use to have the prosodic characteristics modified

according to the attitude of interest.

The focus of this work is the expansion of the prosodic manipulation functionality

of the SASPRO System, making it independent of the syllabic structure of the

sentence. The goal to achieve here is an algorithm that implements the prosody

transplant of an attitude to a sentence with less limitations to the syllabic structure

than the previous stage of the SASPRO system. As a result of this project 9 of

the 14 modeled attitudes were evaluated as acceptable, so the project achieved its

goal of implementing a method of attitude imposition independent of the syllabic

structure.

Key-words: text-to-speech, prosodic manipulation, attitudes, parametric trans-

plant of prosody.

vi

Page 7: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

SIGLAS

UFRJ - Universidade Federal do Rio de Janeiro

DEL - Departamento de Engenharia Eletronica e de Computacao

SASPRO - Sistema de Analise e Sıntese da Prosodia

GPS - Global Positioning System

OCR - Optical Character Recognition

PSOLA - Pitch Synchronous Overlap and Add

SFC - Superposition of Functional Contours

MOS - Mean Opinion Score

vii

Page 8: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Sumario

1 Introducao 1

1.1 Tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.3 Aplicacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.4 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.5 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.6 Descricao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Classificacao e Transplante de Atitudes 6

2.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.2 Caracterizacao das Atitudes . . . . . . . . . . . . . . . . . . . . . . . 7

2.3 Leitura dos Graficos . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.4 Caracterizacao Prosodica das Atitudes . . . . . . . . . . . . . . . . . 11

2.4.1 Atitudes com queda de pitch . . . . . . . . . . . . . . . . . . . 11

2.4.2 Atitudes com subida de pitch . . . . . . . . . . . . . . . . . . 14

2.4.3 Atitudes com variacao de duracao . . . . . . . . . . . . . . . . 16

2.5 Transplante de prosodia por copia . . . . . . . . . . . . . . . . . . . . 19

2.6 Transplante de prosodia por superposicao . . . . . . . . . . . . . . . . 21

2.7 Conclusoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3 Classificacao de Atitudes em Estruturas Silabicas Diferentes 25

3.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.2 Caracterizacao Prosodica das Atitudes em Estrutura Silabica Alter-

nativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.2.1 Sinais com queda de pitch . . . . . . . . . . . . . . . . . . . . 26

viii

Page 9: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

3.2.2 Sinais com subida de pitch . . . . . . . . . . . . . . . . . . . . 29

3.2.3 Sinais com variacao de duracao . . . . . . . . . . . . . . . . . 31

3.3 Analise da Validade do Modelo . . . . . . . . . . . . . . . . . . . . . 33

3.3.1 Atitudes com queda de pitch . . . . . . . . . . . . . . . . . . . 34

3.3.2 Atitudes com subida de pitch . . . . . . . . . . . . . . . . . . 36

3.3.3 Atitudes com variacao de duracao . . . . . . . . . . . . . . . . 37

3.4 Conclusoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

4 Aplicacao do Modelo e Testes 40

4.1 Intoducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4.2 Aplicacao do Modelo Estudado . . . . . . . . . . . . . . . . . . . . . 40

4.2.1 A nova estrutura silabica . . . . . . . . . . . . . . . . . . . . . 41

4.2.2 Imposicao do modelo . . . . . . . . . . . . . . . . . . . . . . . 42

4.3 Testes Aplicados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.4 Resultados e Analises . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.5 Conclusoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

5 Conclusoes 55

5.1 Consideracoes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

5.2 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

Bibliografia 58

ix

Page 10: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Lista de Figuras

2.1 Exemplo de representacao grafica das caracterısticas prosodicas das atitudes. 10

2.2 Caracterısticas prosodicas da sentenca “Renata Jogava.”com atitude Obvia. 12

2.3 Caracterısticas prosodicas da sentenca “Repete denovo.”com atitude Su-

gestao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 Caracterısticas prosodicas da sentenca “Renata Jogava.”com atitude Su-

gestao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.5 Caracterısticas prosodicas da sentenca “E como jogava.”com atitude Su-

gestao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.6 Caracterısticas prosodicas da sentenca “Repete denovo.”com atitude Su-

gestao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.7 Caracterısticas prosodicas da sentenca “E como jogava.”com atitude Su-

gestao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.8 Caracterısticas prosodicas da sentenca “Renata Jogava.”com atitude Su-

gestao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.9 Caracterısticas prosodicas da sentenca “Renata Jogava.”com atitude Su-

gestao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.10 Caracterısticas prosodicas da sentenca “Repete denovo.”com atitude Su-

gestao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.11 Caracterısticas prosodicas da sentenca “Renata Jogava.”com atitude Questao

SN Incredula. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.12 Caracterısticas prosodicas da sentenca “Renata Jogava.”com atitude Su-

gestao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.13 Caracterısticas prosodicas da sentenca “Renata Jogava.”com atitude Su-

gestao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

x

Page 11: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

2.14 Caracterısticas prosodicas da sentenca “Renata Jogava.”com atitude Su-

gestao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.15 Caracterısticas prosodicas da sentenca “Renata Jogava.”com atitude Su-

gestao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.16 Esquematico do transplante por copia. . . . . . . . . . . . . . . . . . . . 21

2.17 Exemplo do transplante por copia. . . . . . . . . . . . . . . . . . . . 22

2.18 Esquematico do transplante por superposicao. . . . . . . . . . . . . . . . 23

3.1 Caracterısticas prosodicas da sentenca “Renata Jogava.”com atitude Obvia. 27

3.2 Caracterısticas prosodicas da sentenca “Cala-te Jogador.”com atitude Su-

gestao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.3 Caracterısticas prosodicas da sentenca “Pıfanos Tocarao.”com atitude Enfase

Contrastiva. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.4 Caracterısticas prosodicas da sentenca “Quando que Passara.”com atitude

Questao QU. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.5 Caracterısticas prosodicas da sentenca “Cala-te Jogador.”com atitude Co-

mando. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.6 Caracterısticas prosodicas da sentenca “Quando que Passara.”com atitude

Exclamacao QU. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.7 Caracterısticas prosodicas da sentenca “Pıfanos Tocarao.”com atitude Questao

SN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.8 Caracterısticas prosodicas da sentenca “Pıfanos Tocarao.”com atitude Questao

SN Retorica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.9 Caracterısticas prosodicas da sentenca “Cala-te Jogador.”com atitude Pe-

dido. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.10 Caracterısticas prosodicas da sentenca “Pıfanos Tocarao.”com atitude Questao

SN Incredula. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.11 Caracterısticas prosodicas da sentenca “Pıfanos Tocarao.”com atitude Aviso. 32

3.12 Caracterısticas prosodicas da sentenca “Pıfanos Tocarao.”com atitude Ironica. 32

3.13 Caracterısticas prosodicas da sentenca “Pıfanos Tocarao.”com atitude Incredula. 33

3.14 Caracterısticas prosodicas da sentenca “Pıfanos Tocarao.”com atitude Enfase

Intensiva. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

xi

Page 12: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

4.1 Caracterısticas prosodicas da sentenca “Renata jogava.”com atitude Ironica. 43

4.2 Janela de Edicao de Duracao do Prosody Editor . . . . . . . . . . . . . . 43

4.3 Janela de Edicao de Intensidade do Prosody Editor . . . . . . . . . . . . 44

4.4 Janela de Edicao de Pitch do Praat - Sentenca de Referencia . . . . . . . 45

4.5 Janela de Edicao de Pitch do Praat - Sentenca Manipulada . . . . . . . . 46

4.6 Tela inicial do programa de avaliacao subjetiva de atitudes . . . . . . . . 48

4.7 Tela de avaliacao do programa de avaliacao subjetiva de atitudes . . . . . 49

4.8 Graficos com as medias dos testes subjetivos aplicados . . . . . . . . . . 50

xii

Page 13: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Lista de Tabelas

4.1 Medias dos testes subjetivos aplicados . . . . . . . . . . . . . . . . . 50

4.2 Respostas dadas para a pergunta 1: “Qual o par de sinais para o qual

encontrou mais dificuldades para atribuir nota?”. . . . . . . . . . . . 52

4.3 Respostas dadas para a pergunta 2:“Houve alguma duvida quanto ao

procedimento de avaliacao?”. . . . . . . . . . . . . . . . . . . . . . . . 53

4.4 Respostas dadas para a pergunta 3: “Houve alguma atitude que nao

foi capaz de identificar?”. . . . . . . . . . . . . . . . . . . . . . . . . . 53

xiii

Page 14: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Capıtulo 1

Introducao

1.1 Tema

Um sistema de conversao Texto-Fala (TTS, do ingles Text-To-Speech) tem a

funcao de converter uma sequencia de caracteres que formam uma sentenca num

dado idioma para um sinal de voz que transmita a mesma mensagem, de forma

clara e de facil entendimento. Um sistema TTS sera considerado tao melhor quao

mais proximo ele se tornar de uma fala humana natural. Dentre as muitas melhorias

que um sistema desse tipo pode ter para que se pareca cada vez mais com a fala

humana destaca-se a modelagem de prosodia (LATSCH [1]).

A modelagem de prosodia num sistema TTS tem por objetivo capacitar o sistema

para imitar as diferentes atitudes (como por exemplo obviedade, ironia, interrogacao)

e emocoes que sao expressas por um ser humano em seu discurso, mas que muitas

vezes podem passar despercebidas na modalidade escrita da lıngua. Dessa forma

esse projeto tem como campo de estudo essa area especıfica do processamento e

sıntese de sinais de voz.

1.2 Justificativa

Os sistemas de conversao texto-fala sao, atualmente, amplamente utilizados no

cotidiano, muitas vezes passando despercebidos pelas pessoas que os utilizam. Al-

guns sistemas que frequentemente utilizam esse tipo de conversao sao, por exemplo,

1

Page 15: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

navegadores GPS (Global Positioning System), sistemas de traducao e ensino de

idiomas e ferramentas de apoio a deficientes visuais (que muitas vezes utilizam o

TTS associado a um sistema OCR - optical character recognition), entre outros.

Por ser a voz o sistema de comunicacao natural da maioria da populacao, sua

importancia como interface principal de acesso a dispositivos (como computadores,

celulares e ate mesmo eletrodomesticos) tende somente a crescer nos proximos anos.

Entretanto, para que o uso desses sistemas cresca de maneira significativa e se de de

forma mais natural, alguns aspectos de sua tecnologia ainda devem ser melhorados.

Um dos pontos que devem ser trabalhados e a modelagem prosodica das atitudes de

uma sentenca, ja que sem essa modelagem os sistemas se tornam artificiais, criando

sinais de voz sinteticos que sao incapazes de se passar por seus equivalentes naturais.

Considerando que uma lıngua e composta por diversos nıveis, sendo eles fo-

nologico, morfologico, sintatico, semantico e pragmatico, um sistema TTS que nao

possua um etapa de manipulacao prosodica podera nao ser capaz de sintetizar ade-

quadamente os ultimos nıveis, perdendo, dessa forma, boa parte da informacao

que a sentenca deveria transmitir, conforme dito por DUTOIT e STYLIANOU[2] e

SIMOES [3]. De maneira a permitir que o sistema seja capaz de apresentar as ca-

racterısticas dos nıveis sintatico e semantico, sem que haja perdas consideraveis de

compreensao, sera necessario ainda que o sistema inclua uma manipulacao prosodica

que enfatize as palavras principais da sentenca.

De uma maneira ainda mais profunda, para que o sistema seja capaz de representar

completamente as caracterısticas de um orador humano, e contemplar todos os nıveis

linguısticos de uma sentenca, este deve ser capaz de trabalhar com as caracterısticas

prosodicas que definem uma atitude, situando a sentenca sintetizada no contexto

em que se encontra. Isto facilita o entendimento por parte do ouvinte e cumpre o

requisito de trabalhar adequadamente o nıvel pragmatico da lıngua.

Para se construir um sistema TTS e necessario que todo o seu trabalho seja

focado diretamente no idioma para o qual ele sera implementado. Especificamente,

a modelagem das atitudes a serem implementadas no sistema deve ser feita segundo

2

Page 16: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

as caracterısticas desse idioma.

1.3 Aplicacoes

Uma vez concluıdo o algoritmo de manipulacao prosodica de atitudes, o mesmo

seria incorporado a um sistema de conversao texto-fala. Nesse sistema o algoritmo

seria responsavel por imbuir o sinal, ja sintetizado pelo TTS, de uma atitude previ-

amente especificada, ja que o sistema nao seria capaz de interpretar pelo contexto

a atitude que o usuario deseja passar com aquela sentenca. O trecho da sentenca

que devera receber essa atitude tambem deve ser informado ao sistema para que, a

partir dessa informacoes, o mesmo seja capaz de aplicar o algoritmo.

Algo que deve ser levado em conta na implementacao de um sistema com a mani-

pulacao prosodica de atitudes e a presenca de regionalismos e sotaques nas atitudes.

Uma vez que as caracterısticas prosodicas das atitudes dependem desses regiona-

lismos, e importante notar que a manipulacao das atitudes sera feita de acordo

com as caracterısticas presentes no modelo de cada atitude, que e treinado com as

caracterısticas de uma certa regiao.

Ainda deve ser observado que, uma vez que os fonemas que compoem as sen-

tencas geradas pelo TTS sao gravadas por um mesmo locutor, para que o som seja

sintetizado de maneira mais natural, o mesmo deve ser feito com as sentencas cujas

atitudes serao utilizadas como referencia.

1.4 Objetivos

O objetivo desse trabalho e o desenvolvimento de um algoritmo de manipulacao

prosodica de atitudes que permita o transplante de atitudes entre sentencas com

diferentes estruturas silabicas. Com isto sera possıvel para o sistema SASPRO

em LATSCH [1] manipular um numero maior de sentencas, evitando um banco de

sentencas com cada atitude, o que seria inviavel do ponto de vista pratico

3

Page 17: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Ao longo desse trabalho sera utilizado o sistema SASPRO, cuja manipulacao

prosodica de atitudes foi desenvolvida seguindo o modelo de MORAES [4], voltado

diretamente para o portugues brasileiro. O sistema SASPRO, embora nao seja um

sistema comercial de TTS, por nao ser capaz de sintetizar todas as palavras presentes

no nosso idioma e possuir um banco de fonemas limitado, e capaz de sintetizar sinais

de voz a partir de texto e utilizar algoritmos de manipulacao prosodica para realizar

a transformacao entre diferentes atitudes. Entretanto, sua manipulacao esta restrita

a uma dada estrutura da sentenca; o objetivo desse trabalho e ampliar o escopo desse

sistema, permitindo seu uso numa gama maior de sentencas.

1.5 Metodologia

Para a execucao desse trabalho serao cumpridas as seguintes etapas:

• Definicao e caracterizacao das atitudes aqui consideradas;

• Estudo dos metodos utilizados atualmente no sistema para a manipulacao das

atitudes;

• Estudo das caracterısticas prosodicas relacionadas a cada uma das atitudes

que serao trabalhadas nesse projeto;

• Validacao das estruturas que caracterizam as atitudes para estruturas silabicas

diferentes daquelas para as quais foram projetadas;

• Desenvolvimento do algoritmo de transplante de prosodia que independa da

estrutura silabica da sentenca;

• Desenvolvimento e aplicacao de um teste subjetivo para a validacao do metodo

desenvolvido.

1.6 Descricao

Esse trabalho seguira a estrutura de capıtulos descrita a seguir:

4

Page 18: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

No Capıtulo 2 serao abordadas uma revisao bibliografica das tecnicas utilizadas

bem como uma analise das limitacoes encontradas no sistema SASPRO, de modo

a melhor compreender as modificacoes que devem ser executadas no algoritmo de

manipulacao para que os resultados sejam alcancados adequadamente. Tambem

nesse capıtulo serao explicadas as caracterısticas que formam cada uma das atitudes

contempladas aqui e os seus usos.

O Capıtulo 3 e composto por uma verificacao da validade dos modelos propostos

no Capıtulo 2 para caracterizar as atitudes aplicados a uma outra estrutura silabica,

que ainda nao havia sido testada. Isto permite que o modelo seja estendido para

outras estruturas no capıtulo seguinte.

A aplicacao dos modelos de prosodia sobre sentencas de atitude neutra sera abor-

dada no Capıtulo 4. Nele serao mostradas as etapas de seu desenvolvimento bem

como seu funcionamento. Alem disso, sera apresentado o teste subjetivo usado para

validar o funcionamento do algoritmo.

5

Page 19: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Capıtulo 2

Classificacao e Transplante de

Atitudes

2.1 Introducao

De maneira a melhor compreender o problema da modelagem prosodica de ati-

tudes e do transplante de atitudes entre sentencas distintas, serao apresentadas,

nesse capıtulo, tecnicas de transplante, alem de uma analise e classificacao das ditas

atitudes, conforme foram utilizadas em LATSCH [1].

Na Secao 2.2 serao apresentadas as atitudes utilizadas ao longo deste trabalho

bem como suas descricoes intuitivas e alguns casos de uso.

Dando prosseguimento ao capıtulo, sera vista na Secao 2.4 a descricao das dife-

rentes atitudes conforme suas caracterısticas prosodicas e seus usos por um orador,

de forma que se possa entender melhor suas diferencas.

Na Secao 2.5 sera apresentada a tecnica de transplante de atitudes por copia,

na qual uma sentenca com atitude neutra tem seus parametros modificados para

que sejam igualados aos de outra sentenca de mesma estrutura silabica, mas com a

atitude desejada.

Na Secao 2.6 uma outra tecnica de transplante, chamada transplante por su-

perposicao, sera mostrada. Essa tecnica difere da anterior por manter certas ca-

6

Page 20: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

racterısticas da sentenca original modificando so parcialmente os valores de suas

variaveis prosodicas.

2.2 Caracterizacao das Atitudes

Em seu artigo, MORAES [4] discorre sobre as caracterısticas foneticas e fo-

nologicas de cada uma das 14 atitudes propostas abaixo. Posteriormente, LATSCH

[1] utiliza as mesmas atitudes em sua tese e explica de maneira intuitiva as mo-

tivacoes e caracterısticas de cada uma delas, e, seguindo a proposta de classificacao

de MORAES [4], as separa em tres grupos: atitudes com caracterısticas de subida de

pitch, atitudes com caracterısticas de descida de pitch e ainda atitudes que apresen-

tam alteracoes marcantes na duracao. Esses mesmos grupos serao mantidos neste

trabalho para facilitar a classificacao das atitudes.

Abaixo estao descritas as 14 diferentes atitudes trabalhadas por MORAES [4],

alem de uma descricao intuitiva adaptada de LATSCH [1] seguida de exemplos de

aplicacoes em sentencas completas, com o objetivo de melhor ilustrar o uso dessas

atitudes. Deve-se atentar para o fato de que as sentencas nao se encontram em sua

totalidade na norma culta do portugues brasileiro, uma vez que as sentencas em

destaque dentro de cada contexto foram utilizadas na forma em que se apresentam

e o contexto gerado em um momento posterior.

• Atitude Obvia (self-evident): E utilizada em sentencas cujo orador considera

qua a informacao e de conhecimento comum, como em: “E claro que Renata

jogava.”;

• Sugestao (suggestion): E uma afirmativa na qual o orador indica uma acao a

ser tomada de maneira nao imperativa, como no caso: “Quer a minha opiniao?

Repete de novo.”;

• Enfase Contrastiva (contrastive emphasis): E utilizada quando o orador deseja

apresentar duas opcoes em uma sentenca enquanto destaca uma das opcoes,

como no caso a seguir: “Renata olhava ou Renata jogava?”;

7

Page 21: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

• Questao QU (wh-question): Essa atitude se refere a sentencas interrogativas

normalmente comecadas por palavras iniciadas pelas letras QU, como por

exemplo ‘Quem’, ‘Que’, ‘Qual’ e ‘Quando’. O termo QU foi adaptado de

wh-question pois na lıngua inglesa essa atitude normalmente esta associada

a palavras como ‘Why’, ‘Who’, ‘Where’, ‘When’. Embora a atitude tenha

sido nomeada fazendo referencia as letras QU ha ainda outas palavras que

podem iniciar as sentencas dessa maneira como ‘Porque’, ‘Onde’ e ‘Como’.

Um exemplo de questao QU seria: “Onde Renata jogava?”;

• Comando (command): E utilizada quando o orador deseja dar uma ordem a

alguem utilizando uma entonacao imperativa. Um exemplo de sentenca com

atitude Comando seria: “Volte la agora e Repete de novo!”;

• Exclamacao QU (wh-exclamation): Atitude que visa fazer uma afirmacao de

maneira impactante ou exagerada, mas que inicia por uma palavra QU, um

exemplo seria: “Que grande bobagem!”;

• Questao SN (yes-no question): Essa atitude e utilizada quando o orador ja

sabe a resposta da questao que vai fazer e propoe a pergunta demostrando

isso. Essa questao nao necessariamente requer uma resposta. Um exemplo

se segue: “Preste atencao ao que vai responder a minha proxima pergunta.

Renata jogava?”;

• Questao SN Retorica (rhetoric yes-no question): E a atitude utilizada quando

o orador deseja provocar uma discussao fazendo uma pergunta, possivelmente

sem resposta, sobre a qual ja possui opiniao formada. Um exemplo do uso

dessa atitude seria: “Nesse contexto, podemos realmente dizer que Renata

jogava?”;

• Pedido (request): Essa atitude e utilizada quando o orador deseja fazer uma

solicitacao nao imperativa a alguem, como ilustrado a seguir: “O senhor po-

deria me informar se Renata jogava?”;

• Questao SN Incredula (incredulous yn question): Essa atitude se apresenta

quando o orador deseja realizar uma pergunta destacando uma certa carac-

terıstica, mas deixa claro o fato de que conhece a resposta previamente e esta

8

Page 22: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

e o oposto daquilo que destacou na pergunta. Um exemplo de aplicacao dessa

atitude e: “Tem certeza de que e nisso que voce quer que eu acredite, que

Renata jogava?”;

• Aviso (warning): E uma atitude utilizada quando se deseja transmitir a ne-

cessidade de alerta, de atencao ou prevencao de algo. Uma possıvel aplicacao:

“Antes de ir para la fique sabendo que era la que Renata jogava”;

• Ironica (ironic): Utiliza-se essa atitude quando se deseja afirmar algo demos-

trando que sua opiniao e contraria aquilo que esta sendo dito, ou que aquela

afirmacao e uma inverdade. Um caso de uso pode ser visto em: “Renata

jogava, claro e nesse mesmo dia choviam porcos...”;

• Incredula (incredulous assertion): Pode-se ouvir essa atitude quando o orador

deseja apresentar uma afirmacao demostrando que nao acredita no conteudo

daquilo que fala, como em: “Tem certeza de que Renata jogava?, pois nao

foi isso que me disseram”;

• Enfase Intensiva (intensive emphasis): Essa atitude e utilizada quando o ora-

dor deseja mostrar que algo acontece de maneira mais intensa (forte) do que

de costume ou que algo ocorre de maneira acima da media, como ocorre em:

“Renata jogava e jogava e jogava sem nunca parar”;

2.3 Leitura dos Graficos

A partir da proxima secao e ao longo de todo esse trabalho serao apresentados

graficos contendo a representacao das caracterısticas prosodicas de intensidade, pitch

e duracao das sentencas estudadas. Esses graficos nao possuem eixos ou unidades

em sua apresentacao neste trabalho, uma vez que sao mostrados aqui nao para se

ter valores absolutos das caracterısticas neles representados, mas tao somente uma

comparacao entre as amplitudes ao longo das sentencas.

Conforme pode ser observado na Figura 2.1, que contem graficos para exem-

plificacao, o grafico mais a esquerda apresenta no topo a transcricao fonetica da

9

Page 23: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Figura 2.1: Exemplo de representacao grafica das caracterısticas prosodicas das atitudes.

sentenca representada, na parte inferior sao apresentadas duas barras por sılaba

da sentenca, essas barras representam a variacao da intensidade sonora referente a

um valor padrao, para trechos que possuem intensidade superior ao valor padrao

as barras estarao para cima da linha horizontal, sendo tao maiores quanto mais

distantes desse valor sua intensidade for. Para trechos cuja duracao e inferior a ao

valor padrao as barras aparecerao para baixo da linha horizontal, sendo tao maiores

quanto maior for a sua diferenca de intensidade em relacao a esse valor de referencia

da sentenca.

Na mesma figura o grafico central representa o pitch da sentenca, no topo da

figura aparece novamente a transcricao fonetica da sentenca. Na parte inferior sao

apresentados 4 pontos por sılaba, esses pontos representam os valores medios de

pitch de cada trecho da sılaba, em relacao a um valor padrao pre-estabelecido. Caso

o ponto esteja numa posicao superior a linha horizontal (referente ao valor padrao),

isso significa um valor de pitch superior ao valor padrao, sendo tao mais alto quanto

mais distante desse valor for o pitch medio do trecho. Para valores inferiores ao

valor de referencia os pontos estarao abaixo da linha, ficando tao mais para baixo

quanto menores forem os valores de picth medio nesse trecho.

No grafico mais a direita estao representadas as duracoes de cada sılaba da sen-

tenca. E apresentada no topo da figura a transcricao fonetica da sentenca, na parte

inferior do grafico e apresentada uma barra de duracao para cada sılaba. Caso a

barra esteja apontando para cima, isso significa uma duracao da sılaba maior que

um valor de referencia, sendo as barras tao maiores quanto maior for a duracao da

10

Page 24: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

sılaba. Caso a barra aponte para baixo isso significa uma duracao menor que o valor

de referencia, sendo tao menores quanto maiores forem as barras apontando para

baixo.

2.4 Caracterizacao Prosodica das Atitudes

A seguir sera feita a analise das 14 diferentes estruturas quanto as suas carac-

terısticas de pitch, duracao e intensidade utilizando como base as analises feitas por

MORAES [4] e apresentadas novamente em LATSCH [1].

2.4.1 Atitudes com queda de pitch

Nesse grupo estao inclusas seis das catorze atitudes classificadas por MORAES

[4]. Entretanto haveria ainda uma setima atitude nesse grupo, que foi aqui excluıda

pois LATSCH [1] a considerou de difıcil reproducao, ja que essa atitude teve uma

baixa taxa de reconhecimento no trabalho original.

2.4.1.1 Obvia

Essa atitude se diferencia da atitude de prosodia neutra por sua curva de pitch

ascendente ate a ultima sılaba tonica. Alem disso, o alto valor do pitch na sua

ultima sılaba tonica e o responsavel pela sua identificacao entre outras atitudes

semelhantes. Outra caracterıstica que se observa e a elevacao da intensidade sonora

acima da media nas sılabas tonicas e postonicas finais, confirmando o fato de que

essa e a regiao chave para a identificacao da atitude, como pode ser visto na Figura

2.2 abaixo.

2.4.1.2 Sugestao

A atitude de sugestao possui caracterısticas muito proximas as da atitude obvia.

Entretanto, para que a sentenca tenha a caracterıstica de sugestao, seu conteudo

deve ser de um teor imperativo. Portanto, nao ha uma diferenciacao clara entre

essas duas atitudes no tocante as suas caracterısticas prosodicas, conforme pode ser

visto na Figura 2.3;

11

Page 25: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Figura 2.2: Da esquerda para a direita: Graficos de Intensidade, Pitch e duracao da

sentenca “Renata Jogava.” com atitude Obvia.

Figura 2.3: Da esquerda para a direita: Graficos de Intensidade, Pitch e duracao da

sentenca “Repete de novo.” com atitude Sugestao.

2.4.1.3 Enfase Contrastiva

As caracterısticas notorias dessa atitude, que podem ser observadas na Figura 2.4,

frente a atitude neutra sao o alto valor do pitch da sılaba pretonica final seguido

de um formato convexo e de baixo valor na curva de pitch da sılaba tonica final.

Segundo MORAES [4], apesar de essas caracterısticas definirem completamente o

pitch, elas nao sao suficientes para que a atitude tenha uma boa taxa de identificacao,

de fato somente quando sao modificadas tambem a duracao e a intensidade da

sentenca e que o reconhecimento chega a 80%.

2.4.1.4 Questao QU

Para analisar esta atitude foi necessario utilizar uma sentenca diferente daquela

utilizada anteriormente (“Renata jogava”). Substituindo a sentenca por uma com

uma palavra QU que mantivesse a estrutura silabica, como por exemplo “e como jo-

12

Page 26: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Figura 2.4: Da esquerda para a direita: Graficos de Intensidade, Pitch e duracao da

sentenca “Renata Jogava.” com atitude Enfase Contrastiva.

gava”(Figura 2.5), observou-se um alto valor de pitch na palavra QU e uma posterior

descida do pitch ate a ultima sılaba tonica.

Figura 2.5: Da esquerda para a direita: Graficos de Intensidade, Pitch e duracao da

sentenca “E como jogava.” com atitude Questao QU.

2.4.1.5 Comando

As curvas de pitch, intensidade e duracao dessa atitude, que se encontram na

Figura 2.6, possuem caracterısticas bastante similares as da atitude Questao QU,

de forma que mais uma vez o que diferencia a interpretacao dessa atitude frente a

outra ja citada e o conteudo da sentenca.

13

Page 27: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Figura 2.6: Da esquerda para a direita: Graficos de Intensidade, Pitch e duracao da

sentenca “Repete de novo.” com atitude Comando.

2.4.1.6 Exclamacao QU

Essa atitude tambem possui caracterısticas prosodicas semelhantes aquelas encon-

tradas na atitude Questao QU. Entretanto, diferentemente da atitude de comando,

ha uma diferenciacao na sılaba pretonica final, onde ha um valor de pitch mais baixo

do que na Questao QU, que torna essa atitude facilmente perceptıvel, o que pode

ser observado na Figura 2.7.

Figura 2.7: Da esquerda para a direita: Graficos de Intensidade, Pitch e duracao da

sentenca “E como jogava.” com atitude Exclamacao QU.

2.4.2 Atitudes com subida de pitch

2.4.2.1 Questao SN

A curva de pitch dessa atitude (Figura 2.8) se caracteriza por uma subida na

sılaba tonica inicial seguida de uma queda ao chegar na sılaba postonica inicial, em

seguida, ha uma subida na sılaba tonica final com uma posterior queda na sılaba

14

Page 28: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

postonica final. Quanto aos valores de intensidade e duracao, nao ha diferencas

notaveis quando a comparamos a atitude neutra.

Figura 2.8: Da esquerda para a direita: Graficos de Intensidade, Pitch e duracao da

sentenca “Renata Jogava.” com atitude Questao SN.

2.4.2.2 Questao SN Retorica

Nessa atitude pode-se observar (Figura 2.9) uma curva de pitch muito semelhante

aquela que existe na atitude Questao SN. Entretanto a Questao SN Retorica possui

na sılaba tonica final uma queda, ao passo que na Questao SN essa queda se da

na sılaba postonica. Outra diferenca notavel e o menor valor de pitch da sılaba

pretonica final nessa atitude.

Figura 2.9: Da esquerda para a direita: Graficos de Intensidade, Pitch e duracao da

sentenca “Renata Jogava.” com atitude Questao SN Retorica.

15

Page 29: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

2.4.2.3 Pedido

Essa atitude possui caracterıstica prosodicas (mostradas na Figura 2.10) muito se-

melhantes as da atitude Questao SN Retorica, nao possuindo nenhuma caracterıstica

marcante que faca a desambiguacao entre essas duas atitudes. Para se identificar

qual das atitudes esta sendo usada, deve-se atentar ao conteudo, que e na maior

parte dos casos bastante diferente.

Figura 2.10: Da esquerda para a direita: Graficos de Intensidade, Pitch e duracao da

sentenca “Repete denovo.” com atitude Pedido.

2.4.2.4 Questao SN Incredula

As caracterısticas prosodicas dessa atitude se mostram na forma de uma curva de

pitch com um vale formado pela descida do pitch na sılaba pretonica seguida de uma

subida na sılaba tonica final. Afora essas caracterısticas citadas, nao ha nenhuma

outra caracterıstica de intensidade ou duracao que seja notavel, o que se observa na

Figura 2.11.

2.4.3 Atitudes com variacao de duracao

2.4.3.1 Aviso

A atitude de aviso tem sua caracterizacao no alongamento da vogal da sılaba

tonica final realizado em conjunto com um aumento na intensidade sonora dessa

vogal. Alem disso, ha um valor bastante alto do pitch na sılaba pretonica final. As

curvas que caracterizam essa atitude podem ser vistar na Figura 2.12.

16

Page 30: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Figura 2.11: Da esquerda para a direita: Graficos de Intensidade, Pitch e duracao da

sentenca “Renata Jogava.” com atitude Questao SN Incredula.

Figura 2.12: Da esquerda para a direita: Graficos de Intensidade, Pitch e duracao da

sentenca “Renata Jogava.” com atitude Aviso.

2.4.3.2 Ironica

Essa atitude se caracteriza por uma curva de pitch e duracao muito parecida com

a da atitude Aviso (Figura 2.13), com aumento da duracao da sılaba tonica final

e alto valor de pitch na sılaba pretonica. Entretanto, como diferenciacao entre as

duas atitudes, pode-se notar que na atitude ironica ha a manutencao de um valor

constante ate o meio da vogal da tonica final, com um valor bastante inferior ao

da sılaba anterior, seguido de um crescimento do pitch, o que torna sua assinatura

bastante caracterıstica.

2.4.3.3 Incredula

As curvas de pitch (Figura 2.14) dessa atitude sao pouco variadas, apresentando

quase nenhuma subida ou declınio ao longo da sentenca. Dessa forma, essa carac-

terıstica de pitch flat se torna um fator de forte identificacao dessa atitude. No

17

Page 31: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Figura 2.13: Da esquerda para a direita: Graficos de Intensidade, Pitch e duracao da

sentenca “Renata Jogava.” com atitude Ironica.

escopo da duracao pode-se notar um aumento em todas as consoantes, notadamente

na consoante da sılaba tonica final.

LATSCH [1] aponta o fato de que ha poucas diferencas entre os parametros

prosodicos dessa atitude e da atitude Neutra, de forma que a ressıntese das sentencas

no metodo de transplante por superposicao acaba por descaracterizar a atitude.

Nesse caso, melhores resultados sao obtidos com o uso da tecnica de transplante por

copia.

Figura 2.14: Da esquerda para a direita: Graficos de Intensidade, Pitch e duracao da

sentenca “Renata Jogava.” com atitude Incredula.

2.4.3.4 Enfase Intensiva

Os fatores determinantes para se identificar sentencas com essa atitude sao o alto

nıvel do pitch no fim da sılaba tonica, com a manutencao desse nıvel ate o fim da

18

Page 32: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

sılaba postonica e um aumento da duracao das vogais nessas sılabas, como visto

abaixo na Figura 2.15.

LATSCH [1] tambem observa que esse tipo de atitude caracteriza uma sentenca

nao terminada, o que explica o fato de haver valores altos de pitch no final da

sentenca.

Figura 2.15: Da esquerda para a direita: Graficos de Intensidade, Pitch e duracao da

sentenca “Renata Jogava.” com atitude Enfase Intensiva.

Uma caracterıstica de todas as atitudes ressaltada por LATSCH e o fato de que em

poucas delas a intensidade tem um papel muito relevante na identificacao da atitude.

Uma possıvel causa disso e o fato de que a intensidade pode variar muito entre

oradores e entre diferentes gravacoes. Alem disso, na maioria dos casos, podemos

notar que o aumento da intensidade esta associado ao aumento da duracao das

sılabas e vogais.

2.5 Transplante de prosodia por copia

Considerando a normalizacao das variaveis prosodicas dentro de uma sılaba,

LATSCH [1] apresenta uma forma de se fazer o transplante de prosodia entre duas

sentencas cujas sılabas possuam conteudos distintos. Esta tecnica e chamada de

“transplante de prosodia por copia”. Embora o conteudo das sılabas possa ser

diferente, essa tecnica requer uma estrutura silabica identica nas duas sentencas,

ja que os parametros atribuıdos a cada sılaba sao fortemente dependentes de sua

posicao na sentenca.

19

Page 33: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Neste contexto, a expressao “estrutura silabica” refere-se ao numero de sılabas

numa sentenca bem como a posicao das sılabas tonicas na mesma. De maneira

ilustrativa, a sentenca “Renata Jogava”, que sera doravante muito utilizada nesse

trabalho, possui a mesma estrutura silabica da sentenca “Brinquedo Quebrava”,

pois ambas apresentam seis sılabas e ambas as palavras de cada uma das sentencas

sao paroxıtonas.

A tecnica do transplante de prosodia por copia e uma das mais simples dentre as

tecnicas de transplante encontradas na literatura (como em LATSCH [1]): ela se da

a partir da copia dos parametros prosodicos de cada uma das sılabas da sentenca de

teste para a sua sılaba equivalente na sentenca de referencia, de modo que as curvas

de pitch, intensidade sonora e duracao de cada uma das sılabas se tornem iguais nas

duas sentencas.

Conforme ilustrado na Figura 2.16, o processo do transplante por copia se da

da seguinte maneira: Inicialmente e feita a analise de ambas as sentencas, com a

extracao das caracterısticas de cada uma, como as etiquetas e as marcas de pitch.

A seguir, esses parametros sao passados para um metodo de analise silabica que

relaciona os dados obtidos na etapa anterior com as marcacoes das sılabas em cada

palavra. Na etapa seguinte, os parametros da sentenca de teste sao copiados para

a sentenca de referencia. Por fim, ha a sıntese das sılabas com os novos parametros

copiados da sentenca de teste, atraves de algorıtimo do tipo PSOLA (Pitch Synch-

ronous Overlap and Add).

Um exemplo pratico do transplante por copia e mostrado abaixo na Figura 2.17

onde se podem ver as curvas de pitch da sentenca de teste “Renata Jogava” dita

com a atitude de Aviso (warning, explicada na Secao 2.4.3.1) e da sentenca “Cristina

Lembrava”, que neste caso atua como a sentenca de referencia.

Pode-se notar facilmente que nao ha correspondencia temporal direta entre os

trechos de cada uma das sentencas usadas. Ha, porem, a manutencao da estrutura

silabica, de forma que, ao final do procedimento de transplante, as curvas de pitch

20

Page 34: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Figura 2.16: Esquematico do transplante por copia.

da sentenca de teste e da sentenca modificada sao aproximadamente iguais, a menos

de modificacoes oriundas da duracao e conteudo da sentenca de referencia.

2.6 Transplante de prosodia por superposicao

Alternativamente a tecnica de transplante por copia, LATSCH [1] propoe tambem

uma tecnica de transplante que nao mais copia indistintamente os parametros prosodicos

de cada sılaba da sentenca de teste para a sentenca de referencia. De fato, esta outra

tecnica assume haver curvas de pitch e duracao basicas para uma dada sentenca,

como pode ser observado no modelo SFC [5], e que a atitude e um padrao que deve

ser adicionado as curvas basicas para se obter a sentenca dita com a entonacao dese-

jada. Dessa forma, ha a manutencao das caracterısticas proprias de cada sentenca,

bem como das caracterısticas vindas da atitude desejada.

Para que seja utilizada essa tecnica deve-se notar que ambas as sentencas tra-

balhadas devem possuir a mesma estrutura silabica. Isso porque tal procedimento

pressupoe uma relacao direta entre a posicao da sılaba na frase e suas caracterısticas

21

Page 35: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

(a) Sentenca de Referencia: “Cristina lembrava” com atitude Neutra.

(b) Sentenca de teste: “Renata jogava” com atitude Aviso.

(c) Resultado do translpante.

Figura 2.17: Exemplo do transplante por copia.

de pitch e duracao, sendo entao essas caracterısticas transportadas da sentenca de

teste para a de referencia.

Com o intuito de se efetuar o transplante por superposicao, deve-se obter inici-

almente as gravacoes de tres sentencas: a sentenca de referencia, a qual desejamos

modificar, a sentenca de teste, dita em prosodia neutra, e a sentenca de teste com

a prosodia desejada, por exemplo dita de maneira obvia. Em seguida, obtem-se os

parametros prosodicos de cada sılaba de cada sentenca, conforme o metodo utilizado

no transplante por copia. Uma vez obtidos os parametros, subtraem-se os valores

22

Page 36: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

dos parametros prosodicos da sentenca de teste dita em prosodia neutra da sua

equivalente na prosodia que se deseja simular, para obter a modificacao desejada. A

seguir somam-se, sılaba a sılaba, os valores dos parametros da sentenca de referencia

com aqueles obtidos pela subtracao feita anteriormente. Esses parametros sao entao

passados a um outro modulo, onde e feita a sıntese das sılabas e posterior utilizacao

do PSOLA para fazer as modificacoes necessarias no sinal. Dessa forma, podemos

dizer que nao houve uma copia dos parametros prosodicos nas sentencas, mas uma

transformacao da sentenca de referencia. Como pode ser observado na Figura 2.18.

Figura 2.18: Esquematico do transplante por superposicao.

2.7 Conclusoes

Ao longo do capıtulo foram apresentados dois diferentes metodos de transplante

de prosodia, alem de uma analise das propriedades que caracterizam cada atitude

individualmente.

No primeiro metodo, chamado de transplante por copia, os valores das variaveis

de prosodia de uma sentenca foram forcosamente copiados para a outra sentenca,

fazendo assim com que a segunda apresentasse exatamente as mesmas duracoes,

intensidades e pitch da primeira. Esse metodo se mostrou eficaz para a maior parte

23

Page 37: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

das atitudes estudadas.

A seguir, foi apresentado um outro metodo chamado transplante por superposicao,

que extrai as variaveis prosodicas de uma dada atitude obtendo as diferencas entre

uma mesma sentenca dita com a atitude e de maneira neutra. Posteriormente,

este outro metodo adiciona essas variaveis extraıdas as variaveis que caracterizam

a atitude neutra de outra sentenca. Essa tecnica se mostrou eficaz na maior parte

dos casos. Entretanto houve casos, como por exemplo, a atitude incredula, em que

o transplante por copia apresentava resultados melhores, por captar certas nuances

que a superposicao executava com imperfeicao.

Embora os dois metodos apresentados funcionem bastante bem para sentencas

com a mesma estrutura silabica, por suas concepcoes eles nao sao capazes de traba-

lhar com sentencas de diferentes estruturas, de modo que isso limita bastante o seu

uso. Um dos problemas dessa limitacao e o fato de se precisar manter um banco de

sentencas muito maior para poder contemplar a maior parte das sentencas com que

se deseja trabalhar.

Quanto as analises das caracterısticas foneticas das atitudes que foram feitas no

capıtulo, pode-se notar que so foi utilizada uma estrutura silabica. Assim, e possıvel

que haja algumas dessas caracterısticas observadas que dependem somente da ati-

tude, independente da estrutura a ser analisada.

No capıtulo seguinte serao feitas novas analises das caracterısticas de sentencas

com estruturas diferentes daquelas apresentadas aqui, de forma a se obter mais

informacoes acerca daquilo que realmente caracteriza uma atitude. Alem disso, sera

feita uma discussao sobre um algoritmo capaz de transplantar uma atitude entre

sentencas com estruturas silabicas distintas.

24

Page 38: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Capıtulo 3

Classificacao de Atitudes em

Estruturas Silabicas Diferentes

3.1 Introducao

No capıtulo anterior foram vistas tecnicas de transplante de prosodia em sentencas

com uma dada estrutura silabica. Essas tecnicas, entretanto, devem ser ligeiramente

adaptadas para uso em sentencas com outras estruturas silabicas.

Tambem no capıtulo anterior foram analisados diversos sinais, com diferentes

atitudes prosodicas e uma mesma estrutura silabica, e a partir disso um modelo

para cada atitude foi gerado. Nesse capıtulo o foco sera a analise das atitudes em

sentencas com diferentes estruturas silabicas daquela estudada no Capıtulo 3.

Nesse sentido, na Secao 3.2 sao analisados sinais com 14 diferentes contextos

prosodicos e estruturas silabicas distintas daquela utilizada no capıtulo anterior.

Para esses sinais, sao observadas as caracterısticas de pitch, duracao e intensidade

sonora, de forma a observar como se comportam no tempo.

Na Secao 3.3 as caracterısticas observadas na Secao 3.2 sao confrontadas com o

modelo obtido no Capıtulo 2, para que esse modelo seja generalizado tornando-se

valido para outras estruturas silabicas.

25

Page 39: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

3.2 Caracterizacao Prosodica das Atitudes em Es-

trutura Silabica Alternativa

Nessa secao analisamos sentencas com as mesmas 14 atitudes discutidas na capıtulo

anterior, porem com uma estrutura silabica (em termos do posicionamento das

sılabas tonicas) diferente. No caso, foi usada a sentenca “Pıfanos tocarao”, formada

por uma palavra proparoxıtona seguida de uma oxıtona, ambas com 3 sılabas.

Para as atitudes to tipo QU usamos a sentenca “Quando que passara” e para o

teor imperativo usamos “Cala-te jogador”. Vale ressaltar nesse ponto que nem todas

as sentencas estao de acordo com a norma culta do portugues brasileiro, mas serao

aqui utilizadas por sua estrutura silabica mais do que pelo seu sentido semantico.

De forma a facilitar o entendimento e comparacao com os casos estudados an-

teriormente, as atitudes prosodicas serao novamente divididas em 3 grupos (vistos

separadamente nas subsecoes a seguir): atitudes com queda de pitch, atitudes com

subida de pitch e atitudes com variacao de duracao.

3.2.1 Sinais com queda de pitch

3.2.1.1 Obvia

Na caracterizacao dessa atitude, ilustrada na Figura 3.1, podemos observar que o

valor do pitch e crescente do inıcio da sentenca ate a sılaba tonica final. Alem disso,

pode ser observado um valor mais alto da intensidade sonora nas sılabas tonicas,

principalmente na sılaba tonica final, o que demonstra uma importancia maior dessa

sılaba para o reconhecimento dessa atitude.

3.2.1.2 Sugestao

A curva de pitch dessa atitude (Figura 3.2) tem suas caracterısticas mais marcan-

tes no crescimento do valor do pitch ate a sılaba pretonica final. A partir da sılaba

tonica final observa-se uma queda do pitch. Suas curvas de intensidade sonora e

duracao das sılabas nao apresentam caracterısticas marcantes.

26

Page 40: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Figura 3.1: Da esquerda para a direita: Graficos de Intensidade, Pitch e duracao da

sentenca “Renata Jogava.” com atitude Obvia.

Figura 3.2: Da esquerda para a direita: Graficos de Intensidade, Pitch e duracao da

sentenca “Cala-te Jogador.” com atitude Sugestao.

3.2.1.3 Enfase Contrastiva

A atitude de Enfase Contrastiva caracteriza-se por um crescimento no pitch da

sentenca ate a sılaba pretonica final, de modo que esta sılaba tem um pitch maior que

o das outras sılabas da sentenca. Alem disso, de modo a destacar essa caracterıstica

no pitch da sılaba pretonica, observa-se que sua duracao e maior que a media das

outras sılabas e a intensidade sonora nessa sılaba e maior quando comparada a

atitude neutra, como pode ser observado abaixo na Figura 3.3.

Figura 3.3: Da esquerda para a direita: Graficos de Intensidade, Pitch e duracao da

sentenca “Pıfanos Tocarao.” com atitude Enfase Contrastiva.

27

Page 41: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

3.2.1.4 Questao QU

As principais caracterısticas que facilitam a identificacao da atitude nessa sen-

tenca sao o alto valor do pitch na palavra QU, que nesse caso e “quando”, e um

decrescimento desse valor ate o fim da sentenca. As curvas que caracterizam essa

sentenca podem ser observadas na Figura 3.4 (abaixo).

Figura 3.4: Da esquerda para a direita: Graficos de Intensidade, Pitch e duracao da

sentenca “Quando que Passara.” com atitude Questao QU.

3.2.1.5 Comando

A curva de pitch dessa sentenca comeca com uma queda em seu valor, a partir da

tonica inicial, que segue ate a sılaba pretonica final. Nesse ponto comeca a subir,

aumentando seu valor ate o meio da sılaba tonica final. Observa-se, entao, uma nova

queda, como mostrado na figura 3.5.

Figura 3.5: Da esquerda para a direita: Graficos de Intensidade, Pitch e duracao da

sentenca “Cala-te Jogador.” com atitude Comando.

28

Page 42: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

3.2.1.6 Exclamacao QU

As curvas caracterısticas dessa sentenca assemelham-se bastante as da sentenca

Questao QU, conforme pode ser observado na Figura 3.6, de modo que se observa

um valor mais alto do pitch na palavra QU, seguido de um decrescimento nessa

curva ate o fim da sentenca. O fator de desambiguacao entre as duas atitudes esta

presente na sılaba pretonica final, onde se observa um valor de pitch mais baixo que

na sentenca com atitude Questao QU.

Figura 3.6: Da esquerda para a direita: Graficos de Intensidade, Pitch e duracao da

sentenca “Quando que Passara.” com atitude Exclamacao QU.

3.2.2 Sinais com subida de pitch

3.2.2.1 Questao SN

Os valores de pitch nessa atitude destacam-se por serem crescentes na sılaba tonica

inicial e em seguida decrescerem ate a sılaba pretonica final. Na sılaba tonica final

podemos observar novo crescimento dos valores de pitch, o que pode ser observado

na Figura 3.7, que se refere a essa sentenca. No escopo de intensidade, observa-se

um valor acima da media nas sılabas tonica e pretonica finais.

3.2.2.2 Questao SN Retorica

As caracterısticas de pitch dessa sentenca aproximam-se bastante das observadas

na sentenca anterior, Questao SN. Entretanto, em vez de uma curva decrescente ate

a sılaba pretonica final e subida somente na tonica final, observa-se a subida ja na

sılaba pretonica final, fazendo assim com que haja uma diferenca perceptıvel entre

29

Page 43: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Figura 3.7: Da esquerda para a direita: Graficos de Intensidade, Pitch e duracao da

sentenca “Pıfanos Tocarao.” com atitude Questao SN.

as duas atitudes. No contexto de intensidade e duracao, as curvas novamente se

assemelham as da atitude Questao SN, como se observa na Figura 3.8.

Figura 3.8: Da esquerda para a direita: Graficos de Intensidade, Pitch e duracao da

sentenca “Pıfanos Tocarao.” com atitude Questao SN Retorica.

3.2.2.3 Pedido

Observa-se nessa sentenca um valor de pitch subindo ate a metade da sılaba tonica

inicial, seguido de uma queda desse valor ate o meio da sentenca. A seguir, ha um

novo crescimento ate a sılaba tonica final, quando, no fim da sılaba, observa-se

nova queda no valor do pitch, o que da as silabas tonicas um formato convexo. As

caracterısticas dessa sentenca podem ser observadas na Figura 3.9.

3.2.2.4 Questao SN Incredula

Essa sentenca tem sua atitude caracterizada por uma leve subida do pitch na sılaba

tonica inicial, seguida de uma descida na sılaba pretonica final, que em conjunto com

a subida na sılaba tonica final forma um vale na curva. Alem dessas caracterısticas,

30

Page 44: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Figura 3.9: Da esquerda para a direita: Graficos de Intensidade, Pitch e duracao da

sentenca “Cala-te Jogador.” com atitude Pedido.

que podem ser observadas na Figura 3.10, pode-se notar um valor mais alto da

intensidade sonora nas sılabas tonicas.

Figura 3.10: Da esquerda para a direita: Graficos de Intensidade, Pitch e duracao da

sentenca “Pıfanos Tocarao.” com atitude Questao SN Incredula.

3.2.3 Sinais com variacao de duracao

3.2.3.1 Aviso

Nessa sentenca, observa-se um crescimento do valor de pitch ate a sılaba pretonica

final. No escopo de duracao, observa-se um valor maior na sılaba tonica final. Alem

disso, no que diz respeito a intensidade sonora, tambem podemos observar um maior

valor na sılaba tonica final, indicando que essa e a regiao chave para a caracterizacao

da atitude nessa sentenca. As curvas relacionadas a essa sentenca encontram-se

ilustradas na Figura 3.11.

31

Page 45: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Figura 3.11: Da esquerda para a direita: Graficos de Intensidade, Pitch e duracao da

sentenca “Pıfanos Tocarao.” com atitude Aviso.

3.2.3.2 Ironica

Assim como na sentenca com atitude de aviso, essa sentenca tem a curva de

pitch crescente ate a sılaba pretonica final (Figura 3.12). Entretanto, na duracao o

alongamento das sılabas acontece desde a sılaba pretonica final, e nao somente na

tonica.

Figura 3.12: Da esquerda para a direita: Graficos de Intensidade, Pitch e duracao da

sentenca “Pıfanos Tocarao.” com atitude Ironica.

3.2.3.3 Incredula

A curva de pitch dessa sentenca possui trechos praticamente constantes (flat),

sofrendo uma leve queda ao longo do tempo. Quanto a duracao, pode-se observar

o aumento da curva nas sılabas tonica e pretonica final, conforme se ve na Figura

3.13.

32

Page 46: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Figura 3.13: Da esquerda para a direita: Graficos de Intensidade, Pitch e duracao da

sentenca “Pıfanos Tocarao.” com atitude Incredula.

3.2.3.4 Enfase Intensiva

As curvas que caracterizam essa sentencas assemelham-se bastante as da sentenca

com atitude incredula. O pitch dessa sentenca e constante em quase toda a duracao

do sinal, sofrendo uma queda na sılaba pretonica final e voltando a subir na tonica

final. As curvas de duracao e intensidade se mantem iguais as da sentenca com

atitude incredula, fato que pode ser visto na Figura 3.14.

Figura 3.14: Da esquerda para a direita: Graficos de Intensidade, Pitch e duracao da

sentenca “Pıfanos Tocarao.” com atitude Enfase Intensiva.

3.3 Analise da Validade do Modelo

Na presente secao, comparamos os modelos das atitudes obtidos por MO-

RAES [4] com as caracterısticas apresentadas por estas mesmas atitudes para a

nova estrutura silabica. Para melhor organizar os resultados de nossas analises,

mais uma vez sera mantida a segmentacao das atitudes.

33

Page 47: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

3.3.1 Atitudes com queda de pitch

3.3.1.1 Obvia

Para essa atitude o modelo de MORAES [4] preve um crescimento do pitch do

inıcio ate a sılaba tonica final, com alto valor de intensidade sonora na tonica final.

Como observado na sessao passada, a curva de pitch dessa sentenca e ascendente

do inıcio ao fim do sinal. Como a estrutura silabica dessa sentenca caracteriza-

se por possuir a primeira e a ultima sılabas tonicas, pode-se afirmar que essa curva

comporta-se conforme o esperado pelo modelo. A outra caracterıstica relevante nesse

sinal e a intensidade sonora se elevar nas sılabas tonicas. Observa-se no modelo um

alto valor dessa variavel na sılaba tonica final. Portanto, o modelo anterior pode ser

considerado valido, para estruturas silabicas diferentes daquelas daquela atraves da

qual foi feito.

3.3.1.2 Sugestao

O modelo original dessa atitude estabelece que as caracterısticas de pitch, inten-

sidade sonora e duracao dessa atitude devem ser as mesmas da sentenca Obvia,

embora o conteudo da sentenca deva ser imperativo. Observa-se no sinal analisado

que a curva de pitch segue crescente ate a sılaba pretonica final, e na sılaba tonica

final inicia uma queda, de modo que essa curva se encaixa nos moldes previstos

para a atitude Obvia e, por conseguinte, no modelo da atitude Sugestao. Embora

nao se possa observar um valor maior na intensidade sonora desse sinal, esse fator

nao e determinante, pois ha muita variacao entre gravacoes nos valores da intensi-

dade. Portanto pode-se afirmar que o modelo para essa atitude e valido, para outras

estruturas diferentes daquela para o qual foi feito.

3.3.1.3 Enfase Contrastiva

Para ser considerado valido o modelo dessa atitude, a sentenca deve apresentar

um alto valor de intensidade sonora na sılaba tonica final. Sua curva de pitch deve

ser crescente ate a sılaba pretonica final, que tem um valor alto. A sılaba que se

segue, ou seja a tonica final, apresenta um valor mais baixo e deve possuir uma

forma convexa. No sinal analisado, ve-se um comportamento adequado a essas

34

Page 48: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

caracterısticas e, embora o valor de da intensidade sonora na tonica final nao seja

o maior da sentenca, pode-se observar que o mesmo e maior que o observado na

sentenca dita com atitude neutra. Considerando todos esses fatores, e adequado

assumir que o modelo para essa atitude e valido, apesar da estrutura silabica.

3.3.1.4 Questao QU

O modelo dessa atitude e bastante simples, necessitando somente de duas propri-

edades para caracteriza-lo: a primeira e um alto valor de pitch na palavra QU e a

segunda uma descida do valor de pitch a partir da palavra QU. No sinal analisado,

observa-se que a sılaba inicial possui um valor de pitch mais alto que as outras, e

em seguida ve-se a curva decrescer ate o fim da sentenca. Se for levado em consi-

deracao o fato de que a sentenca e iniciada pela palavra QU, essa sentenca comprova

a validade do modelo para sentencas de estruturas silabicas distintas da estudada

inicialmente.

3.3.1.5 Comando

Para caracterizar essa atitude, as curvas devem ter as mesmas propriedades da

atitude Questao QU; entretanto, o conteudo dessa sentenca deve ser imperativo. No

sinal observado tem-se um alto valor de pitch na sılaba tonica inicial, que corres-

pondia a palavra QU na outra atitude, seguido de uma queda na curva. Essa queda

nao perdura ate o fim da sentenca, que apresenta um crescimento no final. No

Capıtulo 2 pode-se observar que na sentenca estudada inicialmente tambem ha um

leve crescimento nessa curva, de modo que isso nao necessariamente descaracteriza

a atitude, e essa atitude. Portanto o modelo pode ser considerado valido, apesar da

estrutura silabica.

3.3.1.6 Exclamacao QU

No sinal estudado para essa atitude, observa-se um decrescimento do pitch a partir

da palavra QU, seguindo ate o fim da sentenca. Esse comportamento era esperado

pelo modelo, que e proximo ao da atitude Questao QU. O fator que diferencia essa

atitude daquela vista na Questao QU tambem esta presente nesse sinal, pois o valor

do pitch na sılaba pretonica final e menor do que no sinal que apresenta a atitude

35

Page 49: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Questao QU. A presenca dessas caracterısticas permite que se considere o modelo

dessa atitude como valido, apesar da estrutura silabica distinta.

3.3.2 Atitudes com subida de pitch

3.3.2.1 Questao SN

Seguindo o modelo proposto para essa atitude, o sinal analisado apresenta uma

subida na curva de pitch na sılaba tonica inicial e um subsequente decrescimento ate

a sılaba tonica final, onde o sinal volta a crescer. Pelo modelo haveria ainda mais

uma queda no sinal situada na sılaba postonica final; entretanto, por se tratar de

uma palavra oxıtona, a ultima palavra da sentenca nao possui sılaba postonica final.

Como a curva corresponde ao previsto no modelo, a menos da diferenca causada pela

estrutura silabica, pode-se dizer que essa atitude e valida, para diferentes estruturas

silabicas.

3.3.2.2 Questao SN Retorica

Para ser classificada como uma sentenca que possui as propriedades da atitude

Questao SN Retorica, suas curvas caracterısticas deveriam assemelhar-se as da ati-

tude Questao SN com a diferenca de que na sılaba tonica final observar-se-ia um

decrescimento do pitch, ao passo que na Questao SN essa queda so ocorre na sılaba

postonica. Posto que a sentenca nao apresenta uma sılaba postonica final (ja que

sua ultima palavra e oxıtona), nao se pode observar tal comportamento na sentenca

analisada anteriormente. Ja na sentenca utilizada para essa atitude, ve-se, como

esperado, um decrescimento na curva do pitch a partir da metade da sılaba tonica

final, de modo que se pode considerar o modelo valido para estruturas silabicas

distintas.

3.3.2.3 Pedido

De maneira analoga a sentenca que expressa a atitude de Questao SN Retorica,

essa sentenca apresenta uma subida do pitch na silaba tonica inicial, seguida de uma

descida, ate voltar a subir na tonica final. Como as caracterısticas para essa atitude

nao diferem (senao em conteudo) daquelas da Questao SN Retorica, considera-se

36

Page 50: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

valido o modelo para estruturas silabicas distintas.

3.3.2.4 Questao SN Incredula

A caracterıstica marcante dessa atitude e o vale formado pela subida na tonica

inicial, a descida da pretonica final e a nova subida da tonica final. No sinal anali-

sado, observam-se essas caracterısticas bastante evidentes, de modo que o modelo e

valido para estruturas silabicas distintas.

3.3.3 Atitudes com variacao de duracao

3.3.3.1 Aviso

Conforme predito no modelo dessa atitude, o sinal observado tem um cresci-

mento do valor do pitch ate a sılaba pretonica final, onde assume seu maior valor, e

em seguida apresenta um valor consideravelmente mais baixo na sılaba tonica. As

duracoes e intensidades tambem apresentam valores correspondentes aos esperados

pelo modelo, de forma que este e valido para estruturas silabicas diferentes.

3.3.3.2 Ironica

As curvas de pitch dessa atitude sao muito parecidas com as da atitude Aviso.

A diferenciacao entre as duas ocorre na duracao, pois nessa o alongamento das

sılabas comeca a ocorrer na sılaba pretonica final, conforme previsto pelo modelo.

Essa caracterıstica torna-se, entao, uma assinatura caracterıstica da atitude e sua

presenca nesse sinal acaba por validar o modelo para outras estruturas silabicas.

3.3.3.3 Incredula

A curva de pitch desse sinal e levemente decrescente, embora o modelo proposto

sugira que deva ser majoritariamente plana, nao apresentando picos ou inclinacoes

relevantes. Alem disso, ha um alongamento das sılabas tonica e pretonica finais,

que esta de acordo com o modelo. Essa diferenca entre o modelo e o sinal, em-

bora existente, nao e determinante para dizer que o modelo esta errado para outras

estruturas; portanto ,novo teste sera realizado posteriormente.

37

Page 51: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

3.3.3.4 Enfase Intensiva

Apesar de, no escopo geral, a curva de pitch dessa sentenca parecer destoar do

modelo, essa ainda apresenta um alto valor na sılaba tonica final, que se manteria

ate a sılaba postonica final caso a palavra nao fosse oxıtona, tornando a atitude

identificavel. Alem do pitch, pode-se observar outra caracterıstica que valida o

modelo: o alongamento das sılabas pretonica e tonica finais. Dessa forma, o modelo

continua valido para sinais com estruturas silabicas variadas.

3.4 Conclusoes

Nesse capıtulo, as mesmas 14 atitudes prosodicas vistas no capıtulo anterior foram

analisadas em sentencas com uma estrutura silabica distinta da usada anteriormente.

De forma a validar o modelo dessas atitudes, o comportamento de cada uma na

nova sentenca foi comparado com aquele previsto pelo modelo. Embora o numero

de sılabas nas palavras tenha sido mantido ao se escolher as novas sentencas, a

modificacao da estrutura da sentenca causou algumas alteracoes importantes em

algumas atitudes.

Mais especificamente, como a nova estrutura silabica nao incluıa sılabas pretonicas

iniciais ou silabas postonicas finais, para os modelos baseados nestas unidades ocor-

rem duas possibilidades: a alteracao e ignorada ou e refletida na sılaba tonica mais

proxima. Os casos em que isso ocorreu de forma mais clara foram:

• Questao SN: Nao ha a queda no pitch da sılaba postonica final, por se tratar

de uma palavra oxıtona e nao possuir essa sılaba; nesse caso, essa parte do

modelo e descartada.

• Enfase Intensiva: Nao ha manutencao do alto valor da sılaba tonica final na

sılaba postonica, por se tratar de uma palavra oxıtona, que portanto nao possui

a referida sılaba; essa alteracao e, por isso descartada.

Observadas as alteracoes mais evidentes, algumas outras mais sutis tambem

se fizeram notar, como valores mais altos ou mais baixos das variaveis analisadas

e ainda uma maior presenca de atitudes com variacao nos valores de intensidade.

38

Page 52: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Entretanto, de modo geral, essas variacoes nao se mostraram determinantes para

invalidar o modelo anterior, pois, dentre outras coisas, a intensidade varia bastante

entre as gravacoes, o que torna seu comportamento pouco previsıvel.

A partir dos estudos realizados no presente capıtulo, os modelos de MORAES [4]

para as diferentes atitudes foram generalizados para diferentes estruturas silabicas.

No proximo capıtulo, vamos formalizar os novos modelos e testa-los para uma nova

estrutura silabica distinta das utilizadas ate aqui.

39

Page 53: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Capıtulo 4

Aplicacao do Modelo e Testes

4.1 Intoducao

No capıtulo anterior, o modelo das atitudes estudado foi avaliado para uma es-

trutura diferente daquela para a qual foi proposto inicialmente. No presente capıtulo

para validar os resultados, o modelo obtido sera aplicado a uma sentenca de atitude

neutra, de modo a impor a atitude desejada.

Na Secao 4.2 sera mostrada uma nova estrutura silabica, diferente das ja apre-

sentadas, e a seguir sera mostrado um exemplo de como aplicar o modelo a uma

sentenca que contenha esta estrutura.

O procedimento usado para validar os resultados da aplicacao do modelo a nova

estrutura sera descrito na Secao 4.3. Nesse ponto sera apresentado o metodo subje-

tivo de avaliacao utilizado para chegar a esta validacao.

Na Secao 4.4, serao discutidos os resultados dos testes e a validade desse modelo

para essa estrutura, visando a chegar a uma conclusao sobre a efetividade ou nao

do metodo aplicado.

4.2 Aplicacao do Modelo Estudado

Nessa secao sera feita a aplicacao do modelo estudado para as 14 atitudes

em novas sentencas contendo uma estrutura silabica ate entao nao explorada, com

40

Page 54: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

o objetivo de validar a generalidade dos modelos obtidos anteriormente em relacao

a estrutura de sentenca utilizada.

4.2.1 A nova estrutura silabica

Para fazer a validacao dos modelos de atitude descritos nesse trabalho, serao

utilizadas nessa etapa sentencas formadas por duas palavras de tres sılabas, sendo a

primeira uma oxıtona (portanto tendo a sua ultima sılaba tonica) e a segunda uma

proparoxıtona (nesse caso a sılaba tonica sera a primeira da palavra).

De imediato percebe-se que havera algumas ressalvas a serem feitas a partir do

modelo estudado no Capıtulo 2, uma vez que a primeira palavra, devido a sua

estrutura, nao apresenta sılabas postonicas. A sılaba seguinte a tonica, nesse caso,

sera a tonica final, e a segunda palavra nao possuira uma sılaba pretonica, de modo

que esta sera a sılaba tonica inicial. Embora a primeira vista isso possa parecer

um problema para o metodo, deve-se lembrar que um caso semelhante ocorre na

estrutura silabica estudada no Capıtulo 3 deste trabalho.

Conforme estabelecido anteriormente, para contemplar as 14 atitudes propostas

por MORAES, sera necessario o uso de pelo menos tres sentencas diferentes (embora

com a mesma estrutura silabica). Essas sentencas diferem entre si no tocante ao seu

conteudo e a presenca de palavras-chave para a aplicacao das atitudes, como no caso

das palavras QU anteriormente explicadas.

As sentencas a serem utilizadas sao as que se seguem:

• “Olhara a celula.” - Utilizada para representar as atitudes Pedido, Su-

gestao eComando. Embora a primeira vista essa sentenca pareca possuir um

numero de sılabas diferente daquele que foi apresentado na descricao acima,

sua transcricao fonetica mostra a juncao da sılaba final da primeira palavra

com o artigo que se segue, de forma que ao final, foneticamente falando, exis-

tem somente seis sılabas, conforme o planejado.

• “E porque eramos.” - Utilizadas para as atitudesQuestao QU eExclamacao

QU. Nesse caso a expressao “E porque” sera considerada como palavra QU,

41

Page 55: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

conforme concessao feita anteriormente tambem para a expressao “E como

jogava.”.

• “Liberais eramos.” - Utilizada para as nove atitudes restantes.

4.2.2 Imposicao do modelo

Conforme anteriormente apresentado neste trabalho, a atitude de uma dada sen-

tenca e determinada pelas caracterısticas de pitch, intensidade e duracao das sılabas

de uma sentenca. De forma a introduzir as caracterısticas desejadas na sentenca de

interesse, foram utilizados dois programas computacionais de codigo aberto: Pro-

sody Editor, desenvolvido por LATSCH [1], e Praat [6].

A seguir, sera mostrado um exemplo de como os programas foram utilizados para

a imposicao do modelo a uma sentenca de atitude neutra, resultando numa sentenca

manipulada com a atitude desejada:

(i) Inicialmente, utilizando a ferramenta de manipulacao prosodica do Prosody

Editor, faz-se a alteracao dos valores de duracao da sentenca com atitude neutra.

Para isso deve-se alterar a altura das barras de duracao correspondentes a cada

sılaba, de maneira a fazer com que estas recebam as caracterısticas explicitadas no

modelo.

No caso da atitude Ironica, ha um aumento da duracao da sılaba tonica final

frente ao valor apresentado na sentenca de atitude neutra. De modo a obter um

resultado melhor, as amplitudes das barras de duracao foram alteradas para que

seus valores maximos e mınimos correspondessem aqueles da sentenca de referencia

(nesse caso, os valores da sentenca “Renata jogava.” dita com a atitude ironica).

Portanto a duracao das sılabas tonicas finais das duas sentencas foi igualada.

Por exemplo, as caracterısticas da sentenca em questao, “Renata jogava.”, podem

ser observadas na Figura 4.1, enquanto que na Figura 4.2 observa-se a janela de

manipulacao prosodica do Prosody Editor em que as caracterısticas da sentenca

“Liberais eramos.” foi executada.

42

Page 56: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Figura 4.1: Da esquerda para a direita: Graficos de Intensidade, Pitch e duracao da

sentenca “Renata jogava.” com atitude Ironica.

Figura 4.2: Janela de Edicao de Duracao do Prosody Editor para a sentenca “ Liberais

eramos.” e atitude ironica.

(ii) A seguir, foi alterada a curva de intensidade sonora da sentenca de atitude

neutra. Novamente nesse caso, em que a atitude de interesse e a Ironica, ha uma

diferenca notavel na intensidade sonora da sılaba tonica final, de modo que, para

manter a coerencia com o que foi executado anteriormente, tambem nessa etapa os

valores maximos e mınimos da intensidade foram alterados para aqueles encontrados

na sentenca de referencia “Renata jogava.”. Dessa forma a intensidade sonora da

sılaba tonica final das duas sentencas foi igualada. Na Figura 4.3 observa-se a janela

de manipulacao de intensidade do programa Prosody Editor, enquanto a alteracao

de intensidade era executada.

43

Page 57: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Figura 4.3: Janela de Edicao de Intensidade do Prosody Editor para a sentenca “Liberais

eramos.” e com atitude ironica.

(iii) A terceira e ultima etapa esta relacionada a alteracao das curvas de pitch

do sinal com atitude neutra. Essa etapa, assim como as que a precedem, poderia

ter sido executada utilizando-se a ferramenta de manipulacao de pitch do Prosody

Editor. Entretanto, essa ferramenta disponibiliza somente um pequeno numero de

pontos de pitch por sılaba, de modo que os valores dessa variavel entre os pontos

sera obtida pela interpolacao destes, o que da pouca liberdade de escolha de valores

para o usuario. Para um melhor desempenho foi utilizado o programa Praat, que

permite a manipulacao direta de um numero maior de pontos, e por esse motivo

apresenta um resultado superior para esse processo.

No exemplo utilizado, o modelo para a atitude Ironica preve que haja um cresci-

mento no valor do pitch no decorrer da sentenca, culminando num alto valor dessa

variavel nas sılabas pretonica e tonica finais, seguido de uma queda no valor do pitch

ate o final da sentenca. Conforme esclarecido na Secao 4.2.1 ha uma intersecao entre

as sılabas tonica inicial e pretonica final, o que poderia causar problemas para a de-

finicao do comportamento do pitch nesse trecho. Entretanto, como se pode notar na

Secao 2.4.3.2, o modelo para essa atitude nao preve qualquer comportamento para

a sılaba tonica inicial, de forma que essa sılaba pode ser tratada como a pretonica

final do modelo.

44

Page 58: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Figura 4.4: Janela de Edicao de Pitch do Praat para a sentenca “Renata jogava.” e com

atitude ironica.

Segundo o modelo para atitude Ironica (presente na secao 2.4.3.2), o pitch da

sentenca devera ser crescente ate as sılabas tonicas e decrescente a partir do final da

ultima delas. Conforme explicitado anteriormente, para obter um melhor resultado,

os valores maximos e mınimos de pitch da sentenca de referencia (“Renata jogava.”

com atitude Ironica) foram copiados para a sentenca manipulada.

As janelas de manipulacao de pitch do Praat, onde essa etapa foi executada,

encontram-se nas Figuras 4.4 e 4.5, em que se observa a correspondencia entre os

valores mais altos de pitch.

45

Page 59: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Figura 4.5: Janela de Edicao de pitch do Praat para a sentenca “Liberais eramos.” e com

atitude ironica.

4.3 Testes Aplicados

Apos todos as sentencas com a estrutura silabica de interesse terem sido mani-

puladas de forma a apresentar as 14 diferentes atitudes estudadas nesse trabalho,

os resultados foram validados atraves da execucao de um teste subjetivo; visando a

verificar a compreensao das atitudes por parte de ouvintes, foram realizados testes

com a participacao de 20 voluntarios.

Para desenvolver um teste padronizado, no qual todos os voluntarios seriam sub-

metidos a mesma situacao e com o mınimo de interferencia externa, foi desenvolvido

um programa que apresentaria os sinais e coletaria a nota dada pelo usuario. Para

tanto, foi utilizada a ferramenta de interface grafica do software MATLAB R⃝, con-

forme visto nas Figuras 4.6 e 4.7.

A primeira figura apresenta a tela inicial com as instrucoes que permitirao a

execucao do teste, bem como tres botoes que apresentam exemplos de sinais que

podem ser utilizados como referencia para que se faca o teste com melhor resultado.

Abaixo esta transcrito o texto que e apresentado nessa tela explicando o funciona-

mento do teste. A primeira tela da interface pode ser observada na Figura 4.6.

46

Page 60: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

O objetivo do presente teste e verificar o grau de similaridade entre as atitudes (entonacao)

de ambos os sinais. De maneira a quantificar os resultados, cada ouvinte devera atribuir

uma nota inteira entre 1 (um) e 5 (cinco) aos sinais ouvidos, de acordo com a seguinte

classificacao:

1.Ruim: As atitudes nao se parecem nem um pouco;

2.Fraco: Ha pouca similaridade entre as duas atitudes;

3.Razoavel: Pode-se perceber uma razoavel similaridade;

4.Bom: Percebe-se claramente a presenca da mesma atitude nos dois sinais;

5.Excelente: As atitudes nos dois sinais sao identicas;

A tıtulo de exemplo, a similaridade entre as atitudes dos sinais 1 e 2 pode ser considerada

nota 5.

Sao esperadas algumas distorcoes no sinal modificado, que devem ser ignoradas pelo ou-

vinte na avaliacao das atitudes. Sao exemplos dessas distorcoes: voz metalizada e pequenos

picos durante a execucao.

Clicando no botao “Sinal Distorcido” podem ser escutados um exemplo de sinal com as

distorcoes esperadas. Durante a execucao dos testes, cada sinal podera ser executado um

numero qualquer de vezes, a escolha do ouvinte. Para trocar de sinais sera necessario

atribuir uma nota ao conjunto de sinais atual.

A nota inicial para o sinal e 1 (um). Pode-se alterar essa nota clicando sobre as setas no

“slider” da janela.(Para se atribuir a nota 1 deve-se modificar para a nota 2 e posterior-

mente retornar ao valor 1, dessa forma modificando o valor do “slider” pelo menos uma

vez).

Apos atribuıda a nota aos sinais e pressionado o botao “Proximo Sinal”, nao sera possıvel

voltar a ouvir o sinal anterior. Ao termino das analises, o espaco contendo o numero

do sinal atual sera substituıdo pelo valor “FIM” e a janela podera ser fechada. O Teste

consiste de 14 atitudes, sendo necessario escutar um total de 28 sinais (comparando-os

dois a dois). As atitudes avaliadas nao serao identificadas no decorrer do teste para que

o ouvinte seja menos influenciado. Os resultados do teste serao armazenados de maneira

anonima. O tempo estimado para a conclusao do teste e de 15 minutos.

Para iniciar o teste pressione o botao “Iniciar”. Obrigado por participar!

Na Figura 4.7, pode-se observar a tela em que o ouvinte devera fazer a avaliacao

do par de sinais utilizando o slider para atribuir uma nota entre 1 (um) e 5 (cinco)

47

Page 61: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Figura 4.6: Tela inicial do programa de avaliacao subjetiva de atitudes onde pode-se

observar as instrucoes para a realizacao do teste, o texto aqui apresentado esta transcrito

na pagina anterior.

a cada par de sinais.

Algumas ressalvas sobre o teste desenvolvido devem ser feitas:

• Conforme descrito no texto acima, o ouvinte devera atribuir uma nota de 1

a 5 para cada par de sinais. Essa escolha foi feita para que os resultados

fossem representados na escala MOS (Mean Opinion Score), cujos resultados

sao bastante conhecidos, e parametros de comparacao podem ser facilmente

tracados.

• Antes do inıcio do teste, ainda na tela inicial, sao apresentados ao ouvinte tres

exemplos de sinal: um par que pode ser considerado merecedor de nota 5, e um

sinal que apresenta as distorcoes mais comuns nos sinais e que para efeito desse

teste devem ser desconsideradas. Estas distorcoes sao geradas principalmente

na etapa de manipulacao de duracao do sinal, feita utilizando a ferramenta do

Prosody Editor, e nao tem relacao direta com o modelo a ser avaliado.

48

Page 62: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Figura 4.7: Tela de avaliacao do programa de avaliacao subjetiva de atitudes.

• Nesse teste o ouvinte nao tera acesso ao nome da atitude que esta sendo

representada pelos sinais que esta avaliando, uma vez que este teste nao visa a

estabelecer se a atitude apresentada corresponde ao conceito que o ouvinte tem

sobre a mesma, mas se a atitude presente no sinal de referencia foi corretamente

refletida no sinal manipulado. Embora possa haver problemas para o usuario

entender a atitude a partir do sentido das sentencas essa caracterıstica nao foi

observada nesse teste.

Alem de atribuir as notas aos pares de sinais, o ouvinte, ao final do teste, de-

vera responder a tres perguntas: “Qual o par de sinais para o qual encontrou mais

dificuldade para atribuir nota?”, “Houve alguma duvida quanto ao procedimento

de avaliacao?”, “Houve alguma atitude que nao foi capaz de identificar?”. Essas

perguntas visam a avaliar a efetividade do teste e aprofundar mais os resultados.

49

Page 63: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

4.4 Resultados e Analises

A Tabela 4.4 mostra os resultados dos testes com as medias referentes a cada

atitude e a Figura 4.8 ilusta essas respostas de maneira grafica.

Tabela 4.1: Medias dos testes subjetivos aplicados

Atitude 1 2 3 4 5 6 7

Media 3,4 3,9 3,0 3,2 3,7 3,1 2,0

Atitude 8 9 10 11 12 13 14

Media 1,8 2,4 2,7 3,0 3,7 3,7 2,3

Figura 4.8: Graficos com as medias dos testes subjetivos aplicados.

Na lista a seguir encontram-se descritas as atitudes representadas por cada par

de sinais que aparece na tabela 4.4:

1. Atitude 1: Aviso

2. Atitude 2: Incredula

3. Atitude 3: Enfase Intensiva

4. Atitude 4: Ironica

50

Page 64: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

5. Atitude 5: Obvia

6. Atitude 6: Enfase Contrastiva

7. Atitude 7: Questao SN

8. Atitude 8: Questao SN Retorica

9. Atitude 9: Questao SN Incredula

10. Atitude 10: Pedido

11. Atitude 11: Comando

12. Atitude 12: Sugestao

13. Atitude 13: Questao QU

14. Atitude 14: Exclamacao QU

Pode-se notar atraves dos resultados mostrados na Tabela 4.4 que dentre os 14

pares de sinais testados obteve-se um resultado satisfatorio para 9 deles, cujas medias

ficaram acima de 3,0. Para os cinco sinais restantes obteve-se um resultado pouco

satisfatorio, uma vez que suas medias ficaram entre 1,0 e 3,0, o que caracteriza, pela

definicao dada na descricao do teste, uma similaridade inferior a razoavel.

As atitudes Questao SN, Questao SN Retorica e Pedido possuem carac-

terısticas muito semelhantes e ja houve, conforme se observam na Secao 3.4, al-

gumas incoerencias do modelo decorrentes da inexistencia de algumas sılabas que

caracterizam essas atitudes.

A atitudeQuestao SN Incredula possui como sılaba importante a sılaba pretonica

final. Na presente estrutura, silabica essa sılaba se confunde com a tonica inicial, o

que pode ser responsavel pelo resultado ruim na avaliacao dessa atitude.

Observa-se na atitude Exclamacao QU, que o modelo sugere que o valor do pitch

da sılaba pretonica deve ser inferior ao da atitude Questao QU. Essa caracterıstica

nao e transmitida com precisao pelo metodo utilizado, embora os valores de pitch

51

Page 65: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

sejam copiados de uma sentenca de referencia. Ha ainda o fato de que a sılaba

pretonica final e novamente confundida com a sılaba tonica inicial, o que pode ser

a caracterıstica responsavel pelo resultado abaixo do esperado.

Dentre as nove atitudes cujas avaliacoes obtiveram resultados positivos pode-se

destacar o resultado da atitude Incredula, que foi muito proximo ao valor 4.0. E

importante notar que no Capıtulo 3 a validade do modelo para a atitude Incredula

foi posta em cheque, uma vez que havia uma tendencia ao decrescimento no sinal

analisado. Entretanto percebe-se que o modelo e valido, ja que apos a imposicao da

atitude a uma outra sentenca o resultado obtido foi um dos melhores.

Um outro fator que deve ser levado em consideracao na analise dos resultados

e que, embora tenha sido solicitado aos voluntarios nos testes subjetivos que os

artefatos e ruıdos gerados nos sinais pelas imperfeicoes das ferramentas utilizadas

fossem desconsiderados, e possıvel que o incomodo gerado por esses problemas tenha

sido responsavel por uma queda nas notas atribuıdas e, dessa forma, o resultado

apresentado se mostra inferior aquele que se obteria caso esses problemas tivessem

sido evitados.

As respostas as perguntas presentes no questionario feito em conjunto com o teste

subjetivo podem ser encontradas nas Tabelas 4.2, 4.3 e 4.4 com as estatısticas das

respostas referentes as perguntas 1, 2 e 3, respectivamente.

Tabela 4.2: Respostas dadas para a pergunta 1: “Qual o par de sinais para o qual

encontrou mais dificuldades para atribuir nota?”.

Sinal 1 2 3 4 5 6 7

Votos 10,0% 5,0% 10,0% 10,0% 15,0% 0,0% 10,0%

Sinal 8 9 10 11 12 13 14

Votos 10,0% 0,00% 15,00% 5,0% 5,0% 5,0% 0,0%

Conforme pode ser observado a partir das respostas a primeira questao (Qual o

par de sinais para o qual encontrou mais dificuldade para atribuir nota?), houve um

52

Page 66: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

grande espalhamento nas respostas, significando que a dificuldade na atribuicao de

notas aos sinais encontra-se majoritariamente na percepcao pessoal dos sinais, de

forma que nao se pode identificar um sinal cujos resultados possam ser explicados

diretamente por essas respostas.

Tabela 4.3: Respostas dadas para a pergunta 2:“Houve alguma duvida quanto ao

procedimento de avaliacao?”.

SIM NAO

5,0% 95,0%

Das respostas obtidas a partir da segunda pergunta do questionario (Houve al-

guma duvida quanto ao procedimento de avaliacao?), pode-se inferir que o proce-

dimento de avaliacao subjetiva dos sinais foi de simples compreensao, nao tendo os

voluntarios apresentado grandes dificuldades na hora de executar o teste, visto que

somente um voluntario respondeu com “sim”a essa pergunta.

Tabela 4.4: Respostas dadas para a pergunta 3: “Houve alguma atitude que nao foi

capaz de identificar?”.

SIM NAO

20,0% 80,0%

As respostas apresentadas pelos voluntarios a terceira pergunta (Houve alguma

atitude que nao foi capaz de identificar?) demonstram que foram raros os casos

(4 ao todo) em que o mesmo foi incapaz de compreender as atitudes envolvidas no

teste, de forma que o seu julgamento da proximidade da atitude do sinal sintetizado

aquele usado como referencia foi feito de forma consciente. Vale ressaltar que nos

casos em que a resposta foi positiva cada voluntario apresentou um sinal diferente

no qual mostrou dificuldades, de forma que nao ha uma atitude especıfica que tenha

se mostrado problematica para os voluntarios.

53

Page 67: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

4.5 Conclusoes

Nesse capıtulo foi apresentada uma nova estrutura silabica para a qual o modelo

de atitudes prosodicas deveria ser testado. Observam-se as caracterısticas principais

dessa estrutura, e as possıveis dificuldades que seriam encontradas na imposicao do

modelo foram apontadas.

Tambem nesse capıtulo foi apresentado o modo atraves do qual o modelo de

atitudes seria imposto a um sinal que inicialmente possuısse atitude neutra, e um

exemplo de como isso ocorreria foi mostrado. Em seguida, foi descrito o teste que

validaria o experimento e os resultados do mesmo foram analisados.

Observou-se que para a maior parte dos casos (aproximadamente 64%) o metodo

de imposicao do modelo de atitudes prosodicas obteve um resultado satisfatorio,

em que a media dos resultados do teste subjetivo atingiu um valor de pelo menos

3,0 na escala MOS. Isso demonstra que o metodo, ainda que imperfeito, apresenta

resultados positivos.

A Secao 4.4 apresentou possıveis motivos que justificam o resultado aquem do

esperado para algumas atitudes, na intencao de permitir que esses problemas possam

ser melhor estudados e obtenham resultados mais promissores, com um numero

maior de atitudes contempladas.

54

Page 68: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Capıtulo 5

Conclusoes

5.1 Consideracoes Finais

Este trabalho teve como objetivo o desenvolvimento e validacao de um metodo

de imposicao de atitudes prosodicas numa sentenca que inicialmente contivesse uma

atitude neutra.

A inspiracao inicial para esse trabalho foi obtida de sistemas de conversao texto-

fala, uma vez que os sinais sintetizados por esses sistemas podem se tornar mais

naturais caso sejam capazes de apresentar as atitudes que um locutor humano uti-

lizaria caso fosse ele o autor da sentenca.

Inicialmente, com o objetivo de desenvolver o metodo de imposicao de atitudes

de prosodia, no Capıtulo 2 foi analisado um modelo de atitudes prosodicas que viria

a permear todo o trabalho. Esse modelo, proposto inicialmente por MORAES [4]

baseia-se em tres aspectos do sinal de voz: duracao, intensidade e pitch para carac-

terizar cada uma das 14 atitudes: aviso, incredula, enfase intensiva, ironica,

obia, enfase contrastiva, questao SN, questao SN retorica, questao SN

incredula, pedido, comando, sugestao, questao QU, exclamacao QU. En-

tretanto esse modelo havia sido trabalhado somente para uma estrutura silabica,

aquela presente na sentenca “Renata jogava”, ou seja, com 2 palavras de 3 sılabas,

ambas paroxıtonas. Ainda no Capıtulo 2 foram analisados dois metodos que po-

dem ser utilizados para impor uma atitude a um sinal neutro. Entretanto esses

metodos sao dependentes da estrutura silabica da sentenca sendo manipulada. As-

55

Page 69: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

sim, buscou-se uma nova maneira de impor as atitudes as sentencas, sem que as

duas possuıssem a mesma estrutura silabica. No Capıtulo 3, o modelo de atitudes

prosodicas visto anteriormente foi validado de forma a se demonstrar que o mesmo

era valido para outras estruturas silabicas fora aquela para a qual foi gerado; para

isso, foi utilizada uma nova estrutura com duas palavras de 3 sılabas, a primeira

proparoxıtona e a segunda oxıtona, como em “pıfanos tocarao”. Mostrou-se, entao,

que a utilizacao do modelo para as aplicacoes desse trabalho era possıvel.

Tendo executado a validacao do modelo sem que o mesmo estivesse preso a estru-

tura silabica para a qual estava sendo utilizado, no Capıtulo 4 foi apresentada uma

maneira atraves da qual o modelo de atitudes citado anteriormente pode ser imposto

sobre uma sentenca de atitude neutra. A tecnica aqui aplicada requer uma base de

dados contendo uma sentenca com cada tipo de atitude, embora nao seja necessario

que essa sentenca possua a mesma estrutura silabica que a sentenca a ser modificada,

dessa forma cumprindo-se o objetivo deste trabalho. Para executar essa etapa de

imposicao do modelo e testes foi utilizada, ainda, uma nova estrutura silabica, com

2 palavras de 3 sılabas sendo a primeira palavra oxıtona e a segunda proparoxıtona,

como em “liberais eramos”. Ainda no Capıtulo 4, foi mostrada a maneira como os

resultados do trabalho foram avaliados atraves de um teste subjetivo realizado com

20 voluntarios no qual cada um deveria atribuir uma nota de 1 a 5 para a similaridade

entre os sinais sintetizados e sinais de referencia. Foram abordados ainda os pro-

blemas que o metodo utilizado apresenta. Como resultado das avaliacoes, 9 das 14

atitudes inicialmente trabalhadas (aviso, incredula, enfase intensiva, ironica,

obvia, enfase contrastiva, comando, sugestao, questao QU) tiveram um re-

sultado considerado aceitavel (nota maior que 3.0 na escala MOS), enquanto as 5

atitudes restantes (questao SN, questao SN retorica, questao SN incredula,

pedido e exclamacao QU) foram avaliadas como inaceitaveis (recebendo notas

inferiores a 3,0, na media).

Observa-se ao final do trabalho que, embora nem todas as 14 atitudes inicialmente

propostas tenham obtido um resultado satisfatorio, o metodo utilizado alcancou o

objetivo proposto, uma vez que sua aplicacao independe da estrutura silabica das

sentencas envolvidas e permite que as atitudes impostas nas sentencas sejam reco-

56

Page 70: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

nhecidas por ouvintes de maneira adequada. Para as 9 atitudes que obtiveram resul-

tados satisfatorios e possıvel que se faca a manipulacao das caracterısticas prosodicas

de uma sentenca de atitude neutra de modo a transformar sua atitude.

5.2 Trabalhos Futuros

O escopo do tema trabalhado e muito maior do que o que foi explorado nesse

projeto. Dessa forma e possıvel que muitas frentes de trabalho sejam abordadas a

partir do ponto em que esse trabalho se encerrou. Dentre os caminhos que podem

ser trilhados a partir desse ponto destacam-se:

• Explorar as excecoes ao modelo, de maneira que as atitudes que nao obtiveram

bons resultados possam ser melhor caracterizadas e dessa forma a manipulacao

de sentencas com o objetivo de impor essas atitudes obtenha melhores resul-

tados;

• Incorporar o metodo desenvolvido a sistemas de conversao texto-fala (como por

exemplo a ferramenta contida no sistema SASPRO), de modo que estes possam

fazer a transformacao das atitudes sem que as duas sentencas possuıssem a

mesma estrutura silabica e sem que os mesmos precisem conter um banco de

atitudes praticamente infinito para cobrir todas as combinacoes de atitudes e

estruturas silabicas da lıngua portuguesa;

• Ampliar o numero de atitudes previstas pelo modelo, fazendo assim com que o

modelo possa cobrir um numero maior de emocoes humanas e permitindo que

um sistema TTS possa expressar as suas sentencas de maneira mais natural;

57

Page 71: Universidade Federal do Rio de Janeiro Escola Polit ecnica ...monografias.poli.ufrj.br/monografias/monopoli10005310.pdf · For a text-to-speech (TTS) conversor to produce a signal

Referencias Bibliograficas

[1] LATSCH, V. L., Desenvolvimento de um sistema de conversao texto-fala com

modelagem de prosodia. Tese de doutorado, Universidade Federal do Rio de Ja-

neiro, Rio de Janeiro, Junho 2011.

[2] DUTOIT, T., STYLIANOU, Y., The Oxford Handbook of Computational Lin-

guistics, chapter 17 - Text-to-Speech Synthesis, New York, Oxford University

Press, pp. 323–334, 2005.

[3] SIMOES, F. O., Implementacao de um Sistema de Conversao Texto-Fala para o

Portugues do Brasil. Tese de doutorado, Unicamp, Sao Paulo, Maio 1999.

[4] DE MORAES, J. A., “The Pitch Accents in Brazilian Portuguese: analysis by

synthesis”, Proceedings of the Fourth Conference on Speech Prosody, pp. 389–

398, Maio 2008.

[5] BAILLY, G., HOLM, B., “SFC: A trainable prosodic model”, Speech Commu-

nication, v. 46, pp. 348–364, Abril 2005.

[6] BOERSMA, P., WEENINK, D., “Praat: doing phonetics by computer. Version

5.3.22”, http://www.praat.org/, 2012, (Acesso em 23 Julho 2012) [Programa

Computacional].

58