Download pdf - An Alise de Express Oes Re Ferenc i a Is

Anlise de Expresses Referenciais em Corpus Anotado da Lngua Portuguesa

Sandra Collovini de Abreu

So Leopoldo 2005

UNIVERSIDADE DO VALE DO RIO DOS SINOS CINCIAS EXATAS E TECNOLGICAS

PROGRAMA INTERDISCIPLINAR DE PS-GRADUAO EM COMPUTAO APLICADA PIPCA

Sandra Collovini de Abreu

Anlise de Expresses Referenciais em Corpus Anotado da Lngua Portuguesa

Dissertao de Mestrado submetida a avaliao como

requisito parcial para obteno do grau de Mestre em Computao Aplicada

Orientadora: Prof. Dr. Renata Vieira

So Leopoldo 2005

Dedico este trabalho em memria minha me que infelizmente no pode acompanh-lo, mas pode contribuir muito com o seu exemplo de determinao, amor, f e luta pela realizao de seus sonhos.

Agradecimentos

minha orientadora, Prof. Dr. Renata Vieira, pela dedicao, comprometimento,

confiana e amizade durante todo o Mestrado.

meu grande amor, James, por todo o companheirismo, incentivo, compreenso e

amor. minha sogra Clenir e sogro Joo por todo o apoio.

toda a minha famlia, pelo amor, compreenso, incentivo, em especial a minha irm

ngela, que me acompanhou durante toda esta etapa.

Aos meus colegas do laboratrio de Engenharia da Linguagem, Cssia, Cassiana,

Cludia, Csar, Douglas, Fbio, Leonardo, Rodrigo, Sandro, Vincius, pela amizade e auxlio

no transcorrer deste estudo. Em especial aos colegas Csar, por todo o apoio e pela realizao

da anotao de correferncia no corpus Pblico, e ao Rodrigo pelo auxlio na elaborao das

folhas de estilo.

Aos colegas de Portugal, Ana Margarida Aires pela contribuio no processo de

comparao da classificao manual e automtica e ao Prof. Dr. Paulo Quaresma pelo

acompanhamento e cooperao.

Aos colegas do Mestrado, por todo o companheirismo. Em especial aos colegas

Adriana, Daniela, Gabriela, Letcia, Isa Mara e Rafael Torchelsen, por todos os momentos de

ajuda e incentivo.

Ao corpo docente do PIPCA pela disposio; aos administradores de rede, Fbio e

Antnio pela prestatividade. secretaria Rejane, por todo o auxilio e amizade.

CAPES pelo auxlio financeiro durante o transcorrer do Mestrado e pelo

financiamento do projeto DIRPI de cooperao internacional com Portugal, pela oportunidade

de visitar Universidade de vora e aprofundar os estudos relacionados a este trabalho.

Resumo

A anlise de expresses referenciais fundamental na interpretao do discurso. A

identificao de expresses correferentes importante em diversas aplicaes de

Processamento da Linguagem Natural. Expresses referenciais podem ser usadas para

introduzir entidades em um discurso ou podem fazer referncia a entidades j mencionadas,

podendo fazer uso de reduo lexical, como em: O Eurocenter oferece cursos de Japons na

bela cidade de Kanazawa. Os cursos tm quatro semanas de durao. Onde cursos de

Japons introduz uma nova entidade e os cursos retomam essa entidade. A resoluo de

correferncia o processo de identificar as expresses que se referem mesma entidade no

discurso. As expresses referenciais so analisadas e a existncia de um antecedente textual

verificada. Aquelas que introduzem novos elementos, chamamos novas no discurso.

Esta dissertao apresenta um estudo das caractersticas de um tipo especfico de

expresses referenciais (descries definidas) com o objetivo de identificar automaticamente

expresses novas no discurso em textos da Lngua Portuguesa. Este estudo importante, pois

o nmero de expresses sem antecedentes textuais no discurso tanto na Lngua Inglesa como

na Lngua Portuguesa expressivo.

O estudo das caractersticas baseou-se na literatura e em um estudo de corpus. A partir

destas caractersticas foi construda uma base de dados para o aprendizado automtico de

rvores de deciso. Os melhores resultados da classificao das descries definidas foram

implementados no ambiente ART. Uma anlise dos atributos foi desenvolvida para calcular o

potencial de distino de cada um, destacando-se o atributo tamanho (nmero de palavras

do sintagma nominal) por ser um atributo original e significativo nos experimentos e o

atributo sem antecedente (ncleo da descrio definida uma palavra que no ocorre

anteriormente no texto) por ter um impacto positivo nos resultados.

As rvores de deciso geradas foram avaliadas em um novo corpus, composto por

textos extrados do jornal portugus Pblico. Obtivemos 77% de F-measure para a

identificao de expresses novas no discurso.

Palavras chave: expresses referenciais, classificao automtica de expresses

referenciais, resoluo de correferncia, resoluo de anforas, aprendizado de mquina.

Abstract

The analysis of referring expressions is fundamental to discourse interpretation. The

identification of correfering expressions is an important step in many Natural Language

Processing applications. Referring expressions may introduce new entities in a discourse or

the can refer back to already mentioned entities; they can do it on the basis of simplified

expressions, as in Eurocenter offers Japanese courses in Kanazawa. The courses are four

week long. In this example, the expression Japenese courses introduces a new discourse

entity, whereas the courses refer back to this already mentioned entity.

Correference resolution is the process of identification expressions that refer to the

same entity. Referring expressions are analysed and the existence of a textual antecedent is

verifyed. Those which introduce new discourse entities are considered discourse new in the

discourse.

This dissertation presents a study of a specific type of referring expression (definite

description) with the goal of identifying discourse new expressions in Portuguese texts. This

is an important issue since the number of such expressions without textual antecedents were

found to be significant both in English and Portuguese corpora.

The study of definite description features was based both on the literature and on

corpus studies. A data base for learning decisions trees was constructed. The generated trees

through the learning process were implemented and evaluated in the ART framework.

The features were analysed individually and we found that a new atribute based on the

size of the noun phrase presented interesting results. Another relevant atribute with good

impact in the results is based on the lack of the head noun in the previous text.

The automatically generated trees were evaluated in a new corpus, composed of

European Portuguese texts from the Portuguese newspaper Publico. We had an F-measure of

77% for the identification of discourse new.

Lista de Figuras

FIGURA 2.1 ESTRUTURA DA RVORE DE DECISO............................................................... 27 FIGURA 3.1 ARQUIVO DE WORDS. ....................................................................................... 40 FIGURA 3.2 ARQUIVO DE POS. ........................................................................................... 40 FIGURA 3.3 ARQUIVO DE CHUNKS. ...................................................................................... 40 FIGURA 3.4 ARQUIVO DA ESTRUTURA................................................................................. 42 FIGURA 3.5 ARQUIVO DE MARCAES. ............................................................................... 42 FIGURA 3.6 ARQUITETURA DA FERRAMENTA ART (GOULART, GASPERIN; VIEIRA, 2004)

..................................................................................................................................... 44 FIGURA 3.7 ARQUIVO DE ANAFRICAS ............................................................................... 45 FIGURA 3.8 ARQUIVO DE CANDIDATOS A ANTECEDENTES ................................................... 45 FIGURA 3.9 ARQUIVO DE MARCAES................................................................................ 45 FIGURA 3.10 ARQUIVO NO FORMATO ARFF........................................................................ 46 FIGURA 3.11 ABRANGNCIA ............................................................................................... 48 FIGURA 3.12 PRECISO....................................................................................................... 48 FIGURA 3.13 F-MEASURE.................................................................................................... 49 FIGURA 3.14 TRECHO DO ARQUIVO DE CHUNKS .................................................................. 55 FIGURA 3.15 TRECHO DO ARQUIVO DE CHUNKS .................................................................. 55 FIGURA 3.16 TRECHO DO ARQUIVO DE CHUNKS .................................................................. 56 FIGURA 3.17 METODOLOGIA PROPOSTA.............................................................................. 57 FIGURA 3.18 ARQUIVO DE MARCAES............................................................................... 59 FIGURA 3.19 ARQUIVO DE CHUNKS ..................................................................................... 59 FIGURA 3.20 TRECHO DE UM TEXTO.................................................................................... 59 FIGURA 3.21 LISTA DE DESCRIES DEFINIDAS .................................................................. 59 FIGURA 3.22 TRECHO DO ARQUIVO DE ENTRADA NO FORMATO ARFF ................................ 62 FIGURA 4.1 RVORE DE DECISO COM ATRIBUTOS G1........................................................... 75 FIGURA 4.2 RVORE DE DECISO COM ATRIBUTOS G1 SEM TAM .......................................... 76

Lista de Tabelas

TABELA 2.1 CONFIGURAES DAS DESCRIES DEFINIDAS. ................................................... 25 TABELA 2.2 ALGUMAS CARACTERSTICAS DE TRABALHOS RELACIONADOS. ............................ 36 TABELA 3.1 INFORMAES SOBRE O CORPUS 1.................................................................... 37 TABELA 3.2 INFORMAES SOBRE O CORPUS 2.................................................................... 38 TABELA 4.1 NMERO DE EXEMPLOS DE CADA CLASSE. ........................................................ 67 TABELA 4.2 RESULTADOS DO BASELINE. .............................................................................. 67 TABELA 4.3 EXPERIMENTO 1 COM ATRIBUTOS G1. .............................................................. 68 TABELA 4.4 RESULTADOS DO EXPERIMENTO 1 COM ATRIBUTOS G12. .................................. 68 TABELA 4.5 RESULTADOS DO EXPERIMENTO 1 COM G123 DE ATRIBUTOS. ........................... 69 TABELA 4.6 PERCENTUAL DE ACERTOS DO EXPERIMENTO 1................................................. 69 TABELA 4.7 COMPARAO ENTRE O BASELINE E O EXPERIMENTO 1...................................... 70 TABELA 4.8 NMERO DE EXEMPLOS DE CADA CLASSE. ........................................................ 70 TABELA 4.9 RESULTADOS DO BASELINE. .............................................................................. 70 TABELA 4.10 RESULTADOS DO EXPERIMENTO 2 COM ATRIBUTOS G1. .................................. 71 TABELA 4.11 RESULTADOS DO EXPERIMENTO 2 COM ATRIBUTOS G12. ................................ 71 TABELA 4.12 RESULTADOS DO EXPERIMENTO 2 COM ATRIBUTOS G123. .............................. 72 TABELA 4.13 PERCENTUAL DE ACERTOS DO EXPERIMENTO 2............................................... 72 TABELA 4.14 COMPARAO ENTRE O BASELINE E EXPERIMENTO 2....................................... 73 TABELA 4.15 POTENCIAL DE DISTINO DOS ATRIBUTOS G1 (CF = 0,35) ............................ 74 TABELA 4.16 POTENCIAL DE DISTINO DOS ATRIBUTOS G12 (CF = 0,35). ......................... 74 TABELA 4.17 POTENCIAL DE DISTINO DOS ATRIBUTOS G123 (CF = 0,10) ........................ 74 TABELA 4.18 COMPARAO DO ATRIBUTO TAM ................................................................ 75 TABELA 4.19 POTENCIAL DE DISTINO DOS ATRIBUTOS G1 (CF = 0,35) ............................ 76 TABELA 4.20 POTENCIAL DE DISTINO DOS ATRIBUTOS G12 (CF = 0,35). ......................... 77 TABELA 4.21 POTENCIAL DE DISTINO DOS ATRIBUTOS G123 (CF = 0,35). ....................... 77 TABELA 4.22 PIPES E FILTROS DO EXPERIMENTO 1.............................................................. 78 TABELA 4.23 RESULTADO COMPARATIVO DO EXPERIMENTO 1............................................. 78 TABELA 4.24 PIPES E FILTROS DO EXPERIMENTO 2. ............................................................. 79 TABELA 4.25 RESULTADO COMPARATIVO DO EXPERIMENTO 2............................................. 80 TABELA 4.26 NMERO DE EXEMPLOS POR CLASSE DOS EXPERIMENTOS ............................... 80 TABELA 4.27 RESULTADOS DOS BASELINES DOS EXPERIMENTOS. ......................................... 81 TABELA 4.28 RESULTADO COMPARATIVO DO EXPERIMENTO 1............................................. 81 TABELA 4.29 RESULTADO COMPARATIVO DO EXPERIMENTO 2 .......................................... 82 TABELA 5.1 RESULTADOS DOS TRABALHOS RELACIONADOS. ............................................... 86

Lista de Abreviaturas

AM Aprendizado de Mquina ART Anaphor Resolution Tool IA Inteligncia Artificial MMAX Multi-Modal Annotation in XML NILC Ncleo Interinstitucional de Lingstica

Computacional PLN Processamento de Linguagem Natural POS Part of Speech RI Recuperao de Informao SCT Sistema de Categorizao de Textos Weka Waikato Environment for Knowledge Analysis XML eXtensible Markup Language XSL eXtensible Stylesheet Language

Sumrio

1. Introduo .................................................................................................................. 14 1.1 Objetivos .............................................................................................................. 15 1.1.1 Objetivo Geral .................................................................................................. 15 1.1.2 Objetivos Especficos ....................................................................................... 15 1.2 Organizao do Texto........................................................................................... 16

2. Reviso bibliogrfica.................................................................................................. 18 2.1 Expresses Referenciais: Sintagmas Nominais e Descries Definidas ................. 18 2.2 Correferncia e Anfora ....................................................................................... 19 2.3 Classificao das descries definidas .................................................................. 21 2.4 Estudo das caractersticas das descries definidas ............................................... 22 2.4.1 Partes fundamentais das descries definidas.................................................... 23 2.4.2 Os complementos das descries definidas ....................................................... 23 2.5 rvores de Deciso............................................................................................... 25 2.6 Trabalhos Relacionados........................................................................................ 29 2.7 Consideraes Finais ............................................................................................ 35

3. Materiais e Mtodos ................................................................................................... 37 3.1 Descrio do Corpus............................................................................................. 37 3.2 PALAVRAS e Xtractor ........................................................................................ 39 3.3 MMAX ................................................................................................................ 41 3.4 ART ..................................................................................................................... 43 3.5 Weka.................................................................................................................... 45 3.6 Avaliao ............................................................................................................. 47 3.7 Grupos de Caractersticas das descries definidas ............................................... 49 3.8 Identificao Automtica das Caractersticas no Corpus ....................................... 54 3.9 Processo de Aprendizado...................................................................................... 57 3.9.1 Coleta da Base .................................................................................................. 57 3.9.2 Pr-processamento............................................................................................ 57 3.9.3 Classificao..................................................................................................... 61 3.10 Implementao no Ambiente ART........................................................................ 62 3.11 Consideraes Finais ............................................................................................ 63

4. Resultados................................................................................................................... 66 4.1 Gerao de rvores de Deciso ............................................................................ 66 4.1.1 Experimento 1 novas no discurso (Weka) ...................................................... 67 2.1.2 Experimento 2 no correferentes (Weka) ....................................................... 70 4.1.3 Potencial de Distino das Caractersticas......................................................... 73 4.2 Avaliao das rvores no Ambiente ART ............................................................ 77 4.2.1 Avaliao das Caractersticas em um novo corpus ............................................ 80 4.3 Consideraes finais ............................................................................................. 82

5. Concluses e Trabalhos Futuros................................................................................ 84

Referncias ......................................................................................................................... 87 APNDICE A Folhas de Estilo XSL .............................................................................. 92 APNDICE B rvores de Deciso ............................................................................... 101

14

1. Introduo

Em sistemas de Processamento de Linguagem Natural (PLN), a anlise de expresses

referenciais um componente fundamental na interpretao do sentido do texto. A resoluo

de correferncia constitui do ponto de vista do processamento computacional, um problema

difcil, devido complexidade do fenmeno lingstico e por isso motiva inmeras pesquisas.

O processo de resoluo de correferncia busca identificar expresses lingsticas que

se referem mesma entidade (correferentes). Para exemplificar, segue o trecho de um texto,

onde as expresses correferentes esto destacadas.

O advogado de Castor de Andrade, Nlio Machado, afirmou que vai aguardar a

evoluo dos fatos para se pronunciar. O advogado disse desconhecer a existncia de

documentos que demonstrariam o pagamento de propinas a autoridades policiais.

A identificao de expresses correferentes importante em diversas aplicaes de

PLN, como, por exemplo, em sumarizao automtica, extrao de informao, recuperao

de informao, traduo automtica, classificao de textos, entre outros.

Este estudo trata de expresses referenciais em textos da Lngua Portuguesa,

especificamente de descries definidas. Chamamos descries definidas os sintagmas

nominais iniciados por artigo definido (o, a, os, as). As descries definidas so estudadas

extensivamente pela lingstica, filosofia, psicologia e lingstica computacional (VIEIRA,

1998). Alm disso, trabalha-se com descries definidas pelo fato de ocorrerem em grande

quantidade nos textos. Tambm, existem vrios trabalhos sobre resoluo de anforas

pronominais, contudo existem poucos trabalhos que abordam a resoluo anafrica das

descries definidas para a Lngua Portuguesa.

15

Estudos anteriores (VIEIRA; GASPERIN; GOULART, 2003) mostram que as

descries definidas em textos jornalsticos possuem um antecedente textual em apenas 50%

dos casos. Esse fato aliado complexidade da tarefa de encontrar um antecedente para

resoluo de correferncia estimula a comunidade a propor como parte do processo de

resoluo, a identificao de descries definidas novas no discurso (MCCARTHY,

LEHNERT, 1995; BEAN, RILOFF, 1999; CARDIE; WAGSTAFF,1999; VIEIRA, POESIO,

2000; (SOON; NG; LIM, 2001; MULLER; RAPP; STRUBE, 2002; NG, CARDIE, 2002a,

2002b; STRUBE; RAPP; MULLER, 20002; URYUPINA, 2003; POESIO et al., 2005). Todos

esses trabalhos so estudos da Lngua Inglesa. Nessa dissertao realizamos um estudo

detalhado das expresses referenciais definidas da Lngua Portuguesa e das suas

caractersticas para a identificao daquelas que no possuem um antecedente textual.

1.1 Objetivos

1.1.1 Objetivo Geral Este trabalho tem como objetivo geral o estudo de caractersticas das descries

definidas em textos da Lngua Portuguesa para a sua classificao como expresses novas no

discurso. Para isso, uma anlise das ocorrncias de descries definidas em textos da Lngua

Portuguesa realizada. A abordagem de Aprendizado de Mquina Supervisionado (rvores de

deciso) para a avaliao das caractersticas relevantes utilizada. Por fim, uma anlise das

rvores de deciso geradas realizada para posterior implementao no ambiente ART.

1.1.2 Objetivos Especficos

Estudo das descries definidas nos textos da Lngua Portuguesa, com base em

corpus anotado com relaes de correferncia;

16

Levantamento de caractersticas para a classificao das descries definidas como

expresses novas no discurso (no possuem um antecedente textual) ou outra (possuem um

antecedente textual) com base no estudo de corpus e na literatura disponvel para a Lngua

Inglesa (MCCARTHY, LEHNERT, 1995; BEAN, RILOFF, 1999; CARDIE,

WAGSTAFF,1999; VIEIRA, POESIO, 2000; SOON; NG; LIM, 2001; MULLER; RAPP;

STRUBE, 2002; NG, CARDIE, 2002a; NG, CARDIE, 2002b; STRUBE et al, 20002;

URYUPINA, 2003; POESIO et al., 2005);

Construo da base de dados para o aprendizado automtico, com base nas

caractersticas identificadas que serviro de atributos para as rvores de deciso;

Gerao e anlise de rvores de deciso para a investigao dos atributos

relevantes na classificao binria das descries definidas como nova no discurso e outra;

Implementao das rvores de deciso no ambiente ART (GOULART;

GASPERIN; VIEIRA, 2004);

Avaliao final das rvores de deciso implementadas no ambiente ART com um

novo corpus.

1.2 Organizao do Texto

Esta dissertao est organizada da seguinte forma. No captulo 2, dada uma

introduo aos conceitos importantes relacionados a esse trabalho. Um estudo inicial das

descries definidas apresentado. Aps, uma viso geral de rvores de Deciso mostrada.

Por fim, os trabalhos relacionados.

O captulo 3 apresenta uma viso geral dos materiais e mtodos da pesquisa: corpus e

ferramentas, alm das medidas de avaliao que sero utilizadas nos experimentos. Uma

anlise detalhada das caractersticas morfossintticas das descries definidas do corpus

anotado mostrada. Aps, o processo para a identificao automtica das caractersticas para

17

gerao da base de dados do aprendizado, utilizando a linguagem XSL abordado. Por fim, o

processo de aprendizado com rvores de deciso e as etapas para a implementao das rvores

de deciso no ambiente ART so apresentados.

No captulo 4, so apresentados os resultados da gerao das rvores e posterior

implementao das mesmas no Ambiente ART. A avaliao dos experimentos no ambiente

ART com um novo corpus mostrada.

Por fim, no captulo 5 so apresentadas as concluses e uma discusso sobre os

trabalhos futuros.

18

2. Reviso bibliogrfica

O objetivo deste captulo abordar conceitos importantes das reas de lingstica e

computao relacionados dissertao.

Com base na literatura, apresentado o conceito de descries definidas, as estruturas

de interesse deste trabalho, assim como as configuraes possveis que estas podem adotar.

Alm disso, exposta a classificao das descries definidas empregada neste trabalho. Um

estudo das caractersticas das descries definidas usadas na classificao apresentado. Este

captulo tambm aborda rvores de Deciso. Os principais trabalhos relacionados que

contriburam para este estudo so referenciados.

2.1 Expresses Referenciais: Sintagmas Nominais e Descries Definidas

Um sintagma uma palavra ou um conjunto de palavras, que constituem uma unidade

significativa dentro da sentena (BONINI, 2002, KOCH, 2003; MACAMBIRA, 1990).

Os sintagmas desempenham diferentes funes na sentena e combinam-se em torno

de um ncleo. o ncleo que denomina o sintagma. O sintagma pode ser nominal (ncleo

nome ou pronome), verbal (ncleo verbo), preposicional (ncleo preposio), adjetival

(ncleo adjetivo) e adverbial (ncleo advrbio). Os sintagmas nominais so as expresses

lingsticas utilizadas para referenciar entidades em um discurso.

No caso do sintagma nominal, o ncleo pode configurar-se em nome comum/prprio

ou pronome: pessoal, demonstrativo, indefinido, possessivo entre outros. O sintagma nominal

pode apresentar ainda determinantes e/ou modificadores. Os determinantes antecedem o

ncleo, podendo ser artigos definidos (o, a, os e as), indefinidos (um, uma, uns, umas),

pronomes possessivos (meu, minha, seu, teu etc) entre outros. Os modificadores antecedem

19

ou sucedem o ncleo. Por exemplo, em as acusaes, observa-se um sintagma nominal

constitudo por um determinante, na forma de artigo definido (as), e um ncleo, na forma de

substantivo (acusaes). J em as acusaes contra policiais, h o mesmo sintagma

nominal do exemplo anterior, s que agora modificado pelo sintagma preposicional (contra

policiais).

Dentre as vrias configuraes de sintagmas nominais, observaremos as descries

definidas, foco de nosso trabalho. Muitos lingistas chamam a ateno para uma estrutura

bastante complexa das descries definidas em Lngua Portuguesa (KOCH, 2000; FVERO,

1997; VILELA, KOCH, 2001; KOCH, TRAVAGLIA, 2002; MACAMBIRA, 1990;

HAUSSER, 1999; JURAFSKY, MARTIN, 2000).

Dessa forma, as descries definidas podem ser constitudas por uma extensa e

varivel seqncia de termos (BONINI, 2002, KOCH, TRAVAGLIA, 1996; ZUMTHOR,

2000). As possibilidades de estruturaes de descries definidas que acreditamos serem

importantes distino de expresses novas no discurso e outra sero vistas na seo 2.4;

porm, antes, so apresentados conceitos sobre correferncia e anfora.

2.2 Correferncia e Anfora

Os conceitos de correferncia e anfora so similares, com pequenas diferenas.

Expresses correferentes fazem referncia mesma entidade, enquanto expresses anafricas

podem retomar uma referncia anterior (nesse caso, correferentes) ou podem ativar um novo

referente cuja interpretao dependente de outras expresses referenciais anteriormente

presentes do texto (nesse caso, no correferentes).

Geralmente uma expresso correferente anafrica, mas nem sempre uma expresso

anafrica correferente, veja o exemplo:

20

O Eurocenter oferece cursos de Japons na bela cidade de Kanazawa. Os cursos tm

quatro semanas de durao. As aulas do nvel avanado incluem refeies tpicas e passeios

a pontos tursticos.

No exemplo acima, a expresso Os cursos retoma a expresso anterior cursos de

Japons, ou seja, as duas expresses referenciais fazem meno mesma entidade, portanto

duas expresses correferenciais e anafricas. Porm, expresses anafricas no precisam ser

necessariamente correferentes, por exemplo, a expresso As aulas do nvel avanado no

correferente a nenhum termo anterior, mas apresenta parte do seu significado apoiado na

expresso cursos de Japons, portanto trata-se de uma expresso no correferente e

anafrica.

Na maioria das vezes, uma expresso anafrica ou correferente manifesta-se como um

pronome ou uma descrio definida1 ou demonstrativa2 (FVERO, KOCH, 1994; KOCK,

2000). Porm, ao contrrio dos pronomes e das descries demonstrativas, estudos de corpus

da Lngua Inglesa (VIEIRA, 1998) e Portuguesa (SALMON-ALT, VIEIRA, 2002; VIEIRA;

SALMON-ALT; SCHANG, 2002; VIEIRA et al., 2002; VIEIRA; GASPERIN; GOULART,

2003) mostram que 50% das descries definidas no possuem um antecedente textual. Esse

dado chama a ateno para a necessidade da elaborao de uma estratgia de resoluo de

anforas ou correferncia que seja composta por uma etapa que identifique as expresses

novas no discurso a fim de que as operaes de verificao de antecedentes ocorram

exclusivamente nas expresses anafricas ou correferentes.

Com o objetivo de contribuir para essa etapa de classificao, foram analisadas

caractersticas que predominantemente se manifestariam em expresses novas no discurso

(seo 3.7). Porm, antes de prosseguir, para uma boa compreenso deste estudo de

1 Grupo de palavras que inicia por artigo definido e possui ncleo nome (e.g. o parecer, a resoluo final).

2 Grupo de palavras que inicia por pronome demonstrativo e possui ncleo nome (e.g. essa resoluo).

21

caractersticas; as possveis classificaes das descries definidas sero apresentadas a

seguir.

2.3 Classificao das descries definidas

Em Vieira (1998), encontra-se uma diviso das descries definidas em quatro

categorias, dependendo da forma que esto relacionadas com os seus antecedentes:

1. Anafricas Diretas: so antecedidas por uma expresso que possui o mesmo

nome-ncleo e refere-se mesma entidade no discurso. Por exemplo:

As listas apontam quase todas as divises e departamentos da Polcia Civil. Alguns

delegados da Polcia Federal tambm so citados nas listas.

2. Anafricas Indiretas: so antecedidas por uma expresso que no tm o mesmo

nome-ncleo do seu antecedente, mas referem-se mesma entidade j introduzida no

discurso. Assim, o ncleo pode ser um sinnimo do antecedente ou mesmo uma elipse. Por

exemplo:

A Folha de So Paulo apresentou as listas apreendidas na operao contra o crime

organizado. O jornal tentou ouvir o delegado encarregado.

3. Anafricas Associativas: possuem um antecedente textual no correferente. Assim,

a descrio definida tem seu significado ancorado em uma outra entidade. Por exemplo:

A Folha de So Paulo apresentou as listas apreendidas na operao contra o crime

organizado. O jornal tentou ouvir o delegado encarregado.

4. Novas no discurso: so aquelas que introduzem um novo referente no texto e no

possuem uma ncora para se apoiar semanticamente. Por exemplo:

O quilmetro 430 da rodovia Assis Chateau Briand ontem foi cenrio da campanha

de segurana no trnsito.

22

Cabe ressaltar que as expresses anafricas diretas e indiretas so expresses

correferentes, pois se referem mesma entidade. J as expresses anafricas associativas no

so correferentes, pois apesar de possurem uma relao semntica com seus antecedentes, o

antecedente no referencia a mesma entidade. As expresses novas no discurso no so

correferentes, pois a primeira manifestao das expresses no discurso.

A seguir, apresentamos o estudo de caractersticas das descries definidas novas no

discurso.

2.4 Estudo das caractersticas das descries definidas

Na literatura encontramos vrias propostas que levam em considerao a estrutura

sinttica; aspectos lexicais; semnticos; posicionais; de contexto; entre outras caractersticas

para classificar as descries definidas, conforme apresentado em (MCCARTHY,

LEHNERT, 1995; BEAN, RILOFF, 1999; CARDIE,WAGSTAFF,1999; VIEIRA, POESIO,

2000; SOON; NG; LIM, 2001; MULLER; RAPP; STRUBE, 2002; NG, CARDIE, 2002a;

NG, CARDIE, 2002b; URYUPINA, 2003; POESIO et al., 2005).

Um resumo destes trabalhos apresentado na seo 2.6. Muitos desses trabalhos

referem-se estrutura do sintagma como caracterstica relevante. Um estudo de corpus foi

realizado para verificar a presena destas e de outras caractersticas (seo 3.7).

Quanto ao aspecto estrutural, importante discriminar caractersticas que so comuns,

e por isso presentes em todas as descries definidas, das que so adicionais, e que, em alguns

casos, podem sinalizar expresses novas no discurso. Nesse sentido, nosso olhar concentra-se

em dois blocos distintos de elementos estruturais das descries definidas: as partes

fundamentais e os complementos.

23

2.4.1 Partes fundamentais das descries definidas

Uma descrio definida fundamentalmente composta por duas classes de palavras:

Artigo definido: palavra que acompanha o substantivo, determinando-o de forma

definida.

Na Lngua Portuguesa os artigos definidos so: o, a, os e as.

Nome (substantivo): palavra que designa os seres/objetos reais ou imaginrios. O

nome pode ser comum (referncia genrica a um ser/objeto) ou prprio (referncia especfica

a um ser/objeto, identificando este entre todos os outros seres/objetos de uma espcie).

O ncleo nome pode ser formado por um ou mais nomes. Nos casos da presena na

estrutura sinttica de um nico nome, ele denominado simples; caso contrrio, ele ser

denominado composto.

Alm disso, na composio das descries definidas, com exceo dos artigos

definidos, que assumem a posio primeira no sintagma, os nomes, apesar de centrais, no

ocupam uma posio fixa, pois, para referenciao, por vezes, vrios elementos

complementadores so necessrios, ora precedendo os nomes ora antecedendo os nomes.

2.4.2 Os complementos das descries definidas

Os elementos complementares das descries definidas tambm so mencionados na

literatura como elementos modificadores. Na construo das descries definidas, elementos

que se somam aos nomes so:

Aposto: um ou mais termos que se referem a um substantivo ou pronome

explicando-o.

O aposto pode localizar-se entre vrgulas ou travesses ou vir depois de dois-pontos3.

Para exemplificar, segue a descrio definida:

3 No corpus comum a presena desse tipo de construo sem o uso de travesses ou entre vrgulas.

24

O bicheiro, Castor de Andrade,.

Sintagma preposicional: sintagma que possui como ncleo uma preposio,

palavra invarivel que liga/relaciona dois termos (palavras e oraes), indicando origem,

posse, finalidade, meio, causa etc.

Nessa relao, um termo vai explicar ou completar o sentido do outro. Para

exemplificar, segue a descrio definida:

A data da reforma.

Sintagma adjetival: sintagma que possui como ncleo um adjetivo (palavra que

especifica e caracteriza seres/objetos atribuindo-lhes estados ou qualidades).

O sintagma adjetival tambm pode apresentar intensificador (palavra que modifica um

verbo, um adjetivo ou outro advrbio, indicando uma circunstncia). Para exemplificar,

seguem as descries definidas:

A literatura infantil.

As democracias mais fortes.

Clusula relativa: so oraes que funcionam como sintagmas adjetivais e

apresentam-se encaixadas na posio de modificador do nome. Por exemplo:

O sistema que fiscalizava o Inamps".

Podemos dizer, ento, que as descries definidas possuem um conjunto de

configuraes conforme Tab. 2.1, seguindo a legenda abaixo:

Legenda:

AD: artigo definido; N: nome; SA: sintagma adjetival; SP: sintagma preposicional; REL: clusula relativa; PRONP: pronome possessivo; INT: intensificador; APO: aposto.

25

Tabela 2.1 Configuraes das descries definidas.

Configuraes Exemplos AD + N A humanidade.

AD + N + SA A vista ocidental.

AD + SA + N Os grandes clientes.

AD + SA + N + SA As antigas casas medievais.

AD + NOME + SP O artefato de lentes. AD + PRONP + N + SP O meu amigo de infncia. AD + PRONP + N + SA A nossa proposta ambiental.

AD + PRONP + SA + N + SA As nossas grandes faanhas administrativas. AD + SA + N + SP A antiga cidade de Kanazawa.

AD + N + INT + SA + SP Os momentos mais difceis de minha carreira. AD + N + REL O comunicado que deve ser assinado pelos jornalistas. AD + SA + N + SP + REL As grandes deficincias da gesto financeira que recentemente provocou

pela primeira vez na histria do clube atraso no pagamento dos jogadores. AD + N + SP + REL O texto do comunicado que deve ser assinado hoje. AD + N + APO O ex-deputado, Agnaldo Timteo,

AD + N + SP + APO O diretor do Departamento de Polcia do Interior, delegado Mrio Covas,

AD + N + REL + OPO O delegado que acusado pelo departamento, lson Campelo, AD + N + INT + SA + REL +

APO

O deputado muito disposto que iniciara as investigaes, Emir Laranjeira,

2.5 rvores de Deciso O Aprendizado de Mquina (AM) uma sub-rea de pesquisa em Inteligncia

Artificial (IA) relacionada capacidade de aprender ser essencial para um comportamento

inteligente. O objetivo principal de AM encontrar mtodos computacionais baseados em

operaes lgicas ou binrias capazes de aprender uma tarefa a partir de um conjunto de

exemplos. Neste sentido, o AM estuda mtodos computacionais para adquirir novos

conhecimentos, novas habilidades e novos meios de organizar o conhecimento j existente

(MITCHELL, 1997). O estudo de tcnicas de aprendizado baseado em computador tambm

pode fornecer um melhor entendimento do prprio raciocnio.

26

A induo a forma de inferncia lgica que permite obter concluses genricas sobre

um conjunto particular de exemplos, a qual se caracteriza pelo raciocnio a partir de um

conceito especfico e generalizado, ou seja, da parte para o todo. Sendo assim, na induo um

conceito aprendido efetuando-se inferncia indutiva sobre os exemplos apresentados

(MONARD, BARANAUSKAS, 2003).

O aprendizado indutivo pode ser dividido em supervisionado e no-supervisionado.

No aprendizado supervisionado fornecido ao algoritmo de aprendizado, um conjunto de

exemplos de treinamento para os quais o rtulo da classe associada conhecido. Um rtulo

descreve o fenmeno de interesse, isto , o conceito-meta que se deseja aprender para fazer

previses a respeito.

No aprendizado supervisionado, geralmente cada exemplo descrito por um vetor de

valores de caractersticas ou de aspectos do exemplo, esses conhecidos como atributos, e pelo

rtulo da classe associada. Tem-se como objetivo do algoritmo de induo, construir um

classificador que seja capaz de determinar corretamente a classe de novos exemplos que ainda

no possuam rtulo da classe. Sendo que, para rtulos de classe discretos, esse problema

conhecido como Classificao e para valores contnuos como Regresso.

Dentro da rea de Aprendizado de Mquina foram propostos vrios paradigmas

capazes de aprender a partir de um conjunto de exemplos, constituindo-se de paradigmas

simblico, estatstico, conexionista, evolutivo, baseado em casos (MONARD,

BARANAUSKAS, 2003). No contexto desse trabalho, ser abordado o paradigma simblico,

no qual os sistemas objetivam aprender constituindo representaes simblicas de um

conceito por meio da anlise de exemplos e contra-exemplos desse conceito. Dentre as

representaes simblicas, ser utilizada a representao por rvores de deciso para a

classificao de entidades novas no discurso. Adotamos rvores de deciso, pois so

geralmente utilizadas para esse tipo de tarefa, conforme podemos observar na literatura da

27

AATTRRIIBBUUTTOO

CCLLAASSSSEE 11

XX11 XX22

CCLLAASSSSEE 22

rea. Alm disso, o mtodo adequado para a anlise da relevncia das caractersticas que

um dos nossos objetivos principais.

Uma rvore de deciso capaz de prever a classe de um exemplo baseada em decises

realizadas sobre os atributos que descrevem esse exemplo (AMADO, 2001). Neste contexto,

uma rvore de deciso uma forma simples de representao, que classifica exemplos de uma

base de dados em um nmero finito de classes, tendo a seguinte estrutura:

FIGURA 2.1 Estrutura da rvore de Deciso.

Na FIGURA 2.1 cada nodo representa um atributo da base de dados. Cada galho

representa um valor do atributo. Cada nodo folha representa uma classe. Alm dessa estrutura,

as rvores de deciso possuem algumas caractersticas, tais como:

Representam uma srie de perguntas em relao aos atributos do domnio;

Um objeto classificado seguindo o caminho do nodo raiz at o nodo folha,

enquanto as suas caractersticas satisfazem as ligaes.

As rvores de deciso so baseadas no uso de um algoritmo de particionamento

recursivo, tais como ID3 (QUINLAN, 1986), C4.5 (QUINLAN, 1993) e CART (BREIMAN

et al., 1984). Esses realizam uma busca em um espao de hipteses completo e possuem um

vis indutivo em direo a rvores de tamanho reduzido, baseando-se na abordagem: dividir

para conquistar.

Nesses algoritmos, a induo da rvore baseia-se na diviso recursiva do conjunto de

exemplos de treinamento em subconjuntos mais representativos, ou seja, dividir o conjunto de

28

treinamento at todos os subconjuntos conterem exemplos que pertencem a apenas uma

classe. As divises do conjunto de treinamento so realizadas com base nos valores possveis

de um dos atributos que descrevem os exemplos. A cada diviso associado um nodo na

rvore que representa o teste realizado aos valores do atributo que deu origem diviso.

Quando todos os exemplos de um conjunto pertencem mesma classe, esse associado a uma

folha na rvore que representa a classe dos exemplos.

O tamanho e a preciso das rvores de deciso construdas por este processo depende

da escolha dos atributos utilizados para a diviso do conjunto de treinamento, sendo o critrio

mais utilizado, para escolher o atributo que particiona o conjunto de exemplos em cada

iterao, a mtrica de ganho de informao4. Um bom critrio de escolha de atributos

fundamental, uma vez que uma m escolha de um atributo pode fragmentar o conjunto de

treinamento e reduzir a preciso.

Uma outra questo a ser considerada na construo das rvores de deciso a

simplificao, uma vez que o mtodo descrito para a construo das rvores de deciso resulta

em rvores perfeitamente ajustadas ao conjunto de exemplos utilizados na sua construo, ou

seja, ocorre uma superestimativa dos dados (overfitting5). Para tentar solucionar o problema

de superajuste dos dados, utilizam-se dois mtodos de simplificao das rvores de deciso:

O primeiro mtodo consiste em utilizar um determinado critrio para verificar se,

antes de realizar a diviso dos exemplos num nodo, a diviso relevante para a

classificao final. Caso no o seja, esta no realizada e a explorao do galho da

rvore terminada.

4 O ganho de informao uma medida que indica a reduo esperada na entropia de um conjunto de dados,

causada pelo particionamento dos exemplos em relao a um dado atributo. 5 Overfitting ocorre quando ao induzir, a partir de exemplos disponveis, a hiptese muito especfica para o

conjunto de treinamento utilizado, ou seja, a hiptese ajusta-se em excesso ao conjunto de treinamento.

29

O segundo mtodo, muitas vezes denominado poda, aplicado aps a construo

da rvore. Cada nodo da rvore visitado e os galhos que no contriburem

significativamente para a classificao so simplificados.

As rvores de deciso podem ser representadas tambm por conjuntos de regras if-

then, por serem estas mais legveis. Cada regra representa um possvel caminho a ser

percorrido desde a raiz at uma folha, onde o resultado da classificao especificado.

Nesse trabalho, as rvores de deciso sero aplicadas na investigao de quais

atributos so mais relevantes para a classificao das descries definidas como novas no

discurso, com base no corpus anotado manualmente.

Uma vez apresentados os conceitos sobre rvores de deciso, na seqncia,

apresentaremos alguns trabalhos relacionados que utilizam esses conceitos e contriburam

para a dissertao.

2.6 Trabalhos Relacionados

Nesta seo so apresentados alguns trabalhos relacionados sobre resoluo de

correferncia de sintagmas nominais, focalizando as caractersticas tanto sintticas como

semnticas dos sintagmas nominais, utilizadas no processo de resoluo de anforas.

Muitas aplicaes em PLN requerem a resoluo de anforas de sintagmas nominais,

sendo necessrios meios para determinar quais sintagmas nominais em um texto ou em um

dilogo referem-se mesma entidade real do mundo.

A maioria dos algoritmos que tratam resoluo de anforas de sintagmas nominais

combina caractersticas sintticas e semnticas, com o intuito de desenvolver sistemas

robustos. A seguir, sero descritos alguns trabalhos relacionados resoluo de anforas e

uma viso geral das caractersticas que eles apresentam.

30

Aone e Bennett (1995) descrevem um sistema de resoluo de anfora que abrange

tipos de anforas (descries definidas, pronominais etc.) que podem ser definidos a partir da

necessidade do usurio. Para a realizao dos experimentos, um conjunto de artigos

jornalsticos em japons foi usado como exemplos de treinamento para o algoritmo de

aprendizado de mquina de rvores de deciso C4.5 (QUINLAN, 1993). Para isso, Aone e

Bennett utilizaram 66 caractersticas, dentre as quais esto as caractersticas morfolgicas,

sintticas, semnticas e posicionais. Essas caractersticas podem ser caractersticas unrias6 ou

caractersticas binrias7.

Em Mccarthy e Lehnert (1995) a resoluo de anforas apresentada como um

problema dos Sistemas de Extrao de Informao, que necessitam identificar informaes de

interesse em uma coleo de textos, onde as entidades envolvidas so referenciadas em

lugares diferentes e em caminhos diferentes. Esse problema pode ser reformulado como um

problema de classificao: dado dois referentes, eles apontam para os mesmos objetos ou para

objetos diferentes. Neste sentido, Mccarthy e Lehnert apresentaram uma nova abordagem para

resoluo de correferncia (Sistema RESOLVE): a construo de rvores de deciso que

classificam pares de sintagmas nominais como correferentes ou no correferentes. Mccarthy e

Lehnert relatam o uso de oito caractersticas para essa tarefa de classificao de correferncia,

dentre essas caractersticas temos a presena de um nome prprio e a presena de um

sintagma nominal comum em um par de referentes.

Bean e Riloff (1999) desenvolveram um algoritmo baseado em corpus para identificar

automaticamente sintagmas nominais definidos no-anafricos que possuem potencial para

melhorar a eficincia e a preciso de sistemas de resoluo de correferncia. Bean e Riloff

classificaram os sintagmas nominais definidos utilizando a seguinte taxonomia: sintagmas

nominais referentes que possuem um referente anterior nos textos (antecedente), e sintagmas

6 Caracterstica de uma anfora ou de um antecedente.

7 Caracterstica que diz respeito s relaes entre os pares de anforas e de antecedentes.

31

nominais existenciais8 que no possuem um referente anterior nos textos (antecedente). Aps,

os sintagmas nominais foram classificados em duas categorias: independentes9 e

associativos10. O objetivo de Bean e Riloff construir um sistema para identificar os

sintagmas nominais existenciais independentes automaticamente. Para isso, observaram-se as

caractersticas de existencialismo dos sintagmas nominais definidos a partir da sintaxe e da

semntica. Desta forma, foi construdo um conjunto de heursticas sintticas que procuram

pistas (cues) estruturais de pr-modificadores restritivos e ps-modificadores restritivos.

Em Cardie e Wagstaff (1999) um novo algoritmo no supervisionado para resoluo

de correferncia de sintagmas nominais apresentado. A resoluo de correferncia tratada

como uma tarefa de agrupamento11. Cardie e Wagstaff utilizaram onze caractersticas para

particionar os sintagmas nominais simples12, que foram obtidas automaticamente sem

qualquer etiquetagem manual. Dentre essas caractersticas verificou-se, por exemplo, o tipo

de artigo (definido, indefinido, nenhum); o tipo de pronome (possessivo, ambguo, nominal);

o gnero (masculino, feminino, neutro, outro); entre outras.

Em Vieira e Poesio (2000) apresentado um sistema para o processamento de

descries definidas independente de domnio, que est fundamentado em experimentos

baseados em corpus. O sistema foi implementado e testado com idias de diferentes usos das

descries definidas e observou-se a predominncia de descries novas no discurso em

corpus jornalsticos na Lngua Inglesa. Vieira e Poesio detalham um estudo sobre as

descries definidas na Lngua Inglesa, utilizando a classificao dos usos de descries

8 Um sintagma nominal definido existencial, quando especifica completamente uma representao cognitiva da

entidade na mente do leitor, por exemplo, O F.B.I.. 9 Sintagmas nominais existenciais independentes so entendidos isoladamente pelo leitor, sem a necessidade de

um contexto. 10

Sintagmas nominais existenciais associativos so inerentemente associados a um evento, ao, objeto ou outro contexto, para o entendimento do leitor. 11 Agrupamento um mtodo de descoberta de conhecimento utilizado para identificar co-relacionamentos e associaes entre objetos, facilitando assim a identificao de classes. 12

Sintagmas nominais simples que no contm nenhum outro sintagma nominal menor dentro dele.

32

definidas13 abordadas nos experimentos de Vieira (1998). E assim, foram desenvolvidos trs

diferentes conjuntos de heursticas para:

1. Resolver descries diretamente anafricas;

2. Identificar descries novas no discurso;

3. Identificar uma ncora da descrio associativa e a relao semntica entre a

descrio associativa e a sua ncora.

Soon; Ng; Lim (2001) apresenta uma abordagem de aprendizado para resoluo de

correferncia de sintagmas nominais em textos do MUC-614 (MUC-6, 1995) e do MUC-7

(MUC-7, 1997). A abordagem utiliza, para o aprendizado, um corpus pequeno anotado e a sua

tarefa determinar relaes de correferncia entre elementos textuais, como por exemplo,

sintagmas nominais definidos, sintagmas nominais demonstrativos, nomes prprios, apostos.

Soon; Ng; Lim relatam o uso de doze caractersticas para verificar se duas entidades so ou

no correferentes (antecedente em potencial e anafrica). Dentre as caractersticas temos a

verificao se o antecedente em potencial e o anafrico so pronomes (reflexivos, pessoais,

possessivos); verificao se o antecedente em potencial e o anafrico so nomes prprios;

identificao do tipo de sintagma nominal (definido, demonstrativo); verificao de

construes de aposto; verificao de flexo de nmero (plural, singular) e de gnero

(feminino e masculino); entre outras.

Ng e Cardie (2002a) relatam um mtodo de aprendizado supervisionado para a

identificao de sintagmas nominais anafricos e no anafricos e mostram como podem ser

incorporadas tais informaes em um sistema de resoluo de correferncia. Para isso, Ng e

Cardie construram um classificador para a determinao da anaforicidade, utilizando o

sistema de induo de rvore de deciso C4.5 (QUINLAN,1993), onde cada exemplo de

treinamento representa um nico sintagma nominal e consiste de 37 caractersticas que so

13 As descries definidas esto divididas em trs categorias (anforas diretas, novas no discurso e associativas),

dependendo da forma que esto relacionadas com os seus antecedentes. 14

MUC: Conferncias organizadas em forma de competio para apresentao de sistemas.

33

potencialmente teis para distinguir entre sintagmas nominais anafricos e no anafricos.

Lingisticamente, essas caractersticas podem ser divididas em quatro grupos: lxico,

gramatical, semntico e posicional.

Em Ng e Cardie (2002b) apresenta-se um sistema de correferncia de sintagmas

nominais que estende o trabalho de Soon; Ng; Lim (2001) e produz melhores resultados para

o conjunto de dados de resoluo de correferncia do MUC-6 (MUC-6, 1995) e do MUC-7

(MUC-7, 1997). Ng e Cardie, ento, estenderam o conjunto de caractersticas de Soon; Ng;

Lim (2001) de 12 caractersticas para um conjunto mais amplo de 53 caractersticas, sendo

caractersticas lxicas, semnticas, e baseadas em conhecimento; alm de 26 caractersticas

gramaticais que incluem uma variedade de restries lingsticas e preferncias.

Em Muller; Rapp; Strube (2002) relata-se a realizao de alguns experimentos com o

algoritmo de Aprendizado de Mquina Supervisionado Co-treinamento15. Com o intuito de

verificar se o algoritmo de Co-Treinamento pode reduzir significativamente a quantidade de

trabalho manual de etiquetagem e ainda produzir um classificador com um desempenho

aceitvel. Para isso, utilizou-se um corpus com 250 textos em alemo sobre locais tursticos,

eventos histricos e pessoas em Heidelberg. As caractersticas utilizadas por Muller; Rapp;

Strube foram consideradas como independentes do domnio, distinguiu-se entre as

caractersticas atribudas a sintagmas nominais, tais como funo gramatical do antecedente e

do anafrico, e as caractersticas atribudas relao de correferncia potencial, tais como a

distncia entre o anafrico e o antecedente em palavras e em sentenas, totalizando um

conjunto de 17 caractersticas.

Strube; Rapp; Muller (2002) mostram uma abordagem de rvore de deciso16 que

utiliza um conjunto de caractersticas usadas em trabalhos prvios em experimentos de

resoluo de correferncia (SOON; NG; LIM, 2001; CARDIE, WAGSTAFF, 1999;

15 um algoritmo que utiliza exemplos de treinamento no etiquetados, alm dos etiquetados para o aprendizado

do classificador. 16

Algoritmo de classificao de rvores de deciso j48, o qual uma re-implementao em Java do C4.5.

34

MCCARTHY, LEHNERT, 1995) e caractersticas adicionais independentes de domnio

baseadas na mnima distncia de edio (MEC) entre strings. Nesse estudo, analisaram-se o

desempenho desse conjunto de caractersticas para as diferentes formas de expresses

anafricas, encontrando bons resultados para pronomes, resultados moderados para nomes

prprios e resultados pobres para sintagmas nominais definidos. Strube; Rapp; Muller

analisaram tambm a influncia das caractersticas baseadas na distncia mnima de edio

(MEC) entre o anafrico e o antecedente na resoluo de referncia, que so computadas pelo

nmero de substituies, inseres, delees e pelo comprimento do antecedente em potencial

ou do anafrico.

Uryupina (2003) desenvolveu um sistema para identificao automtica de entidades

novas no discurso e nicas, com base no discurso e no ouvinte utilizando o algoritmo de

aprendizado de mquina RIPPER (COHEN, 1995). Nesse sentido, classificaram-se as

entidades em novas no discurso17 e velhas no discurso, e as expresses em referidas

unicamente18 e referidas no unicamente. Para isso, utilizou-se um corpus pequeno de

treinamento do MUC-7 (MUC-7, 1997), alm de alguns dados da Internet. Uryupina usou

trinta e duas caractersticas para a realizao dos experimentos, que esto divididas em

caractersticas sintticas, como a identificao de apostos; caractersticas de contexto, como o

clculo da distncia entre um determinado sintagma nominal e o seu antecedente em potencial

de mesmo ncleo; e caractersticas de probabilidade definida, onde para cada expresso

buscou-se na internet19 o nmero de pginas que contenham tal expresso.

Poesio et al. (2005) reexaminaram a literatura referente resoluo de anforas

(VIEIRA; POESIO, 2000; NG; CARDIE, 2002a; URYUPINA, 2003) e propuseram um

algoritmo revisado que incorpora um novo conjunto de caractersticas para a descoberta de

17 Entidades novas no discurso quando se refere um objeto ou pessoa no mencionada previamente no discurso.

18 Expresses so nicas quando especificam completamente o seu referente, sendo interpretada sem qualquer

contexto. 19

Site de busca do Alta Vista, disponvel em: http://www.altavista.com/

35

descries definidas novas no discurso. Este algoritmo segue dois passos: primeiro,

executado o algoritmo de resoluo de anforas diretas de Vieira e Poesio (2000), alm de

outras caractersticas de deteco das expresses novas no discurso da literatura, que sero as

caractersticas de entrada para o classificador. Segundo, um classificador baseado em rvores

de deciso (implementao do C4.5 incluindo a biblioteca da Ferramenta Weka 3.4)

utilizado para classificar as descries definidas como anafricas (caso tenha sido encontrado

um antecedente no primeiro passo) ou novas no discurso. As caractersticas de entrada das

descries definidas baseiam-se no reconhecimento de predicativos (construes copulares,

aposto); nomes prprios; funcionalidade (superlativo); clusulas relativas e posio no texto.

Os trabalhos relacionados com resoluo de anforas apresentam propostas para o

tratamento de diferentes tipos de anforas com diferentes conjuntos de caractersticas

analisadas. Cabe ressaltar que, as caractersticas utilizadas para a resoluo das descries

definidas nestes trabalhos sero identificadas e utilizadas na construo das rvores de

deciso, na busca da melhor combinao destas caractersticas para a classificao das

descries definidas novas no discurso, com base no corpus anotado manualmente.

Cabe ressaltar que, todos os trabalhos citados acima se referem a outras lnguas

diferentes da Lngua Portuguesa. Para a Lngua Portuguesa existem estudos de corpora sobre

correferncia, mas esses trabalhos no implementam resoluo ou classificao automtica

(SALMON-ALT, VIEIRA, 2002; VIEIRA; SALMON-ALT; SCHANG, 2002; VIEIRA et al.,

2003; VIEIRA; GASPERIN; GOULART, 2003).

2.7 Consideraes Finais

Neste captulo foram apresentados conceitos importantes de lingstica e computao.

Com base nestes conceitos, possvel perceber a importncia da identificao de expresses

referenciais que no possuem antecedentes.

36

Na literatura encontramos vrios trabalhos que apresentam algoritmos que tratam a

resoluo de anforas de sintagmas nominais e partem da investigao de suas caractersticas

tanto sintticas quanto semnticas na busca de um bom classificador. Entre os algoritmos de

classificao, destacam-se os de rvores de deciso (seo 2.5) por serem mais adequados

para a anlise da relevncia de caractersticas. Partimos de estudos realizados em outras

lnguas, especialmente na Lngua Inglesa, com o objetivo de investigar quais caractersticas

so mais significativas para o processo de classificao das descries definidas. Algumas das

caractersticas analisadas nos trabalhos relacionados so ilustradas na Tab. 2.2.

rvores de deciso so importantes para a investigao de atributos relevantes para a

classificao das descries definidas.

Tabela 2.2 Algumas caractersticas de trabalhos relacionados.

Mccarthy; Lehnert

Bean; Riloff

Cardie; Wagstaff

Vieira; Poesio

Soon; Ng; Lim

Ng; Cardie

Poesio et al

SP20 SP21 SP21 APO20 APO APO20 APO APO20

APO_NP22 APO_NP23 APO_NP22 APO_NP23 APO_NP22 APO_NP23 REL20 REL21 REL REL21

NP_COM22 NP_COM22 NP_COM24 NP_COM22 NP_COM NP_COM24 PRE_ADJ25 PRE_ADJ PRE_NUM PRE_NUM SUP25 SUP SUP COP COP

PRI_SENT PRI_SENT PRI_SENT PRI_SENT

CARACTERSTICAS

SEM_ANT SEM_ANT SEM_ANT SEM_ANT

20 Caractersticas de um mesmo grupo.

21 Caractersticas de um mesmo grupo sendo analisadas como ps modificadores restritivos.

22 Analisam somente a presena de um nome prprio.

23 Caracterstica sendo analisada como modificador nome prprio.

24 Ncleo nome prprio simples.

25 Caractersticas mais restritivas (por exemplo, listas de predicados especiais).

Legenda:

SP: sintagma preposicional; SUP: superlativo; APO: aposto; COP: construo copular; APO_NP: nome prprio com funo de aposto; PRI_SENT: primeira sentena; NP_COM: ncleo nome prprio composto; REL: clusula relativa; PRE_ADJ: pr modificador adjetivo; PRE_NUM: pr modificador nmero; SEM_ANT: verificao de um antecedente.

37

3. Materiais e Mtodos

Este captulo apresenta o corpus e as ferramentas utilizadas nos experimentos: o

analisador sinttico PALAVRAS, usado na anlise gramatical dos textos; a ferramenta

Xtractor que converte a anlise para o cdigo XML; a ferramenta MMAX, usada na marcao

manual do corpus; a ferramenta ART que trata a resoluo de anforas; a ferramenta Weka,

constituda de uma coleo de algoritmos de aprendizado de mquina. Aps, os grupos de

caractersticas usados para a classificao e o processo de identificao automtica das

descries definidas so mostrados. Por fim, a metodologia proposta para o aprendizado

descrita, alm da implementao das rvores de deciso no ambiente ART.

3.1 Descrio do Corpus

Neste trabalho, foram utilizados dois corpora. O primeiro (corpus 1) constitui-se de

um extrato do corpus NILC26, formado por um conjunto de 24 textos jornalsticos da Folha de

So Paulo, escritos em portugus do Brasil. Cada documento um arquivo texto (formato

ASCII) com tamanho entre 1 Kbytes e 6 Kbytes, com um mnimo de 186 palavras e um

mximo de 1089 palavras, totalizando 11042 palavras. O corpus contm 2319 sintagmas

nominais, sendo que 1411 so descries definidas. Estas informaes so apresentadas na

Tab 3.1.

TABELA 3.1 Informaes sobre o corpus 1. Corpus N

Textos Tamanho N total de

Palavras N Sintagmas Nominais

N Descries Definidas

corpus 1 24 de 1 6 Kb 11042 2319 1411

26 Ncleo Interinstitucional de Lingstica Computacional. Disponvel em http://www.nilc.icmp.usp.br/nilc

38

Alm deste, outro corpus (corpus 2) ser utilizado para validao dos experimentos, o

qual constitui-se de um extrato do corpus Pblico (SANTOS, 2000) formado por 4 textos

retirados do jornal Pblico, escritos no portugus europeu. Cada documento um arquivo

texto (formato ASCII) com tamanho entre 2 Kbytes e 9 Kbytes, com um mnimo de 201

palavras e um mximo de 1356 palavras, totalizando 3627 palavras. O corpus contm 777

sintagmas nominais, sendo que 483 so descries definidas. Estas informaes so

apresentadas na Tab 3.2.

TABELA 3.2 Informaes sobre o corpus 2. Corpus N

Textos Tamanho N total de

Palavras N Sintagmas

Nominais N Descries

Definidas corpus 2 4 de 2 9 Kb 3627 777 483

Os corpora usados foram anotados com informaes de correferncia. A ferramenta

MMAX foi utilizada para a realizao da anotao manual e ser descrita na seo 3.3. Os

seguintes estudos de corpora esto relacionados com este trabalho e foram desenvolvidos com

a ajuda da ferramenta MMAX: (SALMON-ALT, VIEIRA, 2002; VIEIRA; SALMON-ALT;

SCHANG, 2002; VIEIRA et al., 2003; VIEIRA; GASPERIN; GOULART, 2003).

A anotao manual do corpus 1 foi realizada inicialmente por dois anotadores

(Cassiano Ricardo Haag e Terezinha Margarete da Silva) em quatro etapas. Em um primeiro

momento, foram anotadas as descries definidas, considerando-se que uma descrio

definida pode conter outras descries definidas, por exemplo, A lista do banqueiro do jogo

do bicho, o banqueiro do jogo do bicho, o jogo do bicho. Em um segundo momento,

foi analisada a correferncia das expresses, sendo estas classificadas como correferentes e

no correferentes. Em um terceiro momento, as descries definidas correferentes foram

classificadas como anafricas diretas e anafricas indiretas, sendo que para estas foram

apontados os respectivos antecedentes. Em uma etapa final, as descries definidas no

correferentes, foram classificadas em novas no discurso e anafricas associativas, sendo que,

39

para as anafricas associativas foram apontadas as expresses em que estas esto ancoradas

semanticamente (antecedentes). Essa anotao foi revisada pelo anotador Jorge Cesar Barbosa

Coelho.

No corpus 2, a anotao manual foi realizada pelo anotador Jorge Cesar Barbosa

Coelho, seguindo as mesmas etapas do corpus 1.

Na prxima seo apresentado o analisador sinttico usado na anlise gramatical dos

textos e a ferramenta Xtractor que converte a anlise para o cdigo XML.

3.2 PALAVRAS e Xtractor

Em muitas aplicaes de PLN, necessrio utilizar um analisador sinttico, que

trabalha em nvel de sentena ou sintagma e reconhece uma seqncia de palavras como

constituintes de uma frase da lngua construindo uma rvore de derivao, que explicita as

relaes entre as palavras que compem a sentena.

Neste trabalho foi utilizado o analisador sinttico PALAVRAS (BICK, 2000), uma

ferramenta robusta utilizada para a anlise sinttica do portugus. A partir da sada deste

analisador sinttico, a ferramenta Xtractor27 (GASPERIN et al., 2003) gera trs arquivos

XML (eXtensible Markup Language).

O primeiro o arquivo bsico de palavras (words); o segundo o arquivo com as

categorias morfossintticas (POS Part of Speech) das palavras do corpus; e por fim o

terceiro o arquivo com as estruturas sintticas das sentenas (chunks). Um chunk pode

possuir sub-elementos chunks com informaes das sub-estruturas da sentena. Para

exemplificar, segue a descrio definida O Othon Palace Hotel e seus arquivos de word

(FIGURA 3.1), POS (FIGURA 3.2) e chunks (FIGURA 3.3).

27 A Ferramenta Xtractor engloba a anlise do corpus a partir do analisador sinttico PALAVRAS, o tratamento

da sada do analisador sinttico, com a gerao dos trs arquivos XML.

40

.....

.....

.....

.....

.....

.....

.....

o Othon_Palace_Hotel .....

FIGURA 3.1 Arquivo de words.

FIGURA 3.2 Arquivo de POS.

FIGURA 3.3 Arquivo de chunks.

Neste trabalho, os atributos dos sub-elementos chunks sero utilizados na identificao

das caractersticas das descries definidas, que sero mostradas na seo 3.7. Portanto, cabe

ressaltar que as informaes de interesse dos sub-elementos chunks so:

Atributo ext: representa a funo sinttica do chunk, por exemplo, sentena

ou enunciado (ext=sta); sujeito (ext=subj); ncleo (ext=h).

Atributo form: representa a forma ou estrutura morfossinttica do chunk, tais

como: clusula finita (form=fcl); sintagma nominal (form=np); substantivo (form=n).

41

Na seo que segue apresentada a ferramenta MMAX que usada neste estudo para

a anotao manual dos corpora utilizados.

3.3 MMAX

Para a anotao manual de corpus, utilizou-se a ferramenta MMAX (Multi-Modal

Annotation in XML) (MULLER, STRUBE, 2000). Essa ferramenta utiliza o arquivo de words,

gerado pela ferramenta Xtractor que contm todas as palavras do corpus associadas a um

identificador (FIGURA 3.1). Ela tambm utiliza um segundo arquivo que contm a estrutura

do corpus (pargrafos, sentenas, cabealhos etc.).

O resultado do processo de anotao no MMAX um arquivo que contm a anotao

de correferncia. As marcaes so codificadas como elementos markables, cujo atributo

span indica as palavras que formam a expresso, o atributo pointer indica o identificador do

antecedente; alm desses atributos; outros atributos podem ser especificados pelo pesquisador.

Em (GOULART; GASPERIN; VIEIRA, 2004) utilizou-se o atributo classification que

corresponde classificao anafrica da expresso.

Para exemplificar, segue o trecho de um dos textos do corpus 1:

(1) Segundo a Confederao Nacional dos Bispos do Brasil CNBB, a Igreja Catlica

perde em mdia, s no Brasil, 600 mil fiis para outras religies(i). [..] No incio do ano, ele

enviou ao Brasil 50 discpulos que se hospedaram no Othon Palace Hotel, em So Paulo(ii).

Observamos que no exemplo (1) temos duas sentenas: sentena (i) corresponde ao

span "word_276..word_297" e sentena (ii) corresponde ao span "word_698..word_721" no

arquivo da estrutura do corpus (Figura 3.4).

Para uma melhor compreenso do arquivo resultante com as marcaes desse estudo,

analisemos as marcaes das descries definidas sublinhadas na sentena (ii) ilustrada na

FIGURA 3.5. A expresso o Brasil (atributo span="word_708..word_709") possui como

42

.....

.....

.....

.....

.....

.....

.....

antecedente a expresso o Brasil que est destacada (em negrito) na sentena (i) (atributo

pointer="markable_36"), a forma de descrio definida (atributo form="defnp"), a

classificao de anafrica direta (atributo classification="direct"), pois o seu antecedente

possui o mesmo nome-ncleo da expresso (nome-ncleo Brasil) e a classificao de

correferente porque a expresso analisada e o seu antecedente se referem mesma entidade

(atributo coreference="coreferent"). J a expresso o Othon Palace Hotel (atributo

span="word_716..word_717) no possui um antecedente por ser a primeira manifestao da

expresso no discurso (atributo pointer=") e possui a forma de descrio definida (atributo

form="defnp"). Consequentemente, a expresso classificada como nova no discurso

(atributo classification="discourse_new") e no correferente (atributo

coreference="non_coreferent).

FIGURA 3.4 Arquivo da Estrutura.

FIGURA 3.5 Arquivo de Marcaes.

As ferramentas apresentadas (PALAVRAS, Xtractor, MMAX) so utilizadas no

contexto desse trabalho no processo de identificao automtica das caractersticas das

43

descries definidas (seo 3.8) e na metodologia proposta para o processo de aprendizado

(seo 3.9).

Na seo que segue so apresentadas a ferramenta ART, que trata a resoluo de

anforas, e a ferramenta Weka, formada por um conjunto de algoritmos de AM.

3.4 ART

ART (Anaphor Resolution Tool) uma ferramenta para resoluo de expresses

anafricas, entre elas as descries definidas, onde o processo de resoluo das anforas

baseado em heursticas (GOULART; GASPERIN; VIEIRA, 2004). Ela foi desenvolvida em

Java e para os seus dados de entrada e sada adotou-se a linguagem de marcao XML,

seguindo formatos MMAX (seo 3.3). Utiliza informaes adicionais baseadas na anlise

sinttica do analisador sinttico PALAVRAS (seo 3.2) para o portugus.

A arquitetura da ferramenta baseada em pipes & filters (GAMMA, 1995),

constituindo-se de um conjunto de trs etapas com uma ou mais tarefas codificadas atravs de

da linguagem XSL (FIGURA 3.6).

Na primeira etapa, denominada Input Analysis, a partir dos arquivos de Words, de POS

e de Chunks so extrados os nodos anafricos (anaphor) (A), onde o atributo span

corresponde a cada descrio definida do texto (FIGURA 3.7). Nesse passo tambm so

extrados os nodos candidatos a antecedentes (candidate) (B), onde o atributo span

corresponde aos sintagmas nominais do texto (FIGURA 3.8).

A prxima etapa utiliza a base de resoluo de heursticas (Resolution Heuristics

Base) composta por um conjunto de regras que implementam as heursticas para resoluo de

correferncia (regras R1 Rn) e filtram os nodos anafricos (anaphor) em busca dos seus

antecedentes (VIEIRA; SALMON-ALT; SCHANG, 2002).

44

Input Analysis

Resolution Heuristics Base

Output Generation

Words POS Chunks

C

Output

Rn

A

R2

R1

B

Na ltima etapa, chamada Output Generation, os resultados da ferramenta ART so

adaptados para o mesmo formato utilizado pela ferramenta MMAX (elementos markables)

(C) (FIGURA 3.9), com o intuito de possibilitar a comparao dos resultados da marcao

automtica e da marcao manual (GASPERIN; GOULART; VIEIRA, 2003).

FIGURA 3.6 Arquitetura da Ferramenta ART (GOULART; GASPERIN; VIEIRA, 2004).

Para exemplificar as etapas descritas, retomemos no exemplo (1) a sentena (ii) e

analisemos as descries definidas o Brasil (span ="word_708..word_709") e o Othon

Palace Hotel (span ="word_716..word_717) contidas nesta sentena. Na FIGURA 3.7

apresentado um trecho do arquivo de anforas, onde foram extradas as descries definidas

citadas. J na FIGURA 3.8 mostrado um trecho do arquivo de candidatos a antecedentes

(todos os sintagmas nominais). Para finalizar, na FIGURA 3.9, apresentado um trecho do

arquivo de marcaes, com o resultado da ferramenta ART, correspondente s descries

45

.....

o incio de o ano o ano o Brasil 50 discpulos que se hospedaram em o Othon_Palace_Hotel , em So_Paulo o Othon_Palace_Hotel .....

.....

.....

.....

o Brasil

o Othon_Palace_Hotel .....

definidas tomadas como exemplo, seguindo o mesmo formato da sada do MMAX (FIGURA

3.5).

FIGURA 3.7 Arquivo de Anafricas.

FIGURA 3.8 Arquivo de Candidatos a Antecedentes.

FIGURA 3.9 Arquivo de Marcaes.

3.5 Weka

Nesta seo descrita a ferramenta Weka que se constitui de um conjunto de

implementaes de algoritmos de aprendizado de mquina.

46

@RELATION descrio_definida @ATTRIBUTE atributo_1 {TRUE, FALSE}. @ATTRIBUTE atributo_2 {TRUE, FALSE} @ATTRIBUTE atributo_3 {TRUE, FALSE}. @ATTRIBUTE atributo_4 {TRUE, FALSE}. @ATTRIBUTE class {nova_discurso, outra}

@DATA TRUE,FALSE,TRUE,FALSE,nova_discurso FALSE,TRUE,FALSE,FALSE,nova_discurso FALSE,FALSE,FALSE,FALSE,outra FALSE,FALSE,FALSE,FALSE,outra ..................

O pacote Weka28 (Waikato Environment for Knowledge Analysis) foi desenvolvido

pela Universidade de Waikato, na Nova Zelndia e formado por um conjunto de

implementaes de algoritmos de Minerao de Dados (WITTEN; FRANK, 2000). O pacote

est implementado na linguagem Java, que tem como principal caracterstica ser portvel,

podendo rodar nas mais variadas plataformas e aproveitar os benefcios de uma linguagem

orientada a objetos, como modularidade, polimorfismo, encapsulamento, reutilizao de

cdigo, dentre outros; alm disso, um software de domnio pblico.

O Weka possui um formato prprio, o ARFF, que consiste basicamente de duas partes.

A primeira parte contm uma lista de todos os atributos, onde se define o tipo do atributo ou

os valores que ele pode representar (ao utilizar os valores esses devem estar entre {} e

separados por vrgulas). A segunda parte consiste das instncias, ou seja, os registros a serem

minerados; com o valor dos atributos para cada instncia separado por vrgula; a ausncia de

um item em um registro deve ser representada pelo smbolo ?. Para exemplificar, a

FIGURA 3.10 ilustra um arquivo no formato ARFF.

FIGURA 3.10 Arquivo no formato ARFF.

A ferramenta Weka alm de possuir mtodos de classificao e de predio numrica,

dispe tambm de 4 tipos diferentes de validao desses mtodos:

28 O Weka est disponvel em http://www.cs.waikato.ac.nz/ml/weka/

47

Use trainning set: no efetuar a diviso. Usar para testar o modelo o mesmo

conjunto usado para a sua construo.

Supplied test set: usar um conjunto de teste especfico.

Cross-Validation n-fold: validao cruzada29 em n-folds.

Percentage split: treinar o modelo numa percentagem do conjunto de exemplos e

testar na restante.

Nesta dissertao, a ferramenta Weka utilizada no processo de aprendizado, na etapa

de classificao das descries definidas, com a aplicao do algoritmo de rvores de deciso

J48, que uma re-implementao em Java do algoritmo C4.5 (QUINLAN, 1993) nessa

ferramenta. O algoritmo j48 no necessita de um ponto inicial de busca; dessa forma pode ser

executado apenas uma vez. Entre as funcionalidades do algoritmo j48 temos: a incorporao

de atributos numricos (contnuos); os valores nominais (discretos) de um atributo podem ser

agrupados de maneira a permitir testes mais complexos; possui poda (post-pruning) das

rvores para aumentar a preciso; permite lidar com informao incompleta (missing attribute

values), entre outros. Os valores dos parmetros de treinamento deste algoritmo podem ser os

sugeridos pela ferramenta (fator de confiana de poda (CF) igual a 0,25; nmero mnimo de

instncias por folha igual a 2 etc.) ou podem ser alterados quando necessrio.

Aps a escolha do mtodo de classificao e da forma de validao na ferramenta

Weka, esta fornece uma avaliao dos resultados com base em algumas medidas de avaliao

do desempenho. Algumas destas medidas sero descritas na seo seguinte.

3.6 Avaliao

A avaliao de sistemas de PLN exige um domnio abrangente sobre o problema em

observao para possibilitar ou o desenvolvimento de metodologias prprias de avaliao ou

29 Validao Cruzada: os exemplos so aleatoriamente divididos em r folds de tamanho n/r exemplos. Os

exemplos sobre (r-1) folds so usados para treinamento e a hiptese induzida testada no fold remanescente.

48

Abrangncia = n_acertos_classe

n_classe

Preciso = n_acertos_classe

n_classificados_classe

o bom uso de medidas j existentes. Segundo SANTOS (2001) s possvel o

desenvolvimento de uma boa avaliao se o problema analisado for quantificado e suas

vantagens de uso identificadas.

Para o desenvolvimento de um mtodo de classificao existem vrias questes

importantes em relao ao seu desempenho, tanto durante a sua construo como na sua

utilizao.

No contexto deste trabalho, aps o processo de aprendizado (seo 3.9), a resoluo

das rvores implementadas avaliada utilizando medidas de desempenho. As medidas de

avaliao de desempenho utilizadas aqui so adotadas da rea de Recuperao de Informao

(RI). Dentre as medidas mais importantes para a avaliao dos resultados e do desempenho

esto abrangncia, preciso e F-measure (KORFHAGE, 1997; KOWALSKI, 1997); e podem

ser obtidas atravs das seguintes relaes:

Abrangncia: a razo do nmero de acertos da classe pelo nmero total de itens

da classe, expressa na frmula mostrada na FIGURA 3.11:

FIGURA 3.11 Abrangncia.

Preciso: representa o grau de confiana de um mtodo de classificao, o que

torna a medida mais importante e necessria em qualquer tarefa de induo. geralmente

calculada como a razo entre o nmero de exemplos corretamente classificados sobre o

nmero total de exemplos classificados na classe, ilustrada na frmula descrita na FIGURA

3.12:

FIGURA 3.12 Preciso.

49

F = (2 + 1) * P*C

2 * (P + C)

A anlise de avaliao deve considerar tanto preciso quanto abrangncia. Por isso,

uma medida que combine os valores de preciso e de abrangncia obtendo o desempenho

geral do sistema, deve ser adotada. Neste trabalho, empregamos a medida F-measure que

permite um balanceamento entre os valores de preciso e abrangncia atravs da expresso na

seguinte frmula (FIGURA 3.13) em que o parmetro que permite a atribuio de

diferentes pesos para as medidas de preciso (P) e abrangncia (C), sendo 1 o valor

freqentemente utilizado. O valor do F-measure (F) maximizado quando a preciso e a

abrangncia so iguais ou muito prximas, assumindo por definio, o prprio valor da

preciso ou da abrangncia, representando o ponto de equilbrio do sistema.

FIGURA 3.13 F-measure.

Alm dessas medidas, utilizamos o percentual de acertos para a avaliao.

3.7 Grupos de Caractersticas das descries definidas

Um estudo de corpus foi realizado para analisar aspectos estruturais das descries

definidas com o objetivo de identificar as caractersticas que podem sinalizar as expresses

novas no discurso. Este estudo partiu de trabalhos realizados na Lngua Inglesa (VIEIRA,

1998), de um estudo inicial para a Lngua Portuguesa (COLLOVINI; GOULART; VIEIRA,

2004) e da anlise das possveis configuraes para as descries definidas da Lngua

Portuguesa (seo 2.4). Dessa forma, algumas caractersticas previamente identificadas para o

ingls foram verificadas para a Lngua Portuguesa. Alm destas, novas caractersticas foram

adicionadas.

50

As caractersticas foram organizadas em trs grupos para examinar melhor o desempenho de cada aspecto. O primeiro grupo composto por caractersticas relacionadas especificamente estrutura da descrio definida. No segundo grupo, reunimos as caractersticas que envolvem a anlise da sentena. E o terceiro baseia-se na anlise do texto.

Dessa forma, com a anlise de corpus observamos que a primeira manifestao de uma descrio definida ocorre de modo mais completo do que as demais. Por isso, os elementos

complementares elementos que se integram ao nome ncleo para complet-lo ou aperfeio-

lo foram selecionados como caractersticas do primeiro grupo (Grupo 1).

Analisamos tambm as relaes que ocorrem em descries definidas com verbos de ligao (ser, estar, permanecer etc.) denominadas construes copulares, pois composies mais completas podem sinalizar a primeira manifestao de um referente no texto. A verificao de construes copulares compe o segundo grupo de caractersticas (Grupo 2). Entendendo que expresses da primeira sentena no possuem antecedentes, elaboramos uma caracterstica que analisa a posio da sentena e que faz parte do segundo grupo (Grupo 2). Seguindo o princpio de que descries definidas novas no discurso no apresentam antecedentes foi desenvolvida, ento, uma caracterstica que busca um antecedente no texto (Grupo 3).

Estes grupos de caractersticas das descries definidas so descritas a seguir.

1. Caractersticas baseadas na estrutura do sintagma (GRUPO 1):

Caracterstica 1 (SP): descries definidas acompanhadas de um sintagma

preposicional, ps-modificador (restritivo). Por exemplo:

A tarde de ontem.

Nesses casos, um ps-modificador restritivo sucede o ncleo restringindo-o. Um

modificador restritivo permite que o referente seja identificado atravs da informao do

modificador (neste caso, um sintagma preposicional) que especifica a informao do ncleo,

no sendo necessrio recorrer a um antecedente para a sua interpretao.

Caracterstica 2 (APO): descries definidas constitudas de construes de apostos

com marca explcita. Por exemplo:

51

O prefeito de Gravata, Daniel Luiz Bordignom.

No corpus estudado, por tratar-se de textos jornalsticos, so relatadas informaes

explicativas (sobre locais, pessoas, empresas, eventos etc.), sendo que uma caracterstica

observada nesses textos a presena de construes de aposto que geralmente introduzem um

novo referente no discurso, sendo auto-explicativas.

Caracterstica 3 (APO_NP): descrio definida acompanhada de um nome prprio

constituindo um aposto sem marca explcita. Por exemplo:

O delegado Elson Campelo.

No corpus estudado, uma caracterstica observada nos textos a construo de

descries definidas com ncleo sendo um nome comum (substantivo comum), seguido de

um nome prprio com funo de aposto e geralmente tratando-se de um novo referente no

discurso.

Caracterstica 4 (REL): descries definidas acompanhadas de uma clusula

relativa. Por exemplo:

O texto que deve ser assinado pelos jornalistas.

No corpus estudado uma caracterstica observada nos textos a presena de clusulas

relativas modificando um nome e que geralmente introduzem um novo referente no discurso.

Caracterstica 5 (NP_COM): descrio definida com o ncleo sendo um nome

prprio composto. Por exemplo:

O Othon Palace Hotel.

No corpus estudado, verificamos que as estruturas com nomes prprios compostos

coincidem, predominantemente, com a classe nova no discurso. Geralmente, na continuidade

do texto, as expresses que retomam descries definidas com nomes prprios compostos o

fazem com apenas um dos nomes prprios ou com termos sinnimos.

52

Caracterstica 6 (SA): descrio definida acompanhada de um sintagma adjetival,

ps-modificador (restritivo). Por exemplo:

As conversas mais antigas.

Um ps-modificador restritivo sucede o ncleo limitando-o e permite que o referente

seja identificado atravs da informao do modificador (neste caso, um sintagma adjetival)

que especifica a informao do ncleo.

Caracterstica 7 (PRE_ADJ): descrio definida que apresenta um adjetivo

anteposto ao ncleo, pr-modificador (restritivo). Por exemplo:

O primeiro grau.

Um pr-modificador restritivo antecede o ncleo, limitando-o e especificando a

informao do ncleo.

Caracterstica 8 (PRE_NUM): descrio definida composta por um numeral

anteposto ao ncleo, pr-modificador (restritivo). Por exemplo:

Os 65 anos.

Essa caracterstica entende como numeral os nmeros cardinais, ordinais,

multiplicativos e fracionrios.

Caracterstica 9 (NUM): descrio definida que apresenta aps o ncleo um

numeral, ps-modificador (restritivo). Por exemplo:

Os anos 60.

Os nmeros cardinais, ordinais, multiplicativos e fracionrios fazem parte do conceito

de numeral dessa caracterstica.

Caracterstica 10 (DET): descrio definida que possui, alm do artigo definido,

outro(s) determinante(s). Por exemplo:

Os nossos arquelogos.

53

Ao lado do artigo definido, podem atuar como determinantes pronomes indefinidos

(todos, outros, poucos etc.), possessivos (seu, nossos, meu etc.), demonstrativos (mesmo,

outro, demais etc.).

Caracterstica 11 (SUP): descrio definida acompanhada de um superlativo. Por

exemplo:

Os melhores alunos.

Superlativo uma palavra que expressa uma qualidade (adjetivo) em um grau elevado

ou no mais elevado grau.

Caracterstica 12 (SUP_A): descrio definida que descreve o grau mximo de

qualidade (adjetivo), representando o maior ndice de uma escala. Por exemplo:

O Christofle lquido o melhor.

Uma descrio definida com essa caracterstica de