Anlise de Expresses Referenciais em Corpus Anotado da Lngua Portuguesa
Sandra Collovini de Abreu
So Leopoldo 2005
UNIVERSIDADE DO VALE DO RIO DOS SINOS CINCIAS EXATAS E TECNOLGICAS
PROGRAMA INTERDISCIPLINAR DE PS-GRADUAO EM COMPUTAO APLICADA PIPCA
Sandra Collovini de Abreu
Anlise de Expresses Referenciais em Corpus Anotado da Lngua Portuguesa
Dissertao de Mestrado submetida a avaliao como
requisito parcial para obteno do grau de Mestre em Computao Aplicada
Orientadora: Prof. Dr. Renata Vieira
So Leopoldo 2005
Dedico este trabalho em memria minha me que infelizmente no pode acompanh-lo, mas pode contribuir muito com o seu exemplo de determinao, amor, f e luta pela realizao de seus sonhos.
Agradecimentos
minha orientadora, Prof. Dr. Renata Vieira, pela dedicao, comprometimento,
confiana e amizade durante todo o Mestrado.
meu grande amor, James, por todo o companheirismo, incentivo, compreenso e
amor. minha sogra Clenir e sogro Joo por todo o apoio.
toda a minha famlia, pelo amor, compreenso, incentivo, em especial a minha irm
ngela, que me acompanhou durante toda esta etapa.
Aos meus colegas do laboratrio de Engenharia da Linguagem, Cssia, Cassiana,
Cludia, Csar, Douglas, Fbio, Leonardo, Rodrigo, Sandro, Vincius, pela amizade e auxlio
no transcorrer deste estudo. Em especial aos colegas Csar, por todo o apoio e pela realizao
da anotao de correferncia no corpus Pblico, e ao Rodrigo pelo auxlio na elaborao das
folhas de estilo.
Aos colegas de Portugal, Ana Margarida Aires pela contribuio no processo de
comparao da classificao manual e automtica e ao Prof. Dr. Paulo Quaresma pelo
acompanhamento e cooperao.
Aos colegas do Mestrado, por todo o companheirismo. Em especial aos colegas
Adriana, Daniela, Gabriela, Letcia, Isa Mara e Rafael Torchelsen, por todos os momentos de
ajuda e incentivo.
Ao corpo docente do PIPCA pela disposio; aos administradores de rede, Fbio e
Antnio pela prestatividade. secretaria Rejane, por todo o auxilio e amizade.
CAPES pelo auxlio financeiro durante o transcorrer do Mestrado e pelo
financiamento do projeto DIRPI de cooperao internacional com Portugal, pela oportunidade
de visitar Universidade de vora e aprofundar os estudos relacionados a este trabalho.
Resumo
A anlise de expresses referenciais fundamental na interpretao do discurso. A
identificao de expresses correferentes importante em diversas aplicaes de
Processamento da Linguagem Natural. Expresses referenciais podem ser usadas para
introduzir entidades em um discurso ou podem fazer referncia a entidades j mencionadas,
podendo fazer uso de reduo lexical, como em: O Eurocenter oferece cursos de Japons na
bela cidade de Kanazawa. Os cursos tm quatro semanas de durao. Onde cursos de
Japons introduz uma nova entidade e os cursos retomam essa entidade. A resoluo de
correferncia o processo de identificar as expresses que se referem mesma entidade no
discurso. As expresses referenciais so analisadas e a existncia de um antecedente textual
verificada. Aquelas que introduzem novos elementos, chamamos novas no discurso.
Esta dissertao apresenta um estudo das caractersticas de um tipo especfico de
expresses referenciais (descries definidas) com o objetivo de identificar automaticamente
expresses novas no discurso em textos da Lngua Portuguesa. Este estudo importante, pois
o nmero de expresses sem antecedentes textuais no discurso tanto na Lngua Inglesa como
na Lngua Portuguesa expressivo.
O estudo das caractersticas baseou-se na literatura e em um estudo de corpus. A partir
destas caractersticas foi construda uma base de dados para o aprendizado automtico de
rvores de deciso. Os melhores resultados da classificao das descries definidas foram
implementados no ambiente ART. Uma anlise dos atributos foi desenvolvida para calcular o
potencial de distino de cada um, destacando-se o atributo tamanho (nmero de palavras
do sintagma nominal) por ser um atributo original e significativo nos experimentos e o
atributo sem antecedente (ncleo da descrio definida uma palavra que no ocorre
anteriormente no texto) por ter um impacto positivo nos resultados.
As rvores de deciso geradas foram avaliadas em um novo corpus, composto por
textos extrados do jornal portugus Pblico. Obtivemos 77% de F-measure para a
identificao de expresses novas no discurso.
Palavras chave: expresses referenciais, classificao automtica de expresses
referenciais, resoluo de correferncia, resoluo de anforas, aprendizado de mquina.
Abstract
The analysis of referring expressions is fundamental to discourse interpretation. The
identification of correfering expressions is an important step in many Natural Language
Processing applications. Referring expressions may introduce new entities in a discourse or
the can refer back to already mentioned entities; they can do it on the basis of simplified
expressions, as in Eurocenter offers Japanese courses in Kanazawa. The courses are four
week long. In this example, the expression Japenese courses introduces a new discourse
entity, whereas the courses refer back to this already mentioned entity.
Correference resolution is the process of identification expressions that refer to the
same entity. Referring expressions are analysed and the existence of a textual antecedent is
verifyed. Those which introduce new discourse entities are considered discourse new in the
discourse.
This dissertation presents a study of a specific type of referring expression (definite
description) with the goal of identifying discourse new expressions in Portuguese texts. This
is an important issue since the number of such expressions without textual antecedents were
found to be significant both in English and Portuguese corpora.
The study of definite description features was based both on the literature and on
corpus studies. A data base for learning decisions trees was constructed. The generated trees
through the learning process were implemented and evaluated in the ART framework.
The features were analysed individually and we found that a new atribute based on the
size of the noun phrase presented interesting results. Another relevant atribute with good
impact in the results is based on the lack of the head noun in the previous text.
The automatically generated trees were evaluated in a new corpus, composed of
European Portuguese texts from the Portuguese newspaper Publico. We had an F-measure of
77% for the identification of discourse new.
Lista de Figuras
FIGURA 2.1 ESTRUTURA DA RVORE DE DECISO............................................................... 27 FIGURA 3.1 ARQUIVO DE WORDS. ....................................................................................... 40 FIGURA 3.2 ARQUIVO DE POS. ........................................................................................... 40 FIGURA 3.3 ARQUIVO DE CHUNKS. ...................................................................................... 40 FIGURA 3.4 ARQUIVO DA ESTRUTURA................................................................................. 42 FIGURA 3.5 ARQUIVO DE MARCAES. ............................................................................... 42 FIGURA 3.6 ARQUITETURA DA FERRAMENTA ART (GOULART, GASPERIN; VIEIRA, 2004)
..................................................................................................................................... 44 FIGURA 3.7 ARQUIVO DE ANAFRICAS ............................................................................... 45 FIGURA 3.8 ARQUIVO DE CANDIDATOS A ANTECEDENTES ................................................... 45 FIGURA 3.9 ARQUIVO DE MARCAES................................................................................ 45 FIGURA 3.10 ARQUIVO NO FORMATO ARFF........................................................................ 46 FIGURA 3.11 ABRANGNCIA ............................................................................................... 48 FIGURA 3.12 PRECISO....................................................................................................... 48 FIGURA 3.13 F-MEASURE.................................................................................................... 49 FIGURA 3.14 TRECHO DO ARQUIVO DE CHUNKS .................................................................. 55 FIGURA 3.15 TRECHO DO ARQUIVO DE CHUNKS .................................................................. 55 FIGURA 3.16 TRECHO DO ARQUIVO DE CHUNKS .................................................................. 56 FIGURA 3.17 METODOLOGIA PROPOSTA.............................................................................. 57 FIGURA 3.18 ARQUIVO DE MARCAES............................................................................... 59 FIGURA 3.19 ARQUIVO DE CHUNKS ..................................................................................... 59 FIGURA 3.20 TRECHO DE UM TEXTO.................................................................................... 59 FIGURA 3.21 LISTA DE DESCRIES DEFINIDAS .................................................................. 59 FIGURA 3.22 TRECHO DO ARQUIVO DE ENTRADA NO FORMATO ARFF ................................ 62 FIGURA 4.1 RVORE DE DECISO COM ATRIBUTOS G1........................................................... 75 FIGURA 4.2 RVORE DE DECISO COM ATRIBUTOS G1 SEM TAM .......................................... 76
Lista de Tabelas
TABELA 2.1 CONFIGURAES DAS DESCRIES DEFINIDAS. ................................................... 25 TABELA 2.2 ALGUMAS CARACTERSTICAS DE TRABALHOS RELACIONADOS. ............................ 36 TABELA 3.1 INFORMAES SOBRE O CORPUS 1.................................................................... 37 TABELA 3.2 INFORMAES SOBRE O CORPUS 2.................................................................... 38 TABELA 4.1 NMERO DE EXEMPLOS DE CADA CLASSE. ........................................................ 67 TABELA 4.2 RESULTADOS DO BASELINE. .............................................................................. 67 TABELA 4.3 EXPERIMENTO 1 COM ATRIBUTOS G1. .............................................................. 68 TABELA 4.4 RESULTADOS DO EXPERIMENTO 1 COM ATRIBUTOS G12. .................................. 68 TABELA 4.5 RESULTADOS DO EXPERIMENTO 1 COM G123 DE ATRIBUTOS. ........................... 69 TABELA 4.6 PERCENTUAL DE ACERTOS DO EXPERIMENTO 1................................................. 69 TABELA 4.7 COMPARAO ENTRE O BASELINE E O EXPERIMENTO 1...................................... 70 TABELA 4.8 NMERO DE EXEMPLOS DE CADA CLASSE. ........................................................ 70 TABELA 4.9 RESULTADOS DO BASELINE. .............................................................................. 70 TABELA 4.10 RESULTADOS DO EXPERIMENTO 2 COM ATRIBUTOS G1. .................................. 71 TABELA 4.11 RESULTADOS DO EXPERIMENTO 2 COM ATRIBUTOS G12. ................................ 71 TABELA 4.12 RESULTADOS DO EXPERIMENTO 2 COM ATRIBUTOS G123. .............................. 72 TABELA 4.13 PERCENTUAL DE ACERTOS DO EXPERIMENTO 2............................................... 72 TABELA 4.14 COMPARAO ENTRE O BASELINE E EXPERIMENTO 2....................................... 73 TABELA 4.15 POTENCIAL DE DISTINO DOS ATRIBUTOS G1 (CF = 0,35) ............................ 74 TABELA 4.16 POTENCIAL DE DISTINO DOS ATRIBUTOS G12 (CF = 0,35). ......................... 74 TABELA 4.17 POTENCIAL DE DISTINO DOS ATRIBUTOS G123 (CF = 0,10) ........................ 74 TABELA 4.18 COMPARAO DO ATRIBUTO TAM ................................................................ 75 TABELA 4.19 POTENCIAL DE DISTINO DOS ATRIBUTOS G1 (CF = 0,35) ............................ 76 TABELA 4.20 POTENCIAL DE DISTINO DOS ATRIBUTOS G12 (CF = 0,35). ......................... 77 TABELA 4.21 POTENCIAL DE DISTINO DOS ATRIBUTOS G123 (CF = 0,35). ....................... 77 TABELA 4.22 PIPES E FILTROS DO EXPERIMENTO 1.............................................................. 78 TABELA 4.23 RESULTADO COMPARATIVO DO EXPERIMENTO 1............................................. 78 TABELA 4.24 PIPES E FILTROS DO EXPERIMENTO 2. ............................................................. 79 TABELA 4.25 RESULTADO COMPARATIVO DO EXPERIMENTO 2............................................. 80 TABELA 4.26 NMERO DE EXEMPLOS POR CLASSE DOS EXPERIMENTOS ............................... 80 TABELA 4.27 RESULTADOS DOS BASELINES DOS EXPERIMENTOS. ......................................... 81 TABELA 4.28 RESULTADO COMPARATIVO DO EXPERIMENTO 1............................................. 81 TABELA 4.29 RESULTADO COMPARATIVO DO EXPERIMENTO 2 .......................................... 82 TABELA 5.1 RESULTADOS DOS TRABALHOS RELACIONADOS. ............................................... 86
Lista de Abreviaturas
AM Aprendizado de Mquina ART Anaphor Resolution Tool IA Inteligncia Artificial MMAX Multi-Modal Annotation in XML NILC Ncleo Interinstitucional de Lingstica
Computacional PLN Processamento de Linguagem Natural POS Part of Speech RI Recuperao de Informao SCT Sistema de Categorizao de Textos Weka Waikato Environment for Knowledge Analysis XML eXtensible Markup Language XSL eXtensible Stylesheet Language
Sumrio
1. Introduo .................................................................................................................. 14 1.1 Objetivos .............................................................................................................. 15 1.1.1 Objetivo Geral .................................................................................................. 15 1.1.2 Objetivos Especficos ....................................................................................... 15 1.2 Organizao do Texto........................................................................................... 16
2. Reviso bibliogrfica.................................................................................................. 18 2.1 Expresses Referenciais: Sintagmas Nominais e Descries Definidas ................. 18 2.2 Correferncia e Anfora ....................................................................................... 19 2.3 Classificao das descries definidas .................................................................. 21 2.4 Estudo das caractersticas das descries definidas ............................................... 22 2.4.1 Partes fundamentais das descries definidas.................................................... 23 2.4.2 Os complementos das descries definidas ....................................................... 23 2.5 rvores de Deciso............................................................................................... 25 2.6 Trabalhos Relacionados........................................................................................ 29 2.7 Consideraes Finais ............................................................................................ 35
3. Materiais e Mtodos ................................................................................................... 37 3.1 Descrio do Corpus............................................................................................. 37 3.2 PALAVRAS e Xtractor ........................................................................................ 39 3.3 MMAX ................................................................................................................ 41 3.4 ART ..................................................................................................................... 43 3.5 Weka.................................................................................................................... 45 3.6 Avaliao ............................................................................................................. 47 3.7 Grupos de Caractersticas das descries definidas ............................................... 49 3.8 Identificao Automtica das Caractersticas no Corpus ....................................... 54 3.9 Processo de Aprendizado...................................................................................... 57 3.9.1 Coleta da Base .................................................................................................. 57 3.9.2 Pr-processamento............................................................................................ 57 3.9.3 Classificao..................................................................................................... 61 3.10 Implementao no Ambiente ART........................................................................ 62 3.11 Consideraes Finais ............................................................................................ 63
4. Resultados................................................................................................................... 66 4.1 Gerao de rvores de Deciso ............................................................................ 66 4.1.1 Experimento 1 novas no discurso (Weka) ...................................................... 67 2.1.2 Experimento 2 no correferentes (Weka) ....................................................... 70 4.1.3 Potencial de Distino das Caractersticas......................................................... 73 4.2 Avaliao das rvores no Ambiente ART ............................................................ 77 4.2.1 Avaliao das Caractersticas em um novo corpus ............................................ 80 4.3 Consideraes finais ............................................................................................. 82
5. Concluses e Trabalhos Futuros................................................................................ 84
Referncias ......................................................................................................................... 87 APNDICE A Folhas de Estilo XSL .............................................................................. 92 APNDICE B rvores de Deciso ............................................................................... 101
14
1. Introduo
Em sistemas de Processamento de Linguagem Natural (PLN), a anlise de expresses
referenciais um componente fundamental na interpretao do sentido do texto. A resoluo
de correferncia constitui do ponto de vista do processamento computacional, um problema
difcil, devido complexidade do fenmeno lingstico e por isso motiva inmeras pesquisas.
O processo de resoluo de correferncia busca identificar expresses lingsticas que
se referem mesma entidade (correferentes). Para exemplificar, segue o trecho de um texto,
onde as expresses correferentes esto destacadas.
O advogado de Castor de Andrade, Nlio Machado, afirmou que vai aguardar a
evoluo dos fatos para se pronunciar. O advogado disse desconhecer a existncia de
documentos que demonstrariam o pagamento de propinas a autoridades policiais.
A identificao de expresses correferentes importante em diversas aplicaes de
PLN, como, por exemplo, em sumarizao automtica, extrao de informao, recuperao
de informao, traduo automtica, classificao de textos, entre outros.
Este estudo trata de expresses referenciais em textos da Lngua Portuguesa,
especificamente de descries definidas. Chamamos descries definidas os sintagmas
nominais iniciados por artigo definido (o, a, os, as). As descries definidas so estudadas
extensivamente pela lingstica, filosofia, psicologia e lingstica computacional (VIEIRA,
1998). Alm disso, trabalha-se com descries definidas pelo fato de ocorrerem em grande
quantidade nos textos. Tambm, existem vrios trabalhos sobre resoluo de anforas
pronominais, contudo existem poucos trabalhos que abordam a resoluo anafrica das
descries definidas para a Lngua Portuguesa.
15
Estudos anteriores (VIEIRA; GASPERIN; GOULART, 2003) mostram que as
descries definidas em textos jornalsticos possuem um antecedente textual em apenas 50%
dos casos. Esse fato aliado complexidade da tarefa de encontrar um antecedente para
resoluo de correferncia estimula a comunidade a propor como parte do processo de
resoluo, a identificao de descries definidas novas no discurso (MCCARTHY,
LEHNERT, 1995; BEAN, RILOFF, 1999; CARDIE; WAGSTAFF,1999; VIEIRA, POESIO,
2000; (SOON; NG; LIM, 2001; MULLER; RAPP; STRUBE, 2002; NG, CARDIE, 2002a,
2002b; STRUBE; RAPP; MULLER, 20002; URYUPINA, 2003; POESIO et al., 2005). Todos
esses trabalhos so estudos da Lngua Inglesa. Nessa dissertao realizamos um estudo
detalhado das expresses referenciais definidas da Lngua Portuguesa e das suas
caractersticas para a identificao daquelas que no possuem um antecedente textual.
1.1 Objetivos
1.1.1 Objetivo Geral Este trabalho tem como objetivo geral o estudo de caractersticas das descries
definidas em textos da Lngua Portuguesa para a sua classificao como expresses novas no
discurso. Para isso, uma anlise das ocorrncias de descries definidas em textos da Lngua
Portuguesa realizada. A abordagem de Aprendizado de Mquina Supervisionado (rvores de
deciso) para a avaliao das caractersticas relevantes utilizada. Por fim, uma anlise das
rvores de deciso geradas realizada para posterior implementao no ambiente ART.
1.1.2 Objetivos Especficos
Estudo das descries definidas nos textos da Lngua Portuguesa, com base em
corpus anotado com relaes de correferncia;
16
Levantamento de caractersticas para a classificao das descries definidas como
expresses novas no discurso (no possuem um antecedente textual) ou outra (possuem um
antecedente textual) com base no estudo de corpus e na literatura disponvel para a Lngua
Inglesa (MCCARTHY, LEHNERT, 1995; BEAN, RILOFF, 1999; CARDIE,
WAGSTAFF,1999; VIEIRA, POESIO, 2000; SOON; NG; LIM, 2001; MULLER; RAPP;
STRUBE, 2002; NG, CARDIE, 2002a; NG, CARDIE, 2002b; STRUBE et al, 20002;
URYUPINA, 2003; POESIO et al., 2005);
Construo da base de dados para o aprendizado automtico, com base nas
caractersticas identificadas que serviro de atributos para as rvores de deciso;
Gerao e anlise de rvores de deciso para a investigao dos atributos
relevantes na classificao binria das descries definidas como nova no discurso e outra;
Implementao das rvores de deciso no ambiente ART (GOULART;
GASPERIN; VIEIRA, 2004);
Avaliao final das rvores de deciso implementadas no ambiente ART com um
novo corpus.
1.2 Organizao do Texto
Esta dissertao est organizada da seguinte forma. No captulo 2, dada uma
introduo aos conceitos importantes relacionados a esse trabalho. Um estudo inicial das
descries definidas apresentado. Aps, uma viso geral de rvores de Deciso mostrada.
Por fim, os trabalhos relacionados.
O captulo 3 apresenta uma viso geral dos materiais e mtodos da pesquisa: corpus e
ferramentas, alm das medidas de avaliao que sero utilizadas nos experimentos. Uma
anlise detalhada das caractersticas morfossintticas das descries definidas do corpus
anotado mostrada. Aps, o processo para a identificao automtica das caractersticas para
17
gerao da base de dados do aprendizado, utilizando a linguagem XSL abordado. Por fim, o
processo de aprendizado com rvores de deciso e as etapas para a implementao das rvores
de deciso no ambiente ART so apresentados.
No captulo 4, so apresentados os resultados da gerao das rvores e posterior
implementao das mesmas no Ambiente ART. A avaliao dos experimentos no ambiente
ART com um novo corpus mostrada.
Por fim, no captulo 5 so apresentadas as concluses e uma discusso sobre os
trabalhos futuros.
18
2. Reviso bibliogrfica
O objetivo deste captulo abordar conceitos importantes das reas de lingstica e
computao relacionados dissertao.
Com base na literatura, apresentado o conceito de descries definidas, as estruturas
de interesse deste trabalho, assim como as configuraes possveis que estas podem adotar.
Alm disso, exposta a classificao das descries definidas empregada neste trabalho. Um
estudo das caractersticas das descries definidas usadas na classificao apresentado. Este
captulo tambm aborda rvores de Deciso. Os principais trabalhos relacionados que
contriburam para este estudo so referenciados.
2.1 Expresses Referenciais: Sintagmas Nominais e Descries Definidas
Um sintagma uma palavra ou um conjunto de palavras, que constituem uma unidade
significativa dentro da sentena (BONINI, 2002, KOCH, 2003; MACAMBIRA, 1990).
Os sintagmas desempenham diferentes funes na sentena e combinam-se em torno
de um ncleo. o ncleo que denomina o sintagma. O sintagma pode ser nominal (ncleo
nome ou pronome), verbal (ncleo verbo), preposicional (ncleo preposio), adjetival
(ncleo adjetivo) e adverbial (ncleo advrbio). Os sintagmas nominais so as expresses
lingsticas utilizadas para referenciar entidades em um discurso.
No caso do sintagma nominal, o ncleo pode configurar-se em nome comum/prprio
ou pronome: pessoal, demonstrativo, indefinido, possessivo entre outros. O sintagma nominal
pode apresentar ainda determinantes e/ou modificadores. Os determinantes antecedem o
ncleo, podendo ser artigos definidos (o, a, os e as), indefinidos (um, uma, uns, umas),
pronomes possessivos (meu, minha, seu, teu etc) entre outros. Os modificadores antecedem
19
ou sucedem o ncleo. Por exemplo, em as acusaes, observa-se um sintagma nominal
constitudo por um determinante, na forma de artigo definido (as), e um ncleo, na forma de
substantivo (acusaes). J em as acusaes contra policiais, h o mesmo sintagma
nominal do exemplo anterior, s que agora modificado pelo sintagma preposicional (contra
policiais).
Dentre as vrias configuraes de sintagmas nominais, observaremos as descries
definidas, foco de nosso trabalho. Muitos lingistas chamam a ateno para uma estrutura
bastante complexa das descries definidas em Lngua Portuguesa (KOCH, 2000; FVERO,
1997; VILELA, KOCH, 2001; KOCH, TRAVAGLIA, 2002; MACAMBIRA, 1990;
HAUSSER, 1999; JURAFSKY, MARTIN, 2000).
Dessa forma, as descries definidas podem ser constitudas por uma extensa e
varivel seqncia de termos (BONINI, 2002, KOCH, TRAVAGLIA, 1996; ZUMTHOR,
2000). As possibilidades de estruturaes de descries definidas que acreditamos serem
importantes distino de expresses novas no discurso e outra sero vistas na seo 2.4;
porm, antes, so apresentados conceitos sobre correferncia e anfora.
2.2 Correferncia e Anfora
Os conceitos de correferncia e anfora so similares, com pequenas diferenas.
Expresses correferentes fazem referncia mesma entidade, enquanto expresses anafricas
podem retomar uma referncia anterior (nesse caso, correferentes) ou podem ativar um novo
referente cuja interpretao dependente de outras expresses referenciais anteriormente
presentes do texto (nesse caso, no correferentes).
Geralmente uma expresso correferente anafrica, mas nem sempre uma expresso
anafrica correferente, veja o exemplo:
20
O Eurocenter oferece cursos de Japons na bela cidade de Kanazawa. Os cursos tm
quatro semanas de durao. As aulas do nvel avanado incluem refeies tpicas e passeios
a pontos tursticos.
No exemplo acima, a expresso Os cursos retoma a expresso anterior cursos de
Japons, ou seja, as duas expresses referenciais fazem meno mesma entidade, portanto
duas expresses correferenciais e anafricas. Porm, expresses anafricas no precisam ser
necessariamente correferentes, por exemplo, a expresso As aulas do nvel avanado no
correferente a nenhum termo anterior, mas apresenta parte do seu significado apoiado na
expresso cursos de Japons, portanto trata-se de uma expresso no correferente e
anafrica.
Na maioria das vezes, uma expresso anafrica ou correferente manifesta-se como um
pronome ou uma descrio definida1 ou demonstrativa2 (FVERO, KOCH, 1994; KOCK,
2000). Porm, ao contrrio dos pronomes e das descries demonstrativas, estudos de corpus
da Lngua Inglesa (VIEIRA, 1998) e Portuguesa (SALMON-ALT, VIEIRA, 2002; VIEIRA;
SALMON-ALT; SCHANG, 2002; VIEIRA et al., 2002; VIEIRA; GASPERIN; GOULART,
2003) mostram que 50% das descries definidas no possuem um antecedente textual. Esse
dado chama a ateno para a necessidade da elaborao de uma estratgia de resoluo de
anforas ou correferncia que seja composta por uma etapa que identifique as expresses
novas no discurso a fim de que as operaes de verificao de antecedentes ocorram
exclusivamente nas expresses anafricas ou correferentes.
Com o objetivo de contribuir para essa etapa de classificao, foram analisadas
caractersticas que predominantemente se manifestariam em expresses novas no discurso
(seo 3.7). Porm, antes de prosseguir, para uma boa compreenso deste estudo de
1 Grupo de palavras que inicia por artigo definido e possui ncleo nome (e.g. o parecer, a resoluo final).
2 Grupo de palavras que inicia por pronome demonstrativo e possui ncleo nome (e.g. essa resoluo).
21
caractersticas; as possveis classificaes das descries definidas sero apresentadas a
seguir.
2.3 Classificao das descries definidas
Em Vieira (1998), encontra-se uma diviso das descries definidas em quatro
categorias, dependendo da forma que esto relacionadas com os seus antecedentes:
1. Anafricas Diretas: so antecedidas por uma expresso que possui o mesmo
nome-ncleo e refere-se mesma entidade no discurso. Por exemplo:
As listas apontam quase todas as divises e departamentos da Polcia Civil. Alguns
delegados da Polcia Federal tambm so citados nas listas.
2. Anafricas Indiretas: so antecedidas por uma expresso que no tm o mesmo
nome-ncleo do seu antecedente, mas referem-se mesma entidade j introduzida no
discurso. Assim, o ncleo pode ser um sinnimo do antecedente ou mesmo uma elipse. Por
exemplo:
A Folha de So Paulo apresentou as listas apreendidas na operao contra o crime
organizado. O jornal tentou ouvir o delegado encarregado.
3. Anafricas Associativas: possuem um antecedente textual no correferente. Assim,
a descrio definida tem seu significado ancorado em uma outra entidade. Por exemplo:
A Folha de So Paulo apresentou as listas apreendidas na operao contra o crime
organizado. O jornal tentou ouvir o delegado encarregado.
4. Novas no discurso: so aquelas que introduzem um novo referente no texto e no
possuem uma ncora para se apoiar semanticamente. Por exemplo:
O quilmetro 430 da rodovia Assis Chateau Briand ontem foi cenrio da campanha
de segurana no trnsito.
22
Cabe ressaltar que as expresses anafricas diretas e indiretas so expresses
correferentes, pois se referem mesma entidade. J as expresses anafricas associativas no
so correferentes, pois apesar de possurem uma relao semntica com seus antecedentes, o
antecedente no referencia a mesma entidade. As expresses novas no discurso no so
correferentes, pois a primeira manifestao das expresses no discurso.
A seguir, apresentamos o estudo de caractersticas das descries definidas novas no
discurso.
2.4 Estudo das caractersticas das descries definidas
Na literatura encontramos vrias propostas que levam em considerao a estrutura
sinttica; aspectos lexicais; semnticos; posicionais; de contexto; entre outras caractersticas
para classificar as descries definidas, conforme apresentado em (MCCARTHY,
LEHNERT, 1995; BEAN, RILOFF, 1999; CARDIE,WAGSTAFF,1999; VIEIRA, POESIO,
2000; SOON; NG; LIM, 2001; MULLER; RAPP; STRUBE, 2002; NG, CARDIE, 2002a;
NG, CARDIE, 2002b; URYUPINA, 2003; POESIO et al., 2005).
Um resumo destes trabalhos apresentado na seo 2.6. Muitos desses trabalhos
referem-se estrutura do sintagma como caracterstica relevante. Um estudo de corpus foi
realizado para verificar a presena destas e de outras caractersticas (seo 3.7).
Quanto ao aspecto estrutural, importante discriminar caractersticas que so comuns,
e por isso presentes em todas as descries definidas, das que so adicionais, e que, em alguns
casos, podem sinalizar expresses novas no discurso. Nesse sentido, nosso olhar concentra-se
em dois blocos distintos de elementos estruturais das descries definidas: as partes
fundamentais e os complementos.
23
2.4.1 Partes fundamentais das descries definidas
Uma descrio definida fundamentalmente composta por duas classes de palavras:
Artigo definido: palavra que acompanha o substantivo, determinando-o de forma
definida.
Na Lngua Portuguesa os artigos definidos so: o, a, os e as.
Nome (substantivo): palavra que designa os seres/objetos reais ou imaginrios. O
nome pode ser comum (referncia genrica a um ser/objeto) ou prprio (referncia especfica
a um ser/objeto, identificando este entre todos os outros seres/objetos de uma espcie).
O ncleo nome pode ser formado por um ou mais nomes. Nos casos da presena na
estrutura sinttica de um nico nome, ele denominado simples; caso contrrio, ele ser
denominado composto.
Alm disso, na composio das descries definidas, com exceo dos artigos
definidos, que assumem a posio primeira no sintagma, os nomes, apesar de centrais, no
ocupam uma posio fixa, pois, para referenciao, por vezes, vrios elementos
complementadores so necessrios, ora precedendo os nomes ora antecedendo os nomes.
2.4.2 Os complementos das descries definidas
Os elementos complementares das descries definidas tambm so mencionados na
literatura como elementos modificadores. Na construo das descries definidas, elementos
que se somam aos nomes so:
Aposto: um ou mais termos que se referem a um substantivo ou pronome
explicando-o.
O aposto pode localizar-se entre vrgulas ou travesses ou vir depois de dois-pontos3.
Para exemplificar, segue a descrio definida:
3 No corpus comum a presena desse tipo de construo sem o uso de travesses ou entre vrgulas.
24
O bicheiro, Castor de Andrade,.
Sintagma preposicional: sintagma que possui como ncleo uma preposio,
palavra invarivel que liga/relaciona dois termos (palavras e oraes), indicando origem,
posse, finalidade, meio, causa etc.
Nessa relao, um termo vai explicar ou completar o sentido do outro. Para
exemplificar, segue a descrio definida:
A data da reforma.
Sintagma adjetival: sintagma que possui como ncleo um adjetivo (palavra que
especifica e caracteriza seres/objetos atribuindo-lhes estados ou qualidades).
O sintagma adjetival tambm pode apresentar intensificador (palavra que modifica um
verbo, um adjetivo ou outro advrbio, indicando uma circunstncia). Para exemplificar,
seguem as descries definidas:
A literatura infantil.
As democracias mais fortes.
Clusula relativa: so oraes que funcionam como sintagmas adjetivais e
apresentam-se encaixadas na posio de modificador do nome. Por exemplo:
O sistema que fiscalizava o Inamps".
Podemos dizer, ento, que as descries definidas possuem um conjunto de
configuraes conforme Tab. 2.1, seguindo a legenda abaixo:
Legenda:
AD: artigo definido; N: nome; SA: sintagma adjetival; SP: sintagma preposicional; REL: clusula relativa; PRONP: pronome possessivo; INT: intensificador; APO: aposto.
25
Tabela 2.1 Configuraes das descries definidas.
Configuraes Exemplos AD + N A humanidade.
AD + N + SA A vista ocidental.
AD + SA + N Os grandes clientes.
AD + SA + N + SA As antigas casas medievais.
AD + NOME + SP O artefato de lentes. AD + PRONP + N + SP O meu amigo de infncia. AD + PRONP + N + SA A nossa proposta ambiental.
AD + PRONP + SA + N + SA As nossas grandes faanhas administrativas. AD + SA + N + SP A antiga cidade de Kanazawa.
AD + N + INT + SA + SP Os momentos mais difceis de minha carreira. AD + N + REL O comunicado que deve ser assinado pelos jornalistas. AD + SA + N + SP + REL As grandes deficincias da gesto financeira que recentemente provocou
pela primeira vez na histria do clube atraso no pagamento dos jogadores. AD + N + SP + REL O texto do comunicado que deve ser assinado hoje. AD + N + APO O ex-deputado, Agnaldo Timteo,
AD + N + SP + APO O diretor do Departamento de Polcia do Interior, delegado Mrio Covas,
AD + N + REL + OPO O delegado que acusado pelo departamento, lson Campelo, AD + N + INT + SA + REL +
APO
O deputado muito disposto que iniciara as investigaes, Emir Laranjeira,
2.5 rvores de Deciso O Aprendizado de Mquina (AM) uma sub-rea de pesquisa em Inteligncia
Artificial (IA) relacionada capacidade de aprender ser essencial para um comportamento
inteligente. O objetivo principal de AM encontrar mtodos computacionais baseados em
operaes lgicas ou binrias capazes de aprender uma tarefa a partir de um conjunto de
exemplos. Neste sentido, o AM estuda mtodos computacionais para adquirir novos
conhecimentos, novas habilidades e novos meios de organizar o conhecimento j existente
(MITCHELL, 1997). O estudo de tcnicas de aprendizado baseado em computador tambm
pode fornecer um melhor entendimento do prprio raciocnio.
26
A induo a forma de inferncia lgica que permite obter concluses genricas sobre
um conjunto particular de exemplos, a qual se caracteriza pelo raciocnio a partir de um
conceito especfico e generalizado, ou seja, da parte para o todo. Sendo assim, na induo um
conceito aprendido efetuando-se inferncia indutiva sobre os exemplos apresentados
(MONARD, BARANAUSKAS, 2003).
O aprendizado indutivo pode ser dividido em supervisionado e no-supervisionado.
No aprendizado supervisionado fornecido ao algoritmo de aprendizado, um conjunto de
exemplos de treinamento para os quais o rtulo da classe associada conhecido. Um rtulo
descreve o fenmeno de interesse, isto , o conceito-meta que se deseja aprender para fazer
previses a respeito.
No aprendizado supervisionado, geralmente cada exemplo descrito por um vetor de
valores de caractersticas ou de aspectos do exemplo, esses conhecidos como atributos, e pelo
rtulo da classe associada. Tem-se como objetivo do algoritmo de induo, construir um
classificador que seja capaz de determinar corretamente a classe de novos exemplos que ainda
no possuam rtulo da classe. Sendo que, para rtulos de classe discretos, esse problema
conhecido como Classificao e para valores contnuos como Regresso.
Dentro da rea de Aprendizado de Mquina foram propostos vrios paradigmas
capazes de aprender a partir de um conjunto de exemplos, constituindo-se de paradigmas
simblico, estatstico, conexionista, evolutivo, baseado em casos (MONARD,
BARANAUSKAS, 2003). No contexto desse trabalho, ser abordado o paradigma simblico,
no qual os sistemas objetivam aprender constituindo representaes simblicas de um
conceito por meio da anlise de exemplos e contra-exemplos desse conceito. Dentre as
representaes simblicas, ser utilizada a representao por rvores de deciso para a
classificao de entidades novas no discurso. Adotamos rvores de deciso, pois so
geralmente utilizadas para esse tipo de tarefa, conforme podemos observar na literatura da
27
AATTRRIIBBUUTTOO
CCLLAASSSSEE 11
XX11 XX22
CCLLAASSSSEE 22
rea. Alm disso, o mtodo adequado para a anlise da relevncia das caractersticas que
um dos nossos objetivos principais.
Uma rvore de deciso capaz de prever a classe de um exemplo baseada em decises
realizadas sobre os atributos que descrevem esse exemplo (AMADO, 2001). Neste contexto,
uma rvore de deciso uma forma simples de representao, que classifica exemplos de uma
base de dados em um nmero finito de classes, tendo a seguinte estrutura:
FIGURA 2.1 Estrutura da rvore de Deciso.
Na FIGURA 2.1 cada nodo representa um atributo da base de dados. Cada galho
representa um valor do atributo. Cada nodo folha representa uma classe. Alm dessa estrutura,
as rvores de deciso possuem algumas caractersticas, tais como:
Representam uma srie de perguntas em relao aos atributos do domnio;
Um objeto classificado seguindo o caminho do nodo raiz at o nodo folha,
enquanto as suas caractersticas satisfazem as ligaes.
As rvores de deciso so baseadas no uso de um algoritmo de particionamento
recursivo, tais como ID3 (QUINLAN, 1986), C4.5 (QUINLAN, 1993) e CART (BREIMAN
et al., 1984). Esses realizam uma busca em um espao de hipteses completo e possuem um
vis indutivo em direo a rvores de tamanho reduzido, baseando-se na abordagem: dividir
para conquistar.
Nesses algoritmos, a induo da rvore baseia-se na diviso recursiva do conjunto de
exemplos de treinamento em subconjuntos mais representativos, ou seja, dividir o conjunto de
28
treinamento at todos os subconjuntos conterem exemplos que pertencem a apenas uma
classe. As divises do conjunto de treinamento so realizadas com base nos valores possveis
de um dos atributos que descrevem os exemplos. A cada diviso associado um nodo na
rvore que representa o teste realizado aos valores do atributo que deu origem diviso.
Quando todos os exemplos de um conjunto pertencem mesma classe, esse associado a uma
folha na rvore que representa a classe dos exemplos.
O tamanho e a preciso das rvores de deciso construdas por este processo depende
da escolha dos atributos utilizados para a diviso do conjunto de treinamento, sendo o critrio
mais utilizado, para escolher o atributo que particiona o conjunto de exemplos em cada
iterao, a mtrica de ganho de informao4. Um bom critrio de escolha de atributos
fundamental, uma vez que uma m escolha de um atributo pode fragmentar o conjunto de
treinamento e reduzir a preciso.
Uma outra questo a ser considerada na construo das rvores de deciso a
simplificao, uma vez que o mtodo descrito para a construo das rvores de deciso resulta
em rvores perfeitamente ajustadas ao conjunto de exemplos utilizados na sua construo, ou
seja, ocorre uma superestimativa dos dados (overfitting5). Para tentar solucionar o problema
de superajuste dos dados, utilizam-se dois mtodos de simplificao das rvores de deciso:
O primeiro mtodo consiste em utilizar um determinado critrio para verificar se,
antes de realizar a diviso dos exemplos num nodo, a diviso relevante para a
classificao final. Caso no o seja, esta no realizada e a explorao do galho da
rvore terminada.
4 O ganho de informao uma medida que indica a reduo esperada na entropia de um conjunto de dados,
causada pelo particionamento dos exemplos em relao a um dado atributo. 5 Overfitting ocorre quando ao induzir, a partir de exemplos disponveis, a hiptese muito especfica para o
conjunto de treinamento utilizado, ou seja, a hiptese ajusta-se em excesso ao conjunto de treinamento.
29
O segundo mtodo, muitas vezes denominado poda, aplicado aps a construo
da rvore. Cada nodo da rvore visitado e os galhos que no contriburem
significativamente para a classificao so simplificados.
As rvores de deciso podem ser representadas tambm por conjuntos de regras if-
then, por serem estas mais legveis. Cada regra representa um possvel caminho a ser
percorrido desde a raiz at uma folha, onde o resultado da classificao especificado.
Nesse trabalho, as rvores de deciso sero aplicadas na investigao de quais
atributos so mais relevantes para a classificao das descries definidas como novas no
discurso, com base no corpus anotado manualmente.
Uma vez apresentados os conceitos sobre rvores de deciso, na seqncia,
apresentaremos alguns trabalhos relacionados que utilizam esses conceitos e contriburam
para a dissertao.
2.6 Trabalhos Relacionados
Nesta seo so apresentados alguns trabalhos relacionados sobre resoluo de
correferncia de sintagmas nominais, focalizando as caractersticas tanto sintticas como
semnticas dos sintagmas nominais, utilizadas no processo de resoluo de anforas.
Muitas aplicaes em PLN requerem a resoluo de anforas de sintagmas nominais,
sendo necessrios meios para determinar quais sintagmas nominais em um texto ou em um
dilogo referem-se mesma entidade real do mundo.
A maioria dos algoritmos que tratam resoluo de anforas de sintagmas nominais
combina caractersticas sintticas e semnticas, com o intuito de desenvolver sistemas
robustos. A seguir, sero descritos alguns trabalhos relacionados resoluo de anforas e
uma viso geral das caractersticas que eles apresentam.
30
Aone e Bennett (1995) descrevem um sistema de resoluo de anfora que abrange
tipos de anforas (descries definidas, pronominais etc.) que podem ser definidos a partir da
necessidade do usurio. Para a realizao dos experimentos, um conjunto de artigos
jornalsticos em japons foi usado como exemplos de treinamento para o algoritmo de
aprendizado de mquina de rvores de deciso C4.5 (QUINLAN, 1993). Para isso, Aone e
Bennett utilizaram 66 caractersticas, dentre as quais esto as caractersticas morfolgicas,
sintticas, semnticas e posicionais. Essas caractersticas podem ser caractersticas unrias6 ou
caractersticas binrias7.
Em Mccarthy e Lehnert (1995) a resoluo de anforas apresentada como um
problema dos Sistemas de Extrao de Informao, que necessitam identificar informaes de
interesse em uma coleo de textos, onde as entidades envolvidas so referenciadas em
lugares diferentes e em caminhos diferentes. Esse problema pode ser reformulado como um
problema de classificao: dado dois referentes, eles apontam para os mesmos objetos ou para
objetos diferentes. Neste sentido, Mccarthy e Lehnert apresentaram uma nova abordagem para
resoluo de correferncia (Sistema RESOLVE): a construo de rvores de deciso que
classificam pares de sintagmas nominais como correferentes ou no correferentes. Mccarthy e
Lehnert relatam o uso de oito caractersticas para essa tarefa de classificao de correferncia,
dentre essas caractersticas temos a presena de um nome prprio e a presena de um
sintagma nominal comum em um par de referentes.
Bean e Riloff (1999) desenvolveram um algoritmo baseado em corpus para identificar
automaticamente sintagmas nominais definidos no-anafricos que possuem potencial para
melhorar a eficincia e a preciso de sistemas de resoluo de correferncia. Bean e Riloff
classificaram os sintagmas nominais definidos utilizando a seguinte taxonomia: sintagmas
nominais referentes que possuem um referente anterior nos textos (antecedente), e sintagmas
6 Caracterstica de uma anfora ou de um antecedente.
7 Caracterstica que diz respeito s relaes entre os pares de anforas e de antecedentes.
31
nominais existenciais8 que no possuem um referente anterior nos textos (antecedente). Aps,
os sintagmas nominais foram classificados em duas categorias: independentes9 e
associativos10. O objetivo de Bean e Riloff construir um sistema para identificar os
sintagmas nominais existenciais independentes automaticamente. Para isso, observaram-se as
caractersticas de existencialismo dos sintagmas nominais definidos a partir da sintaxe e da
semntica. Desta forma, foi construdo um conjunto de heursticas sintticas que procuram
pistas (cues) estruturais de pr-modificadores restritivos e ps-modificadores restritivos.
Em Cardie e Wagstaff (1999) um novo algoritmo no supervisionado para resoluo
de correferncia de sintagmas nominais apresentado. A resoluo de correferncia tratada
como uma tarefa de agrupamento11. Cardie e Wagstaff utilizaram onze caractersticas para
particionar os sintagmas nominais simples12, que foram obtidas automaticamente sem
qualquer etiquetagem manual. Dentre essas caractersticas verificou-se, por exemplo, o tipo
de artigo (definido, indefinido, nenhum); o tipo de pronome (possessivo, ambguo, nominal);
o gnero (masculino, feminino, neutro, outro); entre outras.
Em Vieira e Poesio (2000) apresentado um sistema para o processamento de
descries definidas independente de domnio, que est fundamentado em experimentos
baseados em corpus. O sistema foi implementado e testado com idias de diferentes usos das
descries definidas e observou-se a predominncia de descries novas no discurso em
corpus jornalsticos na Lngua Inglesa. Vieira e Poesio detalham um estudo sobre as
descries definidas na Lngua Inglesa, utilizando a classificao dos usos de descries
8 Um sintagma nominal definido existencial, quando especifica completamente uma representao cognitiva da
entidade na mente do leitor, por exemplo, O F.B.I.. 9 Sintagmas nominais existenciais independentes so entendidos isoladamente pelo leitor, sem a necessidade de
um contexto. 10
Sintagmas nominais existenciais associativos so inerentemente associados a um evento, ao, objeto ou outro contexto, para o entendimento do leitor. 11 Agrupamento um mtodo de descoberta de conhecimento utilizado para identificar co-relacionamentos e associaes entre objetos, facilitando assim a identificao de classes. 12
Sintagmas nominais simples que no contm nenhum outro sintagma nominal menor dentro dele.
32
definidas13 abordadas nos experimentos de Vieira (1998). E assim, foram desenvolvidos trs
diferentes conjuntos de heursticas para:
1. Resolver descries diretamente anafricas;
2. Identificar descries novas no discurso;
3. Identificar uma ncora da descrio associativa e a relao semntica entre a
descrio associativa e a sua ncora.
Soon; Ng; Lim (2001) apresenta uma abordagem de aprendizado para resoluo de
correferncia de sintagmas nominais em textos do MUC-614 (MUC-6, 1995) e do MUC-7
(MUC-7, 1997). A abordagem utiliza, para o aprendizado, um corpus pequeno anotado e a sua
tarefa determinar relaes de correferncia entre elementos textuais, como por exemplo,
sintagmas nominais definidos, sintagmas nominais demonstrativos, nomes prprios, apostos.
Soon; Ng; Lim relatam o uso de doze caractersticas para verificar se duas entidades so ou
no correferentes (antecedente em potencial e anafrica). Dentre as caractersticas temos a
verificao se o antecedente em potencial e o anafrico so pronomes (reflexivos, pessoais,
possessivos); verificao se o antecedente em potencial e o anafrico so nomes prprios;
identificao do tipo de sintagma nominal (definido, demonstrativo); verificao de
construes de aposto; verificao de flexo de nmero (plural, singular) e de gnero
(feminino e masculino); entre outras.
Ng e Cardie (2002a) relatam um mtodo de aprendizado supervisionado para a
identificao de sintagmas nominais anafricos e no anafricos e mostram como podem ser
incorporadas tais informaes em um sistema de resoluo de correferncia. Para isso, Ng e
Cardie construram um classificador para a determinao da anaforicidade, utilizando o
sistema de induo de rvore de deciso C4.5 (QUINLAN,1993), onde cada exemplo de
treinamento representa um nico sintagma nominal e consiste de 37 caractersticas que so
13 As descries definidas esto divididas em trs categorias (anforas diretas, novas no discurso e associativas),
dependendo da forma que esto relacionadas com os seus antecedentes. 14
MUC: Conferncias organizadas em forma de competio para apresentao de sistemas.
33
potencialmente teis para distinguir entre sintagmas nominais anafricos e no anafricos.
Lingisticamente, essas caractersticas podem ser divididas em quatro grupos: lxico,
gramatical, semntico e posicional.
Em Ng e Cardie (2002b) apresenta-se um sistema de correferncia de sintagmas
nominais que estende o trabalho de Soon; Ng; Lim (2001) e produz melhores resultados para
o conjunto de dados de resoluo de correferncia do MUC-6 (MUC-6, 1995) e do MUC-7
(MUC-7, 1997). Ng e Cardie, ento, estenderam o conjunto de caractersticas de Soon; Ng;
Lim (2001) de 12 caractersticas para um conjunto mais amplo de 53 caractersticas, sendo
caractersticas lxicas, semnticas, e baseadas em conhecimento; alm de 26 caractersticas
gramaticais que incluem uma variedade de restries lingsticas e preferncias.
Em Muller; Rapp; Strube (2002) relata-se a realizao de alguns experimentos com o
algoritmo de Aprendizado de Mquina Supervisionado Co-treinamento15. Com o intuito de
verificar se o algoritmo de Co-Treinamento pode reduzir significativamente a quantidade de
trabalho manual de etiquetagem e ainda produzir um classificador com um desempenho
aceitvel. Para isso, utilizou-se um corpus com 250 textos em alemo sobre locais tursticos,
eventos histricos e pessoas em Heidelberg. As caractersticas utilizadas por Muller; Rapp;
Strube foram consideradas como independentes do domnio, distinguiu-se entre as
caractersticas atribudas a sintagmas nominais, tais como funo gramatical do antecedente e
do anafrico, e as caractersticas atribudas relao de correferncia potencial, tais como a
distncia entre o anafrico e o antecedente em palavras e em sentenas, totalizando um
conjunto de 17 caractersticas.
Strube; Rapp; Muller (2002) mostram uma abordagem de rvore de deciso16 que
utiliza um conjunto de caractersticas usadas em trabalhos prvios em experimentos de
resoluo de correferncia (SOON; NG; LIM, 2001; CARDIE, WAGSTAFF, 1999;
15 um algoritmo que utiliza exemplos de treinamento no etiquetados, alm dos etiquetados para o aprendizado
do classificador. 16
Algoritmo de classificao de rvores de deciso j48, o qual uma re-implementao em Java do C4.5.
34
MCCARTHY, LEHNERT, 1995) e caractersticas adicionais independentes de domnio
baseadas na mnima distncia de edio (MEC) entre strings. Nesse estudo, analisaram-se o
desempenho desse conjunto de caractersticas para as diferentes formas de expresses
anafricas, encontrando bons resultados para pronomes, resultados moderados para nomes
prprios e resultados pobres para sintagmas nominais definidos. Strube; Rapp; Muller
analisaram tambm a influncia das caractersticas baseadas na distncia mnima de edio
(MEC) entre o anafrico e o antecedente na resoluo de referncia, que so computadas pelo
nmero de substituies, inseres, delees e pelo comprimento do antecedente em potencial
ou do anafrico.
Uryupina (2003) desenvolveu um sistema para identificao automtica de entidades
novas no discurso e nicas, com base no discurso e no ouvinte utilizando o algoritmo de
aprendizado de mquina RIPPER (COHEN, 1995). Nesse sentido, classificaram-se as
entidades em novas no discurso17 e velhas no discurso, e as expresses em referidas
unicamente18 e referidas no unicamente. Para isso, utilizou-se um corpus pequeno de
treinamento do MUC-7 (MUC-7, 1997), alm de alguns dados da Internet. Uryupina usou
trinta e duas caractersticas para a realizao dos experimentos, que esto divididas em
caractersticas sintticas, como a identificao de apostos; caractersticas de contexto, como o
clculo da distncia entre um determinado sintagma nominal e o seu antecedente em potencial
de mesmo ncleo; e caractersticas de probabilidade definida, onde para cada expresso
buscou-se na internet19 o nmero de pginas que contenham tal expresso.
Poesio et al. (2005) reexaminaram a literatura referente resoluo de anforas
(VIEIRA; POESIO, 2000; NG; CARDIE, 2002a; URYUPINA, 2003) e propuseram um
algoritmo revisado que incorpora um novo conjunto de caractersticas para a descoberta de
17 Entidades novas no discurso quando se refere um objeto ou pessoa no mencionada previamente no discurso.
18 Expresses so nicas quando especificam completamente o seu referente, sendo interpretada sem qualquer
contexto. 19
Site de busca do Alta Vista, disponvel em: http://www.altavista.com/
35
descries definidas novas no discurso. Este algoritmo segue dois passos: primeiro,
executado o algoritmo de resoluo de anforas diretas de Vieira e Poesio (2000), alm de
outras caractersticas de deteco das expresses novas no discurso da literatura, que sero as
caractersticas de entrada para o classificador. Segundo, um classificador baseado em rvores
de deciso (implementao do C4.5 incluindo a biblioteca da Ferramenta Weka 3.4)
utilizado para classificar as descries definidas como anafricas (caso tenha sido encontrado
um antecedente no primeiro passo) ou novas no discurso. As caractersticas de entrada das
descries definidas baseiam-se no reconhecimento de predicativos (construes copulares,
aposto); nomes prprios; funcionalidade (superlativo); clusulas relativas e posio no texto.
Os trabalhos relacionados com resoluo de anforas apresentam propostas para o
tratamento de diferentes tipos de anforas com diferentes conjuntos de caractersticas
analisadas. Cabe ressaltar que, as caractersticas utilizadas para a resoluo das descries
definidas nestes trabalhos sero identificadas e utilizadas na construo das rvores de
deciso, na busca da melhor combinao destas caractersticas para a classificao das
descries definidas novas no discurso, com base no corpus anotado manualmente.
Cabe ressaltar que, todos os trabalhos citados acima se referem a outras lnguas
diferentes da Lngua Portuguesa. Para a Lngua Portuguesa existem estudos de corpora sobre
correferncia, mas esses trabalhos no implementam resoluo ou classificao automtica
(SALMON-ALT, VIEIRA, 2002; VIEIRA; SALMON-ALT; SCHANG, 2002; VIEIRA et al.,
2003; VIEIRA; GASPERIN; GOULART, 2003).
2.7 Consideraes Finais
Neste captulo foram apresentados conceitos importantes de lingstica e computao.
Com base nestes conceitos, possvel perceber a importncia da identificao de expresses
referenciais que no possuem antecedentes.
36
Na literatura encontramos vrios trabalhos que apresentam algoritmos que tratam a
resoluo de anforas de sintagmas nominais e partem da investigao de suas caractersticas
tanto sintticas quanto semnticas na busca de um bom classificador. Entre os algoritmos de
classificao, destacam-se os de rvores de deciso (seo 2.5) por serem mais adequados
para a anlise da relevncia de caractersticas. Partimos de estudos realizados em outras
lnguas, especialmente na Lngua Inglesa, com o objetivo de investigar quais caractersticas
so mais significativas para o processo de classificao das descries definidas. Algumas das
caractersticas analisadas nos trabalhos relacionados so ilustradas na Tab. 2.2.
rvores de deciso so importantes para a investigao de atributos relevantes para a
classificao das descries definidas.
Tabela 2.2 Algumas caractersticas de trabalhos relacionados.
Mccarthy; Lehnert
Bean; Riloff
Cardie; Wagstaff
Vieira; Poesio
Soon; Ng; Lim
Ng; Cardie
Poesio et al
SP20 SP21 SP21 APO20 APO APO20 APO APO20
APO_NP22 APO_NP23 APO_NP22 APO_NP23 APO_NP22 APO_NP23 REL20 REL21 REL REL21
NP_COM22 NP_COM22 NP_COM24 NP_COM22 NP_COM NP_COM24 PRE_ADJ25 PRE_ADJ PRE_NUM PRE_NUM SUP25 SUP SUP COP COP
PRI_SENT PRI_SENT PRI_SENT PRI_SENT
CARACTERSTICAS
SEM_ANT SEM_ANT SEM_ANT SEM_ANT
20 Caractersticas de um mesmo grupo.
21 Caractersticas de um mesmo grupo sendo analisadas como ps modificadores restritivos.
22 Analisam somente a presena de um nome prprio.
23 Caracterstica sendo analisada como modificador nome prprio.
24 Ncleo nome prprio simples.
25 Caractersticas mais restritivas (por exemplo, listas de predicados especiais).
Legenda:
SP: sintagma preposicional; SUP: superlativo; APO: aposto; COP: construo copular; APO_NP: nome prprio com funo de aposto; PRI_SENT: primeira sentena; NP_COM: ncleo nome prprio composto; REL: clusula relativa; PRE_ADJ: pr modificador adjetivo; PRE_NUM: pr modificador nmero; SEM_ANT: verificao de um antecedente.
37
3. Materiais e Mtodos
Este captulo apresenta o corpus e as ferramentas utilizadas nos experimentos: o
analisador sinttico PALAVRAS, usado na anlise gramatical dos textos; a ferramenta
Xtractor que converte a anlise para o cdigo XML; a ferramenta MMAX, usada na marcao
manual do corpus; a ferramenta ART que trata a resoluo de anforas; a ferramenta Weka,
constituda de uma coleo de algoritmos de aprendizado de mquina. Aps, os grupos de
caractersticas usados para a classificao e o processo de identificao automtica das
descries definidas so mostrados. Por fim, a metodologia proposta para o aprendizado
descrita, alm da implementao das rvores de deciso no ambiente ART.
3.1 Descrio do Corpus
Neste trabalho, foram utilizados dois corpora. O primeiro (corpus 1) constitui-se de
um extrato do corpus NILC26, formado por um conjunto de 24 textos jornalsticos da Folha de
So Paulo, escritos em portugus do Brasil. Cada documento um arquivo texto (formato
ASCII) com tamanho entre 1 Kbytes e 6 Kbytes, com um mnimo de 186 palavras e um
mximo de 1089 palavras, totalizando 11042 palavras. O corpus contm 2319 sintagmas
nominais, sendo que 1411 so descries definidas. Estas informaes so apresentadas na
Tab 3.1.
TABELA 3.1 Informaes sobre o corpus 1. Corpus N
Textos Tamanho N total de
Palavras N Sintagmas Nominais
N Descries Definidas
corpus 1 24 de 1 6 Kb 11042 2319 1411
26 Ncleo Interinstitucional de Lingstica Computacional. Disponvel em http://www.nilc.icmp.usp.br/nilc
38
Alm deste, outro corpus (corpus 2) ser utilizado para validao dos experimentos, o
qual constitui-se de um extrato do corpus Pblico (SANTOS, 2000) formado por 4 textos
retirados do jornal Pblico, escritos no portugus europeu. Cada documento um arquivo
texto (formato ASCII) com tamanho entre 2 Kbytes e 9 Kbytes, com um mnimo de 201
palavras e um mximo de 1356 palavras, totalizando 3627 palavras. O corpus contm 777
sintagmas nominais, sendo que 483 so descries definidas. Estas informaes so
apresentadas na Tab 3.2.
TABELA 3.2 Informaes sobre o corpus 2. Corpus N
Textos Tamanho N total de
Palavras N Sintagmas
Nominais N Descries
Definidas corpus 2 4 de 2 9 Kb 3627 777 483
Os corpora usados foram anotados com informaes de correferncia. A ferramenta
MMAX foi utilizada para a realizao da anotao manual e ser descrita na seo 3.3. Os
seguintes estudos de corpora esto relacionados com este trabalho e foram desenvolvidos com
a ajuda da ferramenta MMAX: (SALMON-ALT, VIEIRA, 2002; VIEIRA; SALMON-ALT;
SCHANG, 2002; VIEIRA et al., 2003; VIEIRA; GASPERIN; GOULART, 2003).
A anotao manual do corpus 1 foi realizada inicialmente por dois anotadores
(Cassiano Ricardo Haag e Terezinha Margarete da Silva) em quatro etapas. Em um primeiro
momento, foram anotadas as descries definidas, considerando-se que uma descrio
definida pode conter outras descries definidas, por exemplo, A lista do banqueiro do jogo
do bicho, o banqueiro do jogo do bicho, o jogo do bicho. Em um segundo momento,
foi analisada a correferncia das expresses, sendo estas classificadas como correferentes e
no correferentes. Em um terceiro momento, as descries definidas correferentes foram
classificadas como anafricas diretas e anafricas indiretas, sendo que para estas foram
apontados os respectivos antecedentes. Em uma etapa final, as descries definidas no
correferentes, foram classificadas em novas no discurso e anafricas associativas, sendo que,
39
para as anafricas associativas foram apontadas as expresses em que estas esto ancoradas
semanticamente (antecedentes). Essa anotao foi revisada pelo anotador Jorge Cesar Barbosa
Coelho.
No corpus 2, a anotao manual foi realizada pelo anotador Jorge Cesar Barbosa
Coelho, seguindo as mesmas etapas do corpus 1.
Na prxima seo apresentado o analisador sinttico usado na anlise gramatical dos
textos e a ferramenta Xtractor que converte a anlise para o cdigo XML.
3.2 PALAVRAS e Xtractor
Em muitas aplicaes de PLN, necessrio utilizar um analisador sinttico, que
trabalha em nvel de sentena ou sintagma e reconhece uma seqncia de palavras como
constituintes de uma frase da lngua construindo uma rvore de derivao, que explicita as
relaes entre as palavras que compem a sentena.
Neste trabalho foi utilizado o analisador sinttico PALAVRAS (BICK, 2000), uma
ferramenta robusta utilizada para a anlise sinttica do portugus. A partir da sada deste
analisador sinttico, a ferramenta Xtractor27 (GASPERIN et al., 2003) gera trs arquivos
XML (eXtensible Markup Language).
O primeiro o arquivo bsico de palavras (words); o segundo o arquivo com as
categorias morfossintticas (POS Part of Speech) das palavras do corpus; e por fim o
terceiro o arquivo com as estruturas sintticas das sentenas (chunks). Um chunk pode
possuir sub-elementos chunks com informaes das sub-estruturas da sentena. Para
exemplificar, segue a descrio definida O Othon Palace Hotel e seus arquivos de word
(FIGURA 3.1), POS (FIGURA 3.2) e chunks (FIGURA 3.3).
27 A Ferramenta Xtractor engloba a anlise do corpus a partir do analisador sinttico PALAVRAS, o tratamento
da sada do analisador sinttico, com a gerao dos trs arquivos XML.
40
.....
.....
.....
.....
.....
.....
.....
o Othon_Palace_Hotel .....
FIGURA 3.1 Arquivo de words.
FIGURA 3.2 Arquivo de POS.
FIGURA 3.3 Arquivo de chunks.
Neste trabalho, os atributos dos sub-elementos chunks sero utilizados na identificao
das caractersticas das descries definidas, que sero mostradas na seo 3.7. Portanto, cabe
ressaltar que as informaes de interesse dos sub-elementos chunks so:
Atributo ext: representa a funo sinttica do chunk, por exemplo, sentena
ou enunciado (ext=sta); sujeito (ext=subj); ncleo (ext=h).
Atributo form: representa a forma ou estrutura morfossinttica do chunk, tais
como: clusula finita (form=fcl); sintagma nominal (form=np); substantivo (form=n).
41
Na seo que segue apresentada a ferramenta MMAX que usada neste estudo para
a anotao manual dos corpora utilizados.
3.3 MMAX
Para a anotao manual de corpus, utilizou-se a ferramenta MMAX (Multi-Modal
Annotation in XML) (MULLER, STRUBE, 2000). Essa ferramenta utiliza o arquivo de words,
gerado pela ferramenta Xtractor que contm todas as palavras do corpus associadas a um
identificador (FIGURA 3.1). Ela tambm utiliza um segundo arquivo que contm a estrutura
do corpus (pargrafos, sentenas, cabealhos etc.).
O resultado do processo de anotao no MMAX um arquivo que contm a anotao
de correferncia. As marcaes so codificadas como elementos markables, cujo atributo
span indica as palavras que formam a expresso, o atributo pointer indica o identificador do
antecedente; alm desses atributos; outros atributos podem ser especificados pelo pesquisador.
Em (GOULART; GASPERIN; VIEIRA, 2004) utilizou-se o atributo classification que
corresponde classificao anafrica da expresso.
Para exemplificar, segue o trecho de um dos textos do corpus 1:
(1) Segundo a Confederao Nacional dos Bispos do Brasil CNBB, a Igreja Catlica
perde em mdia, s no Brasil, 600 mil fiis para outras religies(i). [..] No incio do ano, ele
enviou ao Brasil 50 discpulos que se hospedaram no Othon Palace Hotel, em So Paulo(ii).
Observamos que no exemplo (1) temos duas sentenas: sentena (i) corresponde ao
span "word_276..word_297" e sentena (ii) corresponde ao span "word_698..word_721" no
arquivo da estrutura do corpus (Figura 3.4).
Para uma melhor compreenso do arquivo resultante com as marcaes desse estudo,
analisemos as marcaes das descries definidas sublinhadas na sentena (ii) ilustrada na
FIGURA 3.5. A expresso o Brasil (atributo span="word_708..word_709") possui como
42
.....
.....
.....
.....
.....
.....
.....
antecedente a expresso o Brasil que est destacada (em negrito) na sentena (i) (atributo
pointer="markable_36"), a forma de descrio definida (atributo form="defnp"), a
classificao de anafrica direta (atributo classification="direct"), pois o seu antecedente
possui o mesmo nome-ncleo da expresso (nome-ncleo Brasil) e a classificao de
correferente porque a expresso analisada e o seu antecedente se referem mesma entidade
(atributo coreference="coreferent"). J a expresso o Othon Palace Hotel (atributo
span="word_716..word_717) no possui um antecedente por ser a primeira manifestao da
expresso no discurso (atributo pointer=") e possui a forma de descrio definida (atributo
form="defnp"). Consequentemente, a expresso classificada como nova no discurso
(atributo classification="discourse_new") e no correferente (atributo
coreference="non_coreferent).
FIGURA 3.4 Arquivo da Estrutura.
FIGURA 3.5 Arquivo de Marcaes.
As ferramentas apresentadas (PALAVRAS, Xtractor, MMAX) so utilizadas no
contexto desse trabalho no processo de identificao automtica das caractersticas das
43
descries definidas (seo 3.8) e na metodologia proposta para o processo de aprendizado
(seo 3.9).
Na seo que segue so apresentadas a ferramenta ART, que trata a resoluo de
anforas, e a ferramenta Weka, formada por um conjunto de algoritmos de AM.
3.4 ART
ART (Anaphor Resolution Tool) uma ferramenta para resoluo de expresses
anafricas, entre elas as descries definidas, onde o processo de resoluo das anforas
baseado em heursticas (GOULART; GASPERIN; VIEIRA, 2004). Ela foi desenvolvida em
Java e para os seus dados de entrada e sada adotou-se a linguagem de marcao XML,
seguindo formatos MMAX (seo 3.3). Utiliza informaes adicionais baseadas na anlise
sinttica do analisador sinttico PALAVRAS (seo 3.2) para o portugus.
A arquitetura da ferramenta baseada em pipes & filters (GAMMA, 1995),
constituindo-se de um conjunto de trs etapas com uma ou mais tarefas codificadas atravs de
da linguagem XSL (FIGURA 3.6).
Na primeira etapa, denominada Input Analysis, a partir dos arquivos de Words, de POS
e de Chunks so extrados os nodos anafricos (anaphor) (A), onde o atributo span
corresponde a cada descrio definida do texto (FIGURA 3.7). Nesse passo tambm so
extrados os nodos candidatos a antecedentes (candidate) (B), onde o atributo span
corresponde aos sintagmas nominais do texto (FIGURA 3.8).
A prxima etapa utiliza a base de resoluo de heursticas (Resolution Heuristics
Base) composta por um conjunto de regras que implementam as heursticas para resoluo de
correferncia (regras R1 Rn) e filtram os nodos anafricos (anaphor) em busca dos seus
antecedentes (VIEIRA; SALMON-ALT; SCHANG, 2002).
44
Input Analysis
Resolution Heuristics Base
Output Generation
Words POS Chunks
C
Output
Rn
A
R2
R1
B
Na ltima etapa, chamada Output Generation, os resultados da ferramenta ART so
adaptados para o mesmo formato utilizado pela ferramenta MMAX (elementos markables)
(C) (FIGURA 3.9), com o intuito de possibilitar a comparao dos resultados da marcao
automtica e da marcao manual (GASPERIN; GOULART; VIEIRA, 2003).
FIGURA 3.6 Arquitetura da Ferramenta ART (GOULART; GASPERIN; VIEIRA, 2004).
Para exemplificar as etapas descritas, retomemos no exemplo (1) a sentena (ii) e
analisemos as descries definidas o Brasil (span ="word_708..word_709") e o Othon
Palace Hotel (span ="word_716..word_717) contidas nesta sentena. Na FIGURA 3.7
apresentado um trecho do arquivo de anforas, onde foram extradas as descries definidas
citadas. J na FIGURA 3.8 mostrado um trecho do arquivo de candidatos a antecedentes
(todos os sintagmas nominais). Para finalizar, na FIGURA 3.9, apresentado um trecho do
arquivo de marcaes, com o resultado da ferramenta ART, correspondente s descries
45
.....
o incio de o ano o ano o Brasil 50 discpulos que se hospedaram em o Othon_Palace_Hotel , em So_Paulo o Othon_Palace_Hotel .....
.....
.....
.....
o Brasil
o Othon_Palace_Hotel .....
definidas tomadas como exemplo, seguindo o mesmo formato da sada do MMAX (FIGURA
3.5).
FIGURA 3.7 Arquivo de Anafricas.
FIGURA 3.8 Arquivo de Candidatos a Antecedentes.
FIGURA 3.9 Arquivo de Marcaes.
3.5 Weka
Nesta seo descrita a ferramenta Weka que se constitui de um conjunto de
implementaes de algoritmos de aprendizado de mquina.
46
@RELATION descrio_definida @ATTRIBUTE atributo_1 {TRUE, FALSE}. @ATTRIBUTE atributo_2 {TRUE, FALSE} @ATTRIBUTE atributo_3 {TRUE, FALSE}. @ATTRIBUTE atributo_4 {TRUE, FALSE}. @ATTRIBUTE class {nova_discurso, outra}
@DATA TRUE,FALSE,TRUE,FALSE,nova_discurso FALSE,TRUE,FALSE,FALSE,nova_discurso FALSE,FALSE,FALSE,FALSE,outra FALSE,FALSE,FALSE,FALSE,outra ..................
O pacote Weka28 (Waikato Environment for Knowledge Analysis) foi desenvolvido
pela Universidade de Waikato, na Nova Zelndia e formado por um conjunto de
implementaes de algoritmos de Minerao de Dados (WITTEN; FRANK, 2000). O pacote
est implementado na linguagem Java, que tem como principal caracterstica ser portvel,
podendo rodar nas mais variadas plataformas e aproveitar os benefcios de uma linguagem
orientada a objetos, como modularidade, polimorfismo, encapsulamento, reutilizao de
cdigo, dentre outros; alm disso, um software de domnio pblico.
O Weka possui um formato prprio, o ARFF, que consiste basicamente de duas partes.
A primeira parte contm uma lista de todos os atributos, onde se define o tipo do atributo ou
os valores que ele pode representar (ao utilizar os valores esses devem estar entre {} e
separados por vrgulas). A segunda parte consiste das instncias, ou seja, os registros a serem
minerados; com o valor dos atributos para cada instncia separado por vrgula; a ausncia de
um item em um registro deve ser representada pelo smbolo ?. Para exemplificar, a
FIGURA 3.10 ilustra um arquivo no formato ARFF.
FIGURA 3.10 Arquivo no formato ARFF.
A ferramenta Weka alm de possuir mtodos de classificao e de predio numrica,
dispe tambm de 4 tipos diferentes de validao desses mtodos:
28 O Weka est disponvel em http://www.cs.waikato.ac.nz/ml/weka/
47
Use trainning set: no efetuar a diviso. Usar para testar o modelo o mesmo
conjunto usado para a sua construo.
Supplied test set: usar um conjunto de teste especfico.
Cross-Validation n-fold: validao cruzada29 em n-folds.
Percentage split: treinar o modelo numa percentagem do conjunto de exemplos e
testar na restante.
Nesta dissertao, a ferramenta Weka utilizada no processo de aprendizado, na etapa
de classificao das descries definidas, com a aplicao do algoritmo de rvores de deciso
J48, que uma re-implementao em Java do algoritmo C4.5 (QUINLAN, 1993) nessa
ferramenta. O algoritmo j48 no necessita de um ponto inicial de busca; dessa forma pode ser
executado apenas uma vez. Entre as funcionalidades do algoritmo j48 temos: a incorporao
de atributos numricos (contnuos); os valores nominais (discretos) de um atributo podem ser
agrupados de maneira a permitir testes mais complexos; possui poda (post-pruning) das
rvores para aumentar a preciso; permite lidar com informao incompleta (missing attribute
values), entre outros. Os valores dos parmetros de treinamento deste algoritmo podem ser os
sugeridos pela ferramenta (fator de confiana de poda (CF) igual a 0,25; nmero mnimo de
instncias por folha igual a 2 etc.) ou podem ser alterados quando necessrio.
Aps a escolha do mtodo de classificao e da forma de validao na ferramenta
Weka, esta fornece uma avaliao dos resultados com base em algumas medidas de avaliao
do desempenho. Algumas destas medidas sero descritas na seo seguinte.
3.6 Avaliao
A avaliao de sistemas de PLN exige um domnio abrangente sobre o problema em
observao para possibilitar ou o desenvolvimento de metodologias prprias de avaliao ou
29 Validao Cruzada: os exemplos so aleatoriamente divididos em r folds de tamanho n/r exemplos. Os
exemplos sobre (r-1) folds so usados para treinamento e a hiptese induzida testada no fold remanescente.
48
Abrangncia = n_acertos_classe
n_classe
Preciso = n_acertos_classe
n_classificados_classe
o bom uso de medidas j existentes. Segundo SANTOS (2001) s possvel o
desenvolvimento de uma boa avaliao se o problema analisado for quantificado e suas
vantagens de uso identificadas.
Para o desenvolvimento de um mtodo de classificao existem vrias questes
importantes em relao ao seu desempenho, tanto durante a sua construo como na sua
utilizao.
No contexto deste trabalho, aps o processo de aprendizado (seo 3.9), a resoluo
das rvores implementadas avaliada utilizando medidas de desempenho. As medidas de
avaliao de desempenho utilizadas aqui so adotadas da rea de Recuperao de Informao
(RI). Dentre as medidas mais importantes para a avaliao dos resultados e do desempenho
esto abrangncia, preciso e F-measure (KORFHAGE, 1997; KOWALSKI, 1997); e podem
ser obtidas atravs das seguintes relaes:
Abrangncia: a razo do nmero de acertos da classe pelo nmero total de itens
da classe, expressa na frmula mostrada na FIGURA 3.11:
FIGURA 3.11 Abrangncia.
Preciso: representa o grau de confiana de um mtodo de classificao, o que
torna a medida mais importante e necessria em qualquer tarefa de induo. geralmente
calculada como a razo entre o nmero de exemplos corretamente classificados sobre o
nmero total de exemplos classificados na classe, ilustrada na frmula descrita na FIGURA
3.12:
FIGURA 3.12 Preciso.
49
F = (2 + 1) * P*C
2 * (P + C)
A anlise de avaliao deve considerar tanto preciso quanto abrangncia. Por isso,
uma medida que combine os valores de preciso e de abrangncia obtendo o desempenho
geral do sistema, deve ser adotada. Neste trabalho, empregamos a medida F-measure que
permite um balanceamento entre os valores de preciso e abrangncia atravs da expresso na
seguinte frmula (FIGURA 3.13) em que o parmetro que permite a atribuio de
diferentes pesos para as medidas de preciso (P) e abrangncia (C), sendo 1 o valor
freqentemente utilizado. O valor do F-measure (F) maximizado quando a preciso e a
abrangncia so iguais ou muito prximas, assumindo por definio, o prprio valor da
preciso ou da abrangncia, representando o ponto de equilbrio do sistema.
FIGURA 3.13 F-measure.
Alm dessas medidas, utilizamos o percentual de acertos para a avaliao.
3.7 Grupos de Caractersticas das descries definidas
Um estudo de corpus foi realizado para analisar aspectos estruturais das descries
definidas com o objetivo de identificar as caractersticas que podem sinalizar as expresses
novas no discurso. Este estudo partiu de trabalhos realizados na Lngua Inglesa (VIEIRA,
1998), de um estudo inicial para a Lngua Portuguesa (COLLOVINI; GOULART; VIEIRA,
2004) e da anlise das possveis configuraes para as descries definidas da Lngua
Portuguesa (seo 2.4). Dessa forma, algumas caractersticas previamente identificadas para o
ingls foram verificadas para a Lngua Portuguesa. Alm destas, novas caractersticas foram
adicionadas.
50
As caractersticas foram organizadas em trs grupos para examinar melhor o desempenho de cada aspecto. O primeiro grupo composto por caractersticas relacionadas especificamente estrutura da descrio definida. No segundo grupo, reunimos as caractersticas que envolvem a anlise da sentena. E o terceiro baseia-se na anlise do texto.
Dessa forma, com a anlise de corpus observamos que a primeira manifestao de uma descrio definida ocorre de modo mais completo do que as demais. Por isso, os elementos
complementares elementos que se integram ao nome ncleo para complet-lo ou aperfeio-
lo foram selecionados como caractersticas do primeiro grupo (Grupo 1).
Analisamos tambm as relaes que ocorrem em descries definidas com verbos de ligao (ser, estar, permanecer etc.) denominadas construes copulares, pois composies mais completas podem sinalizar a primeira manifestao de um referente no texto. A verificao de construes copulares compe o segundo grupo de caractersticas (Grupo 2). Entendendo que expresses da primeira sentena no possuem antecedentes, elaboramos uma caracterstica que analisa a posio da sentena e que faz parte do segundo grupo (Grupo 2). Seguindo o princpio de que descries definidas novas no discurso no apresentam antecedentes foi desenvolvida, ento, uma caracterstica que busca um antecedente no texto (Grupo 3).
Estes grupos de caractersticas das descries definidas so descritas a seguir.
1. Caractersticas baseadas na estrutura do sintagma (GRUPO 1):
Caracterstica 1 (SP): descries definidas acompanhadas de um sintagma
preposicional, ps-modificador (restritivo). Por exemplo:
A tarde de ontem.
Nesses casos, um ps-modificador restritivo sucede o ncleo restringindo-o. Um
modificador restritivo permite que o referente seja identificado atravs da informao do
modificador (neste caso, um sintagma preposicional) que especifica a informao do ncleo,
no sendo necessrio recorrer a um antecedente para a sua interpretao.
Caracterstica 2 (APO): descries definidas constitudas de construes de apostos
com marca explcita. Por exemplo:
51
O prefeito de Gravata, Daniel Luiz Bordignom.
No corpus estudado, por tratar-se de textos jornalsticos, so relatadas informaes
explicativas (sobre locais, pessoas, empresas, eventos etc.), sendo que uma caracterstica
observada nesses textos a presena de construes de aposto que geralmente introduzem um
novo referente no discurso, sendo auto-explicativas.
Caracterstica 3 (APO_NP): descrio definida acompanhada de um nome prprio
constituindo um aposto sem marca explcita. Por exemplo:
O delegado Elson Campelo.
No corpus estudado, uma caracterstica observada nos textos a construo de
descries definidas com ncleo sendo um nome comum (substantivo comum), seguido de
um nome prprio com funo de aposto e geralmente tratando-se de um novo referente no
discurso.
Caracterstica 4 (REL): descries definidas acompanhadas de uma clusula
relativa. Por exemplo:
O texto que deve ser assinado pelos jornalistas.
No corpus estudado uma caracterstica observada nos textos a presena de clusulas
relativas modificando um nome e que geralmente introduzem um novo referente no discurso.
Caracterstica 5 (NP_COM): descrio definida com o ncleo sendo um nome
prprio composto. Por exemplo:
O Othon Palace Hotel.
No corpus estudado, verificamos que as estruturas com nomes prprios compostos
coincidem, predominantemente, com a classe nova no discurso. Geralmente, na continuidade
do texto, as expresses que retomam descries definidas com nomes prprios compostos o
fazem com apenas um dos nomes prprios ou com termos sinnimos.
52
Caracterstica 6 (SA): descrio definida acompanhada de um sintagma adjetival,
ps-modificador (restritivo). Por exemplo:
As conversas mais antigas.
Um ps-modificador restritivo sucede o ncleo limitando-o e permite que o referente
seja identificado atravs da informao do modificador (neste caso, um sintagma adjetival)
que especifica a informao do ncleo.
Caracterstica 7 (PRE_ADJ): descrio definida que apresenta um adjetivo
anteposto ao ncleo, pr-modificador (restritivo). Por exemplo:
O primeiro grau.
Um pr-modificador restritivo antecede o ncleo, limitando-o e especificando a
informao do ncleo.
Caracterstica 8 (PRE_NUM): descrio definida composta por um numeral
anteposto ao ncleo, pr-modificador (restritivo). Por exemplo:
Os 65 anos.
Essa caracterstica entende como numeral os nmeros cardinais, ordinais,
multiplicativos e fracionrios.
Caracterstica 9 (NUM): descrio definida que apresenta aps o ncleo um
numeral, ps-modificador (restritivo). Por exemplo:
Os anos 60.
Os nmeros cardinais, ordinais, multiplicativos e fracionrios fazem parte do conceito
de numeral dessa caracterstica.
Caracterstica 10 (DET): descrio definida que possui, alm do artigo definido,
outro(s) determinante(s). Por exemplo:
Os nossos arquelogos.
53
Ao lado do artigo definido, podem atuar como determinantes pronomes indefinidos
(todos, outros, poucos etc.), possessivos (seu, nossos, meu etc.), demonstrativos (mesmo,
outro, demais etc.).
Caracterstica 11 (SUP): descrio definida acompanhada de um superlativo. Por
exemplo:
Os melhores alunos.
Superlativo uma palavra que expressa uma qualidade (adjetivo) em um grau elevado
ou no mais elevado grau.
Caracterstica 12 (SUP_A): descrio definida que descreve o grau mximo de
qualidade (adjetivo), representando o maior ndice de uma escala. Por exemplo:
O Christofle lquido o melhor.
Uma descrio definida com essa caracterstica de