31
Geração automática de tesaurus e recuperação de informação Pablo Gamallo [email protected] http://terra/ ~gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

Geração automática de tesaurus e recuperação de informação Pablo Gamallo [email protected] gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

Embed Size (px)

Citation preview

Page 1: Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

Geração automática de tesaurus e recuperação de informação

Pablo Gamallo [email protected]

http://terra/~gamalloGLINt (Gupo de Lingua Natural) FCT, UNL

Page 2: Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

Plano

• Sistemas de recuperação de informação e processamento da linguagem natural

• Tesaurus e ontologias

• Construção automática de tesaurus a partir de texto analisado• Uso de tesaurus em sistemas de pesquisa e recuperação de informação

Page 3: Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

Tesaurus e Ontologias

• Definição dualista:

OntologiaOntologia: conjunto de conceitos + relações

TesaurusTesaurus: conjunto de termos de uma língua ligados a uma ontologia

• Definição basada na hipôtese relacional:

Tesaurus = OntologiaTesaurus = Ontologia: conjunto de termos + relações semânticas

Page 4: Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

multa coima (sinonímia)

presidente secretário (co-hiponímia)

pequeno grande (antonímia)

ministério ministro (meronímia)

banco instituição (hiperonímia)

Tesaurus e Ontologias

Page 5: Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

Tesaurus e Ontologias

Tesaurus = Ontologia = Terminologia

Propriedades duma Terminologia:Propriedades duma Terminologia:

termos relevantes para um domíniotermos relevantes para um domínio

pouca polisemiapouca polisemia

pouco interés nos termos pouco interés nos termos “upper-level”

problema de “problema de “portabilidadeportabilidade” a outros domínios” a outros domínios

Page 6: Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

Tesaurus e OntologiasWordNet

• Sinonímia: única relação entre termos (“word forms”).• Duas palavras são sinónimas se elas têm o mesmo significado num dado contexto.

• As relações semânticas (hiperonímia, meronímia…) são relações entre synsets

• Synsets: conjuntos de sinónimos contextuais. Cada synset representa um significado.

• Polisemia: um termo é polisémico se ele aparecer em diferentes synsets.

Page 7: Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

Tesaurus e Ontologias

Informação associada a “Organisation” em WordNet

• Synsets (3 senses):(1) arrangement, organisation, system (an organised structure for arranging or classifying)

(2) administration, governance, body, establishment, organisation (the persons, departments etc. who make up a body for the purpose of administering something)

(3) constitution, establishment, formation, organisation (the act of forming something)

Page 8: Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

Tesaurus e OntologiasResults for Hyponyms of “organisation” in WordNet

Sense (1): distribution, statiscal distribution coordinate system, frame of reference, reference system

Sense (2): county, council government, officials, officialdom judiciary, bench

Sense (3): collectivisation colonisation, settlement federation

Page 9: Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

Sistemas de RI e PLN

Indexação de documentos

Selecção de textos relevantes a uma determinada consulta

Page 10: Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

Sistemas de RI e PLN

• Indexação de documentos:Os documentos são representados por “termos de índices”

• Selecção de textos relevantes a uma determinada consulta:- As consultas são representadas por “termos de consulta”

- As búsquedas utilizam o “matching” (mapeamento) entre termos de índices e termos de consulta

- Operadores de consulta: And, Or, And_Not

- Ordenamento dos documentos recuperados

Page 11: Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

Sistemas de RI e PLN• Uso do PLN para representar texto (documentos e consultas) : tokenização eliminação das “stopwords”

• Uso do PLN para melhorar a indexação e permitir recuperaçoes inteligentes: Reconhecemento de descritores: reconhecer aqueles índices que representam o tema ou tópico do documento.

Normalização dos índices (geração de índices controlados) : transformação das formas dos termos em representações mais abstractas, por forma a:

- pôr em relação índices com o mesmo significado- economia de índices

Page 12: Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

Sistemas de RI e PLN

• Reconhecemento automático de descritores: marcas tipográficas: termos em títulos, resumos, em negrito, ... eliminação de termos que ocorrem em claúsulas subordinadas (- 30%) identificação de termos compostos

• Indices normalizados e controlados: Normalização morfológica: agrupar variações de índices em torno de uma forma canónica (por flexão e por derivação)

Normalização semântica: agrupar variações de índices em torno de um conceito común: identificação de termos relacionados semanticamente (importância do tesaurus)

Page 13: Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

Geração de thesaurus: Propriedades

Hipótese distribucional:As palalavras que partilham os mesmos contextos estão associadas semanticamente

Textos com conteúdo específico: “domain-specific corpus”

Tipos de contexto: co-ocorrência simples (bigramas) co-ocorrência numa janela (n-gramas) estructuras sintácticas

Page 14: Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

Geração de thesaurus: Etapas

Extracção dos contextos sintácticos do corpus

Métrica de similaridade entre palavras (baseada nos contextos partilhados)

Identificar para cada palavra, a lista de palavras mais semelhantes

Page 15: Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

Extracção de contextos sintácticos: Etapas

• Tagging: marcação em categorias morfossintácticas

• Parsing Parcial: marcação em chunks básicos

• Heurísticas de “Attachment”

• Identificação de relações binárias

• Extracção de contextos sintácticos

Page 16: Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

“Falta pois a participação directa do funcionário no acto documentário.” (corpus P.G.R.)

• Tagger:Tagger:Falta_V pois_ADV a_ART participação_N directa_ADJ de_PREP o_ART funcionário_N em_PREP o_ART acto_N documentário_ADJ

Tagging e Parsing Parcial

• Parsing Parcial (Chunks Básicos):Parsing Parcial (Chunks Básicos): VP( faltar, pois)

NP(a, participação, directa)

PP(de, NP(o, funcionário))

PP(em, NP(o, acto, documentário))

Page 17: Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

Heurísticas de “Attachment” eRelações Sintácticas

• Attachment de Chunks Básicos:Attachment de Chunks Básicos:<VP(faltar, pois) , NP(a, participação, directa)>

<NP(a, participação, directa), PP(de, NP(o, funcionário))>

<NP(o, funcionário), PP(em, NP(o, acto, documentário))>

• Relações Sintácticas entre palavras:Relações Sintácticas entre palavras:<DOBJ, faltar , participação>

<DE, participação, funcionário>

<EM, funcionário, acto>

Page 18: Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

Contextos sintácticos

<DOBJ, faltar , participação> :

<DOBJ, (*) , participação> <DOBJ, falta , (*)>

<DE, participação, funcionário> :

<DE, participação, (*)> <DE, (*), funcionário>

<EM, funcionário, acto > :

<EM, funcionário, (*)> <EM, (*), acto>

Page 19: Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

Medida de Similaridade Coeficiênte de JaccardCoeficiênte de Jaccard

A similaridade entre duas palavras depende de:A ratio entre o número de contextos que são comuns às duas palavras e o número total dos seus contextos.

Page 20: Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

Similarity Measure Weighted Weighted Jaccard coefficientJaccard coefficient

Page 21: Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

MicroCorpus em Lingua Natural

Pedro lê um livro e Maria lê um livro,

Pedro lê um romance e Maria lê um romance,

Pedro também lê muita coisa mas Pedro gosta de Maria,

Maria gosta de livros, Maria gosta de muita coisa.

Maria come uma maçã e Pedro come uma maçã,

Pedro também come uma salchicha, Pedro come muita coisa,

Maria come salchichas, Maria gosta mesmo de salchichas.

Page 22: Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

Relaçoes Thesáuricas entre nomes

Pedro Maria livro romance maçã salchicha coisa livro, salchicha, maçã, romance (livro salchicha)? (Maria coisa)?? (Pedro salchicha)???

Page 23: Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

Extração de Contextos sintácticos de nomes

Pedro: (<SUBJ, ler , (*)>, 3) (<SUBJ, gostar , (*)>, 1) ( <SUBJ, comer, (*)>, 3)

Maria: (<SUBJ, ler , (*)>,2) (<SUBJ, gostar , (*)>, 3) (<SUBJ, comer, (*)>,2) (<IOBJ-DE, gostar, (*)>,1)

romance: (<DOBJ, ler , (*)>,2) livro: (<DOBJ, ler , (*)>,3) (<IOBJ-DE, gostar , (*)>,1) coisa: (<DOBJ, ler , (*)>,1) (<DOBJ, comer, (*)>,1)

(<IOBJ-DE, gostar , (*)>,1) maça: (<DOBJ, comer , (*)>,2). salchicha: (<DOBJ, comer , (*)>,2) (<IOBJ-DE, gostar,(*)>,1)

Page 24: Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

Cálculo do Peso dum contexto para cada palabra (3):

romance: (<DOBJ, ler , (*)>, 2) GW(<DOBJ, ler , (*)>) = log (2/1 + 3/2 + 1/3) / log(3) = 0.54 / 0.47 = 1.15LW(romance, <DOBJ, ler , (*)>) = log(2) = 0.3W(romance, <DOBJ, ler , (*)>) = 1.45

livro: (<DOBJ, ler , (*)>, 3) GW(<DOBJ, ler , (*)>) = log (2/1 + 3/2 + 1/3) / log(3) = 0.54 / 0.47 = 1.15LW(livro, <DOBJ, ler , (*)>) = log(3) = 0.47W(livro, <DOBJ, ler , (*)>) = 1.62

livro: (<IOBJ-DE, gostar , (*)>, 1) GW(< IOBJ-DE, gostar , (*)>) = log (1/2+ 1/4+1/3 + 1/2) / log(4) = 0.19 / 0.6 = 0.31LW(livro, < IOBJ-DE, gostar , (*)>) = log(1) = 0.W(livro, < IOBJ-DE, gostar , (*)>) = 0.31

Page 25: Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

Similidade entre palavras (2)

WJ(maça, salchicha) = 1.4 / 1.71 = 0.81min( (1.4), (1.4) ) = 1.4max( (1.4), (1.4+0.31) ) = 1.71

WJ(maça, coisa) = 1.1 / 2.68 = 0.410.41min( (1.4), (1.1) ) = 1.1max((1.4), (1.27+0.31+1.1) ) = 2.68

WJ(salchicha, coisa) = 1.41 / 2.68 = 0.510.51min( (1.4+0.25), (1.1+0.31) ) = 1.41max( (1.4+0.25), (1.27+0.31+1.1) ) = 2.68

WJ(romance, coisa) = 1.1 / 2.68 = 0.410.41min( (1.45), (1.1) ) = 1.1max((1.45), (1.27+0.31+1.1) ) = 2.68

Page 26: Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

Similidade entre palavras (Ordenamento)

(0.83) Pedro Maria (0.81) maçã salchicha (0.75) livro romance(0.58) coisa livro(0.51) coisa salchicha(0.41) coisa maçã, romance(0.16) livro salchicha(0.11) Maria salchicha(0.09) Maria coisa(0.0) Pedro salchicha(0.0) romance salchicha

Page 27: Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

juíz| {dirigente, presidente, subinspector, governador, árbitros}

diploma| {decreto, lei, artigo, convenção, regulamento}

decreto| {diploma, lei, artigo, nº, código}

regulamento| {estatuto, código, sistema, decreto, norma}

regra| {norma, princípio, regime, legislação, plano}

renda| {caução, indemnização, reintegração, multa, quota}

conceito| {noção, estatuto, regime, temática, montante}

Corpus da Procuradoria Geral da República (P.G.R.)

Listas de palavras semelhantes

Page 28: Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

Thesaurus e Pesquisa de Informação

Construção de thesaurus: conjunto de termos e conjunto de relações entre esses termos

Acesso ao thesaurus para expandir as pesquisas

Avaliação do thesaurus através da expansão das pesquisas, por forma a melhorar a recuperação de informação

Page 29: Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

Expansão de pesquisas via thesaurus

Expansão restrictiva via coocurrências frequêntes:república: presidente da república, assembleia da república...câmara: presidente da câmara, vereador da câmara...

Expansão associativa:Se um termo é óptimo para discriminar documentos relevantes, então qualquer termo associado também é um bom discriminadorcategoria: cargo, carreira, lugar, funçðes...

Page 30: Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

Problemas da expansão

Que palavras ou termos da pesquisa devem ser expandidos?queryquery: “TIPO DE REMUNERAÇÃO”

Termos associados podem diversificardiversificar os textos recuperados:juíz, ministro, investigador

Page 31: Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

Bibliografia

http://terra/~gamalloGamallo P., Agustini A., Lopes G.P. (2002) " Using Co-composition for Acquiring Syntactic and Semantic Subcategorisation ", Workshop SIGLEX'02 (ACL'02), Philadelphia.

Gamallo P., Gonzalez, M., Agustini A., Lopes G.P., S. de Lima, V. (2002) " Mapping Syntactic Dependencies into Semantic Relations", Workshop OLT'02 (ECAI'02), Lyon, France (15-22)

Gamallo P., Gasperin C. Agustini A. Lopes G.P. (2001) " Syntactic-Based Methods for Measuring Word Similarity", In: V. Matousek, P. Mautner, R. Moucek and K. Moucek (Eds.), Text, Speech and Discourse (TSD-2001), LNAI, Springer-Verlag, Plenz, CZ (116-125)