32
Seminário IN1099 Information Retrieval & Text Mining Luciano de Souza Cabral CIn-UFPE

Seminário IN1099 Information Retrieval & Text Mining

  • Upload
    zamora

  • View
    22

  • Download
    0

Embed Size (px)

DESCRIPTION

Seminário IN1099 Information Retrieval & Text Mining. Luciano de Souza Cabral CIn-UFPE. Roteiro. Introdução Motivação Recuperação de Informação Mineração de Textos Extração da Informação Extração do Conhecimento KDT Data Mining versus Text Mining Conclusão Referências. Introdução. - PowerPoint PPT Presentation

Citation preview

Page 1: Seminário IN1099 Information Retrieval  &  Text Mining

Seminário IN1099Information Retrieval & Text Mining

Luciano de Souza CabralCIn-UFPE

Page 2: Seminário IN1099 Information Retrieval  &  Text Mining

Roteiro Introdução Motivação Recuperação de Informação Mineração de Textos

Extração da Informação Extração do Conhecimento KDT Data Mining versus Text Mining

Conclusão Referências

Page 3: Seminário IN1099 Information Retrieval  &  Text Mining

Introdução

Crescimento das coleções de textos digitais(bibliotecas digitais, Internet, Intranets, ...)

Crescimento exponencial da World Wide Web

Novas técnicas de recuperação de informações (IR)

+

Page 4: Seminário IN1099 Information Retrieval  &  Text Mining

Motivação

O que fazer para encontrar (de forma eficiente) os melhores documentos que satisfaçam a pesquisa /consulta do usuário.

“Estamos morrendo ignorantes num mar de informações.” (Desconhecido)

Page 5: Seminário IN1099 Information Retrieval  &  Text Mining

Recuperação da Informação

Área de pesquisa e desenvolvimento que investiga métodos e técnicas para a representação, a organização, o armazenamento, a busca e a recuperação de itens de informação.

Objetivo principal: facilitar o acesso a documentos relevantes à necessidade de informação do usuário.

Page 6: Seminário IN1099 Information Retrieval  &  Text Mining

Conceito de Recuperação da Informação A Recuperação da Informação trata dos

aspectos intelectuais da descrição da informação e sua especificação para a busca, e também de qualquer sistema, técnicas ou máquinas que são empregadas para realizar esta operação. [Mooers, 1951]

Page 7: Seminário IN1099 Information Retrieval  &  Text Mining

Modelos de Recuperação da InformaçãoEficiência de um sistema depende

principalmentedo modelo que o mesmo utiliza:

Modelos quantitativos Modelos dinâmicos Linguagem natural Ambiente Web - Web Semântica

Page 8: Seminário IN1099 Information Retrieval  &  Text Mining

Abordagens de RI

Busca automática baseada em palavra-chave

Técnicas de Indexação Manual e Automática

Técnicas de Classificação Conceitos importantes

“ranking” “stemming” “tesaurus”

Page 9: Seminário IN1099 Information Retrieval  &  Text Mining

Critérios utilizados em RI Revocação

Grau de sucesso: número de documentos relevantes recuperados em relação ao total de documentos relevantes existentes

Precisão Mede o sucesso da filtragem: número de

documentos relevantes recuperados em relação ao total de documentos recuperados

Cobertura: volume de informações disponíveis Formato de saída Tempo de resposta Atualidade

Page 10: Seminário IN1099 Information Retrieval  &  Text Mining

Problemas de RI Ausência Contexto Problemas Lingüísticos Necessidade de Intervenção Humana

Page 11: Seminário IN1099 Information Retrieval  &  Text Mining

Extração do Conhecimento

Por definição, “A extração de conhecimento em bases de dados consiste na seleção e processamento de dados com a finalidade de identificar novos padrões, dar maior precisão em padrões conhecidos e modelar o mundo real. Data Mining, em português mineração de dados, refere-se ao exame de grandes quantidades de dados, procurando encontrar relações entre eles” [MICTHELL, 97].

[Cabral & Siebra, 06]

Page 12: Seminário IN1099 Information Retrieval  &  Text Mining

Extração do Conhecimento Etapas do processo

* Adaptado de [TERRA, 2000].

[Cabral & Siebra, 06]

Page 13: Seminário IN1099 Information Retrieval  &  Text Mining

Mineração de Dados Data Mining

“...é o processo de explorar grandes quantidades de dados à procura de padrões consistentes, como regras de associação ou seqüências temporais, para detectar relacionamentos sistemáticos entre variáveis, detectando assim novos subconjuntos de dados.” [Wikipedia]

Aplica-se dados categóricos e numéricos. Restrito a bases de dados relacionais e variações.

Page 14: Seminário IN1099 Information Retrieval  &  Text Mining

Mineração de Dados Text Mining

“...refere-se ao processo de obtenção de informação de qualidade a partir de texto em linguagens naturais. É inspirado na mineração de dados, que consiste em extrair informações de bancos de dados estruturados; a mineração de texto extrai informação de dados não estruturados ou semi-estruturados.” [Wikipedia]

Aplica-se a textos. Abrange textos em formato livre ou semi-

estruturados.

Page 15: Seminário IN1099 Information Retrieval  &  Text Mining

Data Mining versus Text Mining

* Adaptado de [WOHL, 1998].

[Cabral & Siebra, 06]

Page 16: Seminário IN1099 Information Retrieval  &  Text Mining

Abordagens e Áreas envolvidas Computacional

Aprendizagem de máquina; Lógica Fuzzy; Estatística; Recuperação da Informação.

Simbólica Processamento de Linguagem Natural; Raciocínio baseado em casos e simbólico

Ambas abordagens podem ser combinadas.

[Freitas, 07]

Page 17: Seminário IN1099 Information Retrieval  &  Text Mining

Abordagens da Mineração de TextoPrós e Contras Computacional

Bom para maioria das tarefas;

De implementação rápida, baseada em aprendizagem;

Não recomendado para argumentação e dedução de informações.

Baseado em Conhecimento Melhor no tratamento

de contextos Ontologias!

Combina melhor com técnicas PLN Pergunta-Resposta Análise e

Argumentação Textual Extração de

Informação Pouquíssimo utilizado

na articulação de conceitos

[Freitas, 07]

Muitas aplicações combinam as duas abordagens! (Ex: KDT, IE from Texts)

Page 18: Seminário IN1099 Information Retrieval  &  Text Mining

KDT - Knowledge Discovery from Texts

Técnicas KDT Extração de Informação Categorização de textos Análise das características Análise lingüística Sumarização de textos Associação entre textos Clustering (Agrupamento)

Page 19: Seminário IN1099 Information Retrieval  &  Text Mining

Ontologias Definições

“Uma ontologia é um entendimento comum e compartilhado de algum domínio que pode ser comunicado entre pessoas e computadores” [STUDER et al., 1998];

“Uma ontologia é uma representação de um domínio ou realidade. No caso de uma coleção de textos, a ontologia é uma representação dos temas, assuntos ou conceitos presentes nos textos” [LOH et al., 2004].

Page 20: Seminário IN1099 Information Retrieval  &  Text Mining

Vantagens Discussões na área de Mineração de Textos é

se um software poderá extrair automaticamente conhecimento a partir de uma coleção textual.

Experimentos realizados pelo Text Mining Research Group at the University of Waikato mostram que é possível automatizar partes do processo de descoberta, minimizando a dependência do usuário.

Entretanto é notório que algum tipo de intervenção humana é necessária e útil.

Page 21: Seminário IN1099 Information Retrieval  &  Text Mining

Tendências Necessidade de integrar cada vez mais

as abordagens de BD, HM e RI com ontologias Busca de maior “semântica” associada às

informações

Abordagens apresentam funcionalidades complementares

Fronteira entre o tipo de informação tratada por cada abordagem tende a desaparecer

Crescente necessidade de uso de Taxonomias e Ontologias

Page 22: Seminário IN1099 Information Retrieval  &  Text Mining

Aplicações de RI com Ontologias OntoSeek M&M MASTER-Web AGATHE* KIM Platform WSMO Studio ambiente para modelagem de SWS OWLIM repositório semântico de escala industrial Wsmo4j API e referências para construção de SWS PROTON um pequeno construtor/editor de

ontologias de propósito geral. ORDI um framework para representação de

ontologias e integração de dados via middleware.

Page 23: Seminário IN1099 Information Retrieval  &  Text Mining

OntoSeek

Desenvolvido para recuperar informações de páginas-amarelas e catálogo de produtos.

Ontologia na interface do usuário; Trata ambiguidade, polisemia, sinonímia e relações parte todo

usando WordNet [Miller, 95]

[Guarino et al., 99]

Page 24: Seminário IN1099 Information Retrieval  &  Text Mining

M&M

M&M query system, por Natasha Noy. Apresenta conceitos de RI como sistema de

Pergunta-Resposta sobre o domínio de Microbiologia.

Capacidade de realização de vários tipos de inferências: generalização, especialização e parte-todo.

Performance muito boa.

[Noy, 99]

Page 25: Seminário IN1099 Information Retrieval  &  Text Mining

Master-WEB[Freitas & Bittencourt, 2003]

• Multi-Agent System for Text Extraction, Retrieval and classification over the WEB.

• Testes com ontologias de domínios diferentes, com resultados expressivos.

• Sem grandes alterações no projeto.

Page 26: Seminário IN1099 Information Retrieval  &  Text Mining

KIM Platform Plataforma de Gerenciamento de Informação e

Conhecimento. Indexa, Armazena, Recupera, Consulta, análise de

linha de tempo das anotações semânticas.

Page 27: Seminário IN1099 Information Retrieval  &  Text Mining

Evolução: Recursos na Web

Futuro: Web Semântica

Não apenas informações e aplicativos, mas

recursos em geral!

Page 28: Seminário IN1099 Information Retrieval  &  Text Mining

O que é Web Semântica? É uma extensão da Web atual que visa dar

significado semântico ao conteúdo das páginas Web, criando um ambiente onde agentes de software e usuários possam trabalhar de forma cooperativa [Tim Berners-Lee et al., 01]

Page 29: Seminário IN1099 Information Retrieval  &  Text Mining

Web Semântica: Visão da W3C “A Web Semântica é uma visão: é a idéia de

se ter dados na Web definidos e ligados de uma maneira tal que possam ser usados por máquinas não só com o objetivo de apresentação, mas para automação, integração e reuso de dados entre aplicações” [W3C]

Page 30: Seminário IN1099 Information Retrieval  &  Text Mining

XML e a Web Semântica Convergência de diversas tendências

Uso de padrões Busca de flexibilidade, conviver com

heterogeneidade Maior automatização Melhoria dos mecanismos de busca Melhoria dos descritores associados aos

recursos Maior suporte à integração de recursos

Serviços Web + Ontologias

Page 31: Seminário IN1099 Information Retrieval  &  Text Mining

Conclusões A Recuperação da Informação sozinha apresenta

alguns problemas não triviais de serem tratados. A utilização de Mineração de Textos combinada

com abordagens baseadas em conhecimento diminui o domínio de problemas apresentado em RI, além de aumentar a precisão dos resultados, obviamente dependendo da definição do contexto a ser analisado.

Uso de ontologias em sistemas de recuperação e mineração textual é comprovadamente benéfico, aumentando consideravelmente seus resultados.

Adição de semântica na web abre um leque com novas possibilidades de processamento de informações.

Page 32: Seminário IN1099 Information Retrieval  &  Text Mining

Referências TERRA, J.C.C. Gestão do conhecimento: o empresarial. Grande desafio. São Paulo: Negócio Editora, 2000.

TEXT MINING RESEARCH GROUP AT THE UNIVERSITY OF WAIKATO. Text Mining. Disponível em: <http://www.cs.waikato.ac.nz/~nzdl/textmining/>. Acesso em: 30/09/2007.

MICTHELL, Tom. Machine Learning, McGraw Hill, 1997.

WOHL, Amy D. Intelligent Text Mining Creates Business Intelligence. IBM Business Intelligence Solutions CD. EUA: 1998.

STUDER, R. et al. Knowledge engineering: principles and methods. Data & Knowledge Engineering, v.25, n.1/2, 1998.

LOH, S. et al. Apoio à gestão de competências: Software para análise de conceitos . INTEXT: Porto Alegre, Dezembro, 2004.

CABRAL, Luciano & SIEBRA, Sandra. Identificação de Competências em Currículos usando Ontologias. Revista de Ciência , Tecnologia e Empreendedorismo, CETEC-FIR. v.1, n.1, Recife, 2006.

FREITAS, Fred. A quest for context: knowledge-based approaches for text mining. Lecture Notes, PPT, Marseille, 2007.

WIKIPEDIA. Wikipédia. A enciclopédia livre. <www.wikipedia.org>.

RIBEIRO-NETO, Berthier & BAEZA-YATES, Ricardo. Modern Information Retrieval. ACM Press. 1999.

W3C, World Wide Web Consortium, Semantic Web Activity Statement. <http://www.w3.org/2001/sw/Activity>. Acesso em: 30/09/2007.

GUARINO, N. ; Masolo, C. & Vetere, G. OntoSeek: Content-Based Access to the Web, IEEE Intelligent Systems, 14(3), 70--80, (May 1999).

KIRYAKOV, A.; POPOV, B.; TERZIEV, I.; MANOV, D. & OGNYANOFF , D. Semantic Annotation, Indexing, and Retrieval Extended and updated version of [KiryakovEtAl2003]. Elsevier's Journal of Web Semantics, Vol. 2, Issue (1), 2005.

POPOV, B.; KIRYAKOV, A.; OGNYANOFF, D.; MANOV, D. & KIRILOV, A. KIM - A Semantic Platform For Information Extraction and Retrieval. Journal of Natural Language Engineering, Vol. 10, Issue 3-4, Sep 2004, pp. 375-392, Cambridge University Press.