View
18
Download
2
Category
Preview:
DESCRIPTION
Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web. Metodologia de Ciência da Computação Professora: Odette Mestrinho Passos Alunos: André Porto Letícia Santos Marcelo Henrique. WEB. Grande quantidade de informação não-estruturada. - PowerPoint PPT Presentation
Citation preview
Aplicações dos Modelos de Aplicações dos Modelos de Recuperação da Informação na Recuperação da Informação na Extração de Conteúdos na WebExtração de Conteúdos na Web
Metodologia de Ciência da ComputaçãoProfessora: Odette Mestrinho Passos
Alunos:André PortoLetícia SantosMarcelo Henrique
WEBWEB
• Grande quantidade de informação não-
estruturada.
• Necessidade do usuário filtrar informações
relevantes.
• Bancos de Dados para várias funções.
• Importância dos sistemas
• IETS
• CRF (estado-da-arte)
WEBWEB
Fundamentação teóricaFundamentação teórica
DefiniçãoSistemas que lidam com representação,
armazenamento,organização e acesso as informações.
ObjetivoEncontrar objetos de diferentes tipos de
estruturas que satisfacam um conjunto de informações dentro de uma grande coleção.
ModelosModelos
VetorialBooleano
Probabilístico
Modelo vetorialModelo vetorial
• Representação como vetores de termos
• A cada termo é possível associar um peso:• TF : caracterisitcas em comum• IDF : distinguir
• O termo cos(q) determina a proximidade da ocorrência.
• Similar: mesma região
Modelo booleanoModelo booleano
• Baseado na teoria dos conjuntos
• Cada documento está associado a um conjunto de palavras-
chave
• Cada consulta é na forma de uma expressão booleana.
• Termos de índice na combinação especificada pela
consulta.
Modelo probabilísticoModelo probabilístico
• Probabilidade de relevância ou incerteza
• Pesar dinamicamente os termos da consulta em relação ao
documento
• Termos relevantes já obtidos recebem peso maior dos que
não apareceram nos documentos relevantes.
AplicaçõesAplicações
Web semântica
AplicaçõesAplicações
ONDUXOn Demand Unsupervised Extraction
• Método baseado em Recuparação de Informação para realizar tarefas de EIST.
• Sem fase de treinamento ajustada por usuários.
• Possibilidade de criação de modelos não específicos.
• Obteve resultados iguais ou melhores.
ONDUX
Três fases principais:
ONDUX
ONDUX
Coroado R$100,900 1010 Novo Lar.;
3 quartos 2 Banheiros 8199-7654
Coroado R$100,000
1010 Rua Novo Lar.; 3 quartos;
2 banheiros.
8199-7654
Blocking
ONDUX
B0
Matching
Coroado R$100,00 1010 Novo Lar
3 Quartos 2 Banheiros 8199-7654
Rua Preço No. ??? Rua
Qtos. Banh. Telefone
B1 B2 B3 B4
B5 B6 B7
ONDUX
Coroado R$100,00 1010 Novo Lar
3 Quartos 2 Banheiros 8199-7654
Rua Preço No. ???? Rua
Qtos. Banh. Telefone
Reinforcement
Coroado R$100,00 1010 Novo Lar
3 Quartos 2 Banheiros 8199-7654
Bairro Preço No Rua
Qtos. Banh. Telefone
Dúvidas?Dúvidas?
Obrigado!
Recommended