Upload
internet
View
106
Download
0
Embed Size (px)
Citation preview
Agentes em Recuperação da Informação
Equipe
Daniel Penaforte (dap4) Daniel Julião (dvsj) Davi Pires (dpr) Ernani Azevedo (ema3) Everton Marques (egm2) Farley Millano (XXXXXXXXXX) Guilherme Carvalho (ggc) Guilherme Moura (gsm) Nitai Bezerra (nbs) Pedro Montenegro (pmr)
Roteiro
Introdução a RI Papel dos Agentes em RI Agentes na WEB
Recomendação Filtragem Notificadores E-commerce Chatterbots
“Morrendo ignorante num mar de informações”
- Dificuldade de localizar documentos relevantes !!
Como funciona?
Web Pages 1870 found.
Usuário
Necessidade deInformação
CasamentoCasamento
Documento
s
IndexaçãoConsultaRepresentação
Formulação
Recuperação de Informação Motivação
Tarefa típica de Recuperação de Informação (RI)
Dados Um corpus de documentos (itens de
dados) & Uma consulta do usuário (representada por
palavras-chave) Encontrar
Um conjunto ordenados de documentos que são relevantes para a consulta
Sistemas de RI
Sistema de RIConsulta
Corpus de documentos
Documentos ordenados
1. Doc12. Doc23. Doc3 . .
Usuário
Recuperação de InformaçãoDefinição
Área de pesquisa e desenvolvimento que investiga métodos e técnicas para a representação, a organização, o
armazenamento, a busca e a recuperação de itens de informação
Objetivo principal facilitar o acesso a documentos (itens de
informação) relevantes à necessidade de informação do usuário
Geralmente representada através de consultas baseadas em palavras-chaves
Papel dos Agentes em RI(A Internet)
Informações diversificadas Usuários diversificados Desafios
informação aos usuários não-técnicos; libertar os usuários das tarefas
repetitivas da WEB; envio de informações relevantes aos
usuários. Formato, Conteúdo.
Papel dos Agentes em RI(Motivação)
Rápido crescimento do volume de informações disponível na Internet
Velocidade em encontrar informação é diferencial competitivo
Dificuldade em localizar documentos relevantes Alto consumo de tempo Síndrome da Nau perdida
TOO MUCH INFORMATION = NO INFORMATION
Agentes na Web
Objetivos: Obter uma quantidade de informações
razoável ao usuário. Trazer as informações que
correspondam ao perfil e necessidade do usuário.
Fazer com que estas informações sejam de qualidade.
Agentes em Sistemas de Recomendação
Recomendam itens de informação ao usuário de acordo com o seu perfil
Exemplos WebMate Letizia InfoAgent
Agente de busca pessoal (assistente digital).
Acompanha o usuário enquanto ele navega na Internet: Recomenda novas URLs; Oferece os documentos web mais relevantes; Responde ao feedback do usuário; Compila um jornal pessoal diário com links
para documentos de interesse do usuário.
WebMate 1/5
A arquitetura do WebMate consiste em: um proxy autônomo que monitora as ações
do usuário; um controlador applet que interage com o
usuário.
WebMate 2/5
WebMate 3/5
WebMate 4/5
WebMate 5/5
H.Lieberman-MIT. Imita o comportamento do usuário,
baseado em preferência, não em relevância.
Segue o usuário e tenta antecipar o que é de interesse, com heurísticas simples e metas.
HP dinâmica e acessível, com sugestões. Aproveita o tempo inútil e é ético.
Letizia 1/3
Behavior-BR - justificativas Interesse: seguir um link ou revisitá-lo, ou
acessar muitas páginas sobre um assunto.
Desinteresse: desprezar um link ou retornar.
Persistência de interesse e “esquecimento”.
Achados ao acaso: tenta descobrir interesses não-óbvios.
Letizia 2/3
Letizia 3/3
Info Agent 1/4
Info Agent é composto de 3 componentes principais: Webwatcher SearchEngine UI Bookmark Manager
Info Agent 2/4
Webwatcher Procura por alterações em páginas web Avisa ao usuário sobre tais alterações Pode ser configurado da maneira
desejada.
SearchEngine UI SearchEngine Dmoz searchAndBrowse:
'Squeak‘ SearchEngine Dmoz searchAndManage:
'Squeak‘ Varre os resultados da Busca por URLs
e insere no Bookmark Manager
Info Agent 3/4
Info Agent 4/4
Bookmark Manager Documentos do WebWatcher:
“Webwatched Documents” Documentos resultantes de buscas:
“Search Results”
Agentes em Sistemas de Filtragem Motivações
Crescimento do volume de informações em ambientes distribuídos Dificuldade em localizar documentos relevantes Consumo de tempo
Ferramentas que automatizam a recuperação de informações
Introdução
Definição
Agentes que filtram colhem informações de várias fontes e selecionam documentos baseados em determinados critérios
Existem vários exemplos de filtragem de informações Foco em Informações na Internet
Mail News
Filtragem
BIndex ...
Técnica de Representação de Textos
Extração de conceitos importantes em documentos Heurística de frequência de palavras EX: Term Frequency-Inverse Document
Frequency (TFIDF)Fórmula:
TFIDF(W) = TF(W) * log |D|/ DF(W)onde |D| é o número total de documentos do conjunto
Maior frequência no documento e rara presença nos outros indica maior relevância
Palavras com maiores pesos são selecionadas formando um vetor de representação do documento
EXEMPLOS
BORGES ( A . F. SMEATON , 1996 ) Usuário especifica palavras ou frases
Destaca palavras polisemânticas, mostrando significados alternativos, para que o usuário escolha
O sistema expande o perfil do usuário, incluindo termos relacionados
EXEMPLOS
WebWatcher (http://cs.cmu.edu/afs/Web/People/webwatcher) Usuário especifica palavras-chaves
Duas páginas estão relacionadas, se alguma terceira página apontar para ambas
O algoritmo usa “informação mútua” como uma medida de similaridade para comparar links
EXEMPLOS
LAW (D. Bayer, 1995) Monitora ações do usuário (bookmarking,
impressão de páginas, etc...)
Características dos documentos Modelar o perfil do usuário
Um robô autônomo busca páginas relevantes, de acordo com este perfil
EXEMPLOS SAMURAI (H. Leong, S. Kapur, O de Vel, 1997)
É composto de 5 módulos: – Sumarização do texto– Monitoração e modelagem do usuário– Máquina de busca– Filtragem de links – Compilação dos resultados
WEBSOM (http://websom.hut.fi/websom/) SYSKILL (http://www.ics.uci.edu/pazzani/Syskill.html)
EXEMPLOS
Bullseye Desktop software Utiliza cerca de 600 search engines
NewsHound Busca notícias de diversos jornais a partir do
perfil do usuário. Envia estas informações através de e-mail ou
páginas html. Utiliza critérios de relevância.
EXEMPLOS NewsWeeder (uso experimental Carnegie Mellon
University) Usuário visita cada NewsGroup e avalia artigos
com notas de 1 a 5 Perfil do usuário a partir das notas 50 melhores artigos selecionados de acordo com
seu perfil A classificação Técnicas de medidas de
similaridade
EXEMPLOS Pefna (Universidade de Estocolmo - Kilander)
Categorias em ordem de importância
Bom exemplo da categoria é assinalado para seu treinamento
Categoria pode conter um ou mais exemplos
Comparação Medidas de similaridade com categorias existentes
Notificadores WEB
Serviço automático ativado por algum evento ocorrido dentro de um critério;
Critérios são geralmente definidos por termos;
Agentes enviam mensagens (e-mail, SMS...) para usuários registrados;
Como funcionam?
Trabalham em conjunto com outro serviço de informação
Acionado quando o critério é atingido Exemplos:
Google Alert ChangeDetect
Google Alert 1/2
Cadastra termos de busca no google Classificação:
News (Artigos) Web (Internet “top20”) News and Web (Artigos e Internet
“top20”) Groups (Google Groups)
Envia e-mail quando o termo combina com novos resultados
Google Alert 2/2
Forma ‘Google’ de criar e gerenciar as entradas Simples Intuitivo
ChangeDetect 1/3
Notifica sobre modificações em páginas cadastradas para usuários;
Destaca as modificações nas páginas por códigos de cor;
Muito “completo”: detecções constantes ou programadas filtragem extra categorias personalizadas várias formas de notificação detecta modificações em vários formatos de
arquivo
ChangeDetect 2/3
É extremamente configurável pode ser um problema...
ChangeDetect 3/3
Automatizar parte do processo -> economia Comparar produtos de diferentes
vendedores Quão fácil é expressar suas
preferências para a tarefa? Comprar um presente
Decisões sub-ótimas -> riscos Comprar um carro, vender e comprar
ações
Agentes em Sistemas de E-Commerce
Consumer Buying Behaviour
Identificação da necessidade Busca pelo produto Busca pelo vendedor Negociação Compra e entrega Avaliação
Estágios “agent-centric”!
Tecnologias
Sistemas de recomendação Filtragem baseada em conteúdo Filtragem colaborativa Filtragem baseada em restrições
Negociação Constraint Satisfaction Problem Teoria da utilidade multi-atributo
Fornecer nova informação que possa motivar o usuário a comprar algo.
Filtragem Resolução de constraints Filtragem colaborativa
Agentes monitores
Identificação da Necessidade
Definir "o que" comprar "Serendipity“ Estratégia
Resolução de constraints Filtragem colaborativa Função de utilidade multi-atributo
Escolha do produto
Definir "de quem" comprar Consultar vários sites de vendas on-
line Dificuldade: criar "wrappers" para cada
site Solução: Web Semântica = XML + RDF +
OWL
Exemplo BargainFinder Jango Tete-a-tete
Escolha do Vendedor
Tecnologias Constraint Satisfaction Problem Teoria da utilidade multi-atributo Leilões
Exemplos: Kasbah AuctionBot Tete-a-tete
Negociação
Chatterbots
Sistemas capazes de dialogar com os usuários em linguagem natural restrita
Agentes inteligentes Simular uma conversa Troca de mensagens de texto
Tornar mais familiar a interação entre o homem e a máquina Impressão de que o computador possui uma
personalidade
Exemplos de Aplicações
Uma “recepcionista” em um site comercial
Responder a FAQs (Frequently Asked Questions)
Atuar na área educacional dando suporte ao estudo e pesquisa
Entretenimento
Exemplo de Diálogo
Vendedor: “Olá! O que você está procurando?”
Usuário: “Um notebook para meu negócio de consultoria.”
Vendedor: “Por favor descreva se você tem alguma restrição de preços.”
Usuário: “Não é muito importante. Estou interessado em alta performance.”
Vendedor: “Você está procurando algum notebook topo-de-linha?”
Usuário: “Sim, exatamente!”
Vendedor: “Acredito que temos o produto certo para você. Clique aqui para ver o MacBook Pro 2.16Ghz”
Frases são entendidas através dos padrões
A resposta do chatterbot depende do padrão que casou a frase
Como chatterbots são implementados
Artificial Inteligence Markup Language (AIML)
Linguagem de marcação utilizada para: Definir os padrões compreendidos pelo
chatterbot Definir as réplicas de cada padrão
<category> <pattern>Olá</pattern> <template>
Olá, usuário </template></category>
Elementos Category: Unidade básica Pattern: Padrão de
entrada Template: Resposta do
chatterbot
Arquitetura
Session LogPadrões de Conversação
ChatterBot
Usuário
Casamento de padrões Raciocínio baseado em casos
Comportamento dos Bots
Iniciativa através de questionamento Partes da pergunta na resposta Manter o diálogo em um mesmo
tópico pelo maior tempo possível Iniciar novo tópico em diálogos
repetitivos Comentários humorísticos ou
controversos sobre tópico
Perguntas, Dúvidas ou Ressentimentos ????????????
Referências Bibliográficas
Gleaning Information from the Web: Using Syntax to Filter out Irrelevant Information, R. Chandrasekar e B. Srinivas, University of Pennsylvania, Philadelphia, PA 19104;
Text Summarisatio for Knowledge Filtering Agents in Distributed Heterogeneous Environments, H. Leong, S. Kapur, O de Vel, James Cook University of North Queensland, Austrália;
A Brief Comparison of News Filtering Software, Fredrik Kilander, Stockholm University, Sweden;
Learning Rules that Classify E-Mail, William W. Cohen, AT&T Laboratories;
Referências Bibliográficas
Agent Sourcebook, Alper K. Caglayan e Colin G. Harrison;
Message Classification and Filtering, Fredrik Kilander, Stockholm University, Sweden;
A Framework for Comparing Text Categorization Approaches, Isabelle Moulinier, LAFORIA-IBP-CNRS, Université Paris VI, France;
Referências Bibliográficas
http://www.cs.cmu.edu/~softagents/webmate.html;
http://web.media.mit.edu/~lieber/Lieberary/Letizia/Letizia-Intro.html;
http://www.novotek.nl/Products/PlantIntelligence/infoagent.htm;
Aula da disciplina mineração na WEB relativa à agentes na WEB e recuperação de informação;