View
106
Download
2
Category
Preview:
Citation preview
Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição
Joaquim MacedoDepartamento de Informática
Escola de Engenharia
2
Sumário
1. Introdução & Motivação2. Contribuições da tese3. Arquitectura do Webtrieve4. Concretização do Webtrieve5. Sobreposição6. Fusão de Resultados7. Selecção de BDs8. Conclusões e Trabalho Futuro
3
Introdução & Motivação A utilização dum motor de busca faz ja parte
do nosso quotidiano...várias vezes por dia! A popularidade dos MB traduz-se no
aumento significativo de utilizadores & recursos (nº,diversidade)
A solução distribuída é mais escalável, menos dispendiosa e por vezes a única possível
Há muito trabalho feito e por fazer... Esta tese pretende ser uma contribuição
4
Contexto da tese
BDTK
BDT2
BDT1
EI
BDTN
BDT distribuída
Cliente
Espaços de Informação
5
Replicação em RI distribuída
BD2
EI
Cliente
BD1
BD centralizada virtual
Espaço de Informação 1 Espaço de Informação 2
Estática vs DinâmicaCoordenada e Não Coordenada
Transparênciada
Replicação
6
Hipótese colocada Se a sobreposição entre as diferentes
BDTs num sistema de busca distribuída for usada como parâmetro dos algoritmos de fusão de resultados e selecção de BDs...
... consegue-se melhorar a eficácia da resposta devolvida ao utilizador.
7
Contribuições da tese Arquitectura para recuperação distribuída de
informação concretizada num protótipo [ADL00] Estratégias de estimação da sobreposição [TR01] Informação de sobreposição usada em
Algoritmo de fusão com melhoria de eficácia [ECDL00]
Algoritmo de selecção com melhoria da eficácia [TR01]
Referência de base para avaliar a selecção, considerando a sobreposição [TR01]
8
Arquitectura do Webtrieve
EIcliente clientepor lotes
BD1 BD2 BDk BDm
AlocadorDS DS DSWWW
Colecção deDocumentosrobot
9
Encaminhador de Interrogações
ClienteRemoto
Selectorde BDs
EngenhoFusão
Sumáriosdas BDs
Cache
ClienteBD1
ClienteBD2
ClienteBDk
ClienteBDm
I I1
I2
Ik
R|Rc|Rs
R
R1
R2
Rk
Rs
Rc
R
Informação de sobreposição
R1
R2
Rk
10
Alocador de documentos Simular distribuição e replicação
não coordenada em ambiente Laboratorial
Alocação aleatória com replicação Parâmetro de replicação (o)
relacionado com número de cópias o-1p , 1
1
1
N
i i
qp
11
Avaliação de desempenho
Webtrieve
Gerador de Actualizações
Cliente por lotes
ColecçõesTREC Curvas de Actualização
TópicosTREC
Avaliação daEficácia
Avaliaçãode eficiência
Documentos
Curvas de tráfego
Juízos de Relevância
TRECRespostas
Curvas deEficiência
Curvas de Precisão e Cobertura
Logs actualização
12
Concretização do Webtrieve Baseado no Modelo do Espaço Vectorial Interface de interrogação STARTS Suporte apenas da língua inglesa Utilização do Java
JavaCC para reconhecedores Abordagem dual para o Dicionário de Termos
Suporte para actualizações incrementais Módulo de avaliação alinhada com o TREC Módulo inicial de avaliação da eficiência
(HPROF)
13
Ciclo de vida duma fonte
Início Colectado Reconhecido Alocado
InvertidoIntercalado
Dicionário
Sumarizado A correr
Avaliado
Fim
robot extractor alocador(cria N fontes filhos)
pára
pára
inversor(com N sumários de filhos) intercalad
or
inversor
Espera sumários
loader
loader
arrancar servidores
clientes a lotes + avaliador
sumarizador
14
Módulos Webtrieve
allocator Alocador de documentos com replicação basic Classes básicas: texto, fonte, etc... textdb Dicionário de Termos, buckets, chunks eval Classes para avaliação, cliente por lotes metadata Manipulação da meta-informação broker Encaminhador de interrogações fusion Fusão de resultados engine Motor de busca parser Reconhecedores TREC e HTML inversion Inversão, intercalação
results ResultSet, Documento starts Código STARTS, SOIF, HTTP
stop Eliminação de palavras comuns stem Radicalizadores summarizer Sumarizador de BDs
loader Carregador do Dicionário e da meta-informação
15
Dicionário de Termos
Gestor doDicionário
Gestor deBuckets
Gestor deChunks
Listas deOcorrência em
memória Ficheiro deBuckets
Ficheiro deChunks
Actualização
Pedido de Listade ocorrência
Listas de ocorrência
curtas
Listas de ocorrência
longas
16
Fusão de Resultados: o problema
XuRXF
F
XuRXf
XXXXXX
iii
jiN
,:
global )(ordenação pontuação de função uma Encontrar
,:
X osubconjunt cada
para definidas ,f )(ordenação pontuação de funções de conjunto Um
0|| , ...
ssobrepostoou
disjuntos ossubconjuntpor composto objectos de conjunto um Dado
i
i
21
17
Fusão de Resultados: métodos existentes
RI centralizado (eq.100% sobreposição) Motivação: estratégias de RI diferentes
para aumentar a eficácia Várias lógicas de fusão: SUM, MAX, MIN, ...
RI distribuído (~ 0% sobreposição) Motivação: transparência da distribuição
(Sistema RI centralizado ) Várias lógicas de fusão: intercalação
simples ou ponderada
18
Fusão de Resultados: método proposto
Nível de sobreposição esperado: 0-100 % Itens duplicados usados como pontos de referência Comparabilidade de funções de pontuação
Motivação aumentar a eficácia usando a informação de
sobreposição Estratégia utilizada
Respostas sobrepostas por nível descrescente de sobreposição Lógica convencional de fusão para itens duplicados Aproximação linear para itens únicos
Intercalação de resultados disjuntos
19
Comparação das lógicas
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
C
P
Central
Max-S
Max-W
Med-S
Med-W
Som-S
Som-W
Min-S
Min-W
20
Comparação das lógicas
00,050,1
0,150,2
0,250,3
0,350,4
0,450,5
5 10 15 20 30 100 200 500 1000
Nº Documentos
Pre
cisã
o
Central
Max-S
Max-W
Med-S
Med-W
Som-S
Som-W
Min-S
Min-W
21
Selecção de BDTs: o problema Problema: dada uma interrogação I que
pretende n documentos como resposta e N Bases de Dados com documentos
Seleccionar as l (l<<N) BDs com os n documentos mais relevantes
Determinar quantos documentos ri devem ser devolvidos por cada BDi tal que se obtenha um total de n.
22
Selecção de BTDs: abordagem utilizada Proposto um método de selecção baseado no MEV
Pressuposto: termos distribuem-se pelos documentos da colecção de acordo com distribuição normal cuja média e desvio padrão são exportados nos sumários
Resultados comparáveis a outros algoritmos da literatura É necessária mais informação e avaliação exaustiva
Avaliação da utilização da informação de sobreposição usando um método de selecção bem conhecido na literatura (CORI)
Resultados encorajadores mesmo usando estimação de sobreposição estática
23
Selecção de BDTs: Métricas • Métricas utilizadas
• Precisão • Cobertura ou Recall • Cobertura alternativa ou• n - nº de BDs interrogadas
• Referências de base• RBR (Relevance Based Ranking)• SBR (Size Based Ranking)
• Referência de base proposta• ORBR (Overlapping Relevance Based Ranking)
)( nP)( nC _
)( nC)( nR _
)( nR
24
CORI: Precisão
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77
Nº BDTs
Pn com sobreposição
Pn
25
CORI: Recall
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77
Nº de BDTs
Rn com sobreposição
Rn
26
CORI: Recall alternativo
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77
R'n com sobreposição
R'n óptima
R'n
27
Conclusões Bancada Webtrieve
Sistema completo para recuperação distribuída da informação textual
Concretização de um protótipo em Java Hipótese comprovada
Propostos novos algoritmos de fusão e selecção que usam informação de sobreposição
obtenção de melhoria da eficácia mesmo com estimação grosseira da sobreposição
dinâmica na selecção (usando a sobreposição estática).
28
Sobreposição Variações da sobreposição
estática < 1% dinâmica de 20% A sobreposição estática
Útil em casos extremos para aumentar eficiência na fusão
Usada como parâmetro na selecção Amostra aleatória das diferentes BDTs
Permite estimação da sobreposição dinâmica Custos partilhados com expansão de
interrogações
29
Fusão de Resultados Sem as estatísticas de ocorrência dos termos
da interrogação nos documentos devolvidos pelas diferentes BDTs
Não é possível repontuação dos documentos em tempo útil
Utilização de documentos replicados como pontos de referência
Melhorias de 30% eficácia da fusão relativamente às lógicas convencionais
Melhoram com aumento de sobreposição Pioram com número de BDTs
30
Selecção de BDTs Algoritmo baseado na distribuição normal dos
termos pelos documentos Resultados da ordem de grandeza dos usados
convencionalmente Sumários exportados com mais informação
Utilização da informação de Sobreposição Reformulação de métricas de avaliação para
considerar a sobreposição (ORBR) Melhoria não significativa da eficácia em algoritmo
bem conhecidos (CORI) Selecção depende mais da variância da sobreposição
do que sua média
31
Trabalho Futuro
Passo decisivo: interpretação e processamento do vídeo
Abordada apenas a eficácia dos sistemas de RI distribuída...Falta: Expansão de interrogações, realimentação
de relevância Utilização da meta-informação para redução
do espaço pesquisa Utilização do XML
32
Trabalho Futuro Migração para o Web
Concretização dum Robot WWW para larga escala
Cliente WWW mais amigável Interface WWW para gestão Utilização das hiperligações na RI distribuída
Alocação e Replicação Técnicas de alocação e replicação baseadas
no conteúdo Replicação para balanceamento de carga e
tolerância a faltas
Recommended