Upload
alexandre-duarte
View
255
Download
0
Embed Size (px)
DESCRIPTION
Citation preview
Aula de hoje – hipertexto e links Veremos além do conteúdo dos documentos
Começaremos a analisar os hiperlinks entre eles Tratar de questões como:
Os links representam indicações da relevância de algumas páginas? Está informação é útil na classificação?
Qual a probabilidade de uma página referenciada pela home page do CERN tratar de física nuclear?
Grandes áreas de aplicação A Web Email Redes sociais
Links estão em todo lugar Poderosa ferramenta para autenticidade e
autoridade Mail spam – quais contas de e-mail são de spammers? Qualidade de servidores – quais servidores são ruins Log de chamadas telefônicas
O Bom, O Ruim e O Desconhecido
?
?
?
?Good Bad
Lógica iterativa simples O Bom, O Ruim e O Desconhecido
Bons nós não apontam para nós ruin Todas as outras combinações são plausíveis
4
?
?
?
?Bom Ruim
Lógica iterativa simples Bons nós não apontam para nós ruins
Se você aponta para um nós ruim, você é ruim Se um nó bom aponta para você, você é bom
5
?
?
?
?Bom Ruim
Lógica iterativa simples Bons nós não apontam para nós ruins
Se você aponta para um nós ruim, você é ruim Se um nó bom aponta para você, você é bom
6
Bom Ruim
Muitos outros exemplos de análise de links Redes sociais são uma rica fonte para análise de
comportamento em grupo Ex., Afinidade de compradores – Goel+Goldstein
2010 Consumidores cujos amigos gastam muito, tendem a
gastar muito também http://www.cs.cornell.edu/home/kleinber/networks-book/
7
Nosso principal interesse neste curso Análogo a maioria das funcionalidades de um
sistema de recuperação de informação baseado puramente em texto Scoring e classificação Agrupamento baseado em links Links como critério de classificação – documentos que
apontam para outros documentos tendem a tratar do mesmo assunto
Crawling Baseado nos links já visitados, para onde ir em seguida?
8
A Web como um Grafo Dirigido
Suposição 1: Um hyperlink entre duas páginas indica uma atribuição de competência (sinal de qualidade)
Suposição 2: O texto âncora de um hyperlink descreve a página alvo (conteúdo textual)
Página Ahyperlink Página BÂncora
Sec. 21.1
Suposição 1: reputação de sites
10
Suposição 2: anotação do alvo
11
Texto âncora
Para ibm como distinguir entre : A página da IBM (predominantemente gráfica) Página de copyright da IBM (alta frequência do termo
“ibm”) Página spam de um rival (frequencia arbirtráriamente alta
de algum termo)
www.ibm.com
“ibm” “ibm.com” “IBM home page”
Um milhão de textos âncora com a palavra “ibm” são um forte sinal
Sec. 21.1.1
Indexando texto âncora Ao indexar um documento D, incluir (com algum
peso) os textos âncora dos documentos com links apontando para D.
www.ibm.com
Armonk, NY-based computergiant IBM announced today
Joe’s computer hardware linksSunHPIBM
Big Blue today announcedrecord profits for the quarter
Sec. 21.1.1
Indexando texto âncora Algumas vezes pode ter efeitos não esperados:
exército do mal. É possível atribuir um score ao texto âncora
dependente da relevância/competência da página onde o link se encontra Ex., se assumirmos que o conteúdo das páginas de
ccn.com e yahoo.com têm relevância devemos confiar nos textos âncora que apresentam
Sec. 21.1.1
Texto âncora Outras aplicações
Ponderação/filtragem de links em um grafo Geração de descrições de páginas a partir
de textos âncora
Sec. 21.1.1
A web não cita por mérito Milhões de participantes, com interesses individuais Spamming é encontrado em todo lugar Quando ferramentas de busca começaram a utilizar
links para classificação (meados de 1998), o spam de links aumentou Você pode ingressar em um grupo de websites que fazem
ligações em massa entre si
16
Links de entrada para páginas – padrões não-usuais
17
Pagerank Imagine um browser fazendo uma navegação
aleatória na web: Inicia em uma página qualquer A cada passo, sai da página atual por um de seus links, de
forma equiprovável Cada página terá, a longo prazo, uma taxa de
visitação – usar isso como o score da página.
1/31/31/3
Sec. 21.2
Isso não é suficiente A web está cheia de becos sem saída.
Caminhamentos aleatórios podem levar a um beco sem saída.
Fica sem sentido falar em taxa de visitação a longo prazo.
??
Sec. 21.2
Teletransporte Em um beco sem saída, pular para uma
página aleatória. Em qualquer página que não seja um beco
sem saída, manter uma chance de 10% de saltar para uma página aleatória. Com a probabilidade restante (90%), sair
por um dos links de forma aleatória. 10% - é um parâmetro.
Sec. 21.2
Resultados do teletransporte
Nunca ficar preso em um beco sem saída
Há uma taxa de visitação a longo prazo para cada página visitada
Sec. 21.2
A realidade Pagerank é utilizado pelo Google e por outros
motores de busca, mas isso dificilmente conta toda a história São utilizadas muitas outras heurísticas sofisticadas Algumas tratam de classes específicas de consultas Aprendizagem de máquina é utilizado amplamente
Hyperlink-Induced Topic Search (HITS) Em resposta a uma consulta, ao invés de uma lista
ordenada de páginas, encontrar dois conjuntos de páginas inter-relacionadas: Páginas hub são boas coleções de links sobre um
determinado assunto. Páginas competentes ocorrem recorrentemente em
páginas hub sobre o assunto. Mais indicado para consultas mais amplas sobre um
assunto do que para encontrar páginas específicas.
Sec. 21.3
Hubs e Competências Uma boa página hub sobre um
determinado tópico aponta para várias páginas competentes sobre este tópico
Uma boa página sobre um determinado tópico é referenciada por muitas boas páginas hub sobre esse tópico
Definição circular – podemos computar de forma iterativa.
Sec. 21.3
A esperança
Companhias de telefonia móvel
HubsCompetências
Sec. 21.3
Esquema em alto nível
Extrair da web um conjunto base de páginas que podem ser bons hubs ou boas páginas sobre determinados tópicos.
Deste conjunto, identificar um pequeno conjunto com as melhores páginas hub e páginas mais competentes de forma iterativa
Sec. 21.3
Conjunto base Dada uma consulta textual (ex. browser), usar
um índice texto para recuperar todas as páginas contendo browser. Chamar o resultado de conjunto de páginas raiz
Adicionar qualquer página ao conjunto que Aponta para uma página no conjunto raiz ou É referenciada por qualquer página no conjunto
raiz. Chamar o resultado do conjunto base
Sec. 21.3
Visualização
Conjuntoraíz
Conjunto base
Sec. 21.3
Destilando hubs e páginas competentes Computar, para cada página x no conjunto base,
um score do hub h(x) e um score de competência a(x).
Inicialização: for all x, h(x)1; a(x) 1; Atualizar iterativamente h(x), a(x); Depois das iterações
Classificar as páginas com os h() mais altos como os top hubs
Maior score a() é a página mais competente.
Sec. 21.3
Atualização iterativa Repetir as seguintes atualizações, para todo x
yx
yaxh
)()(
xy
yhxa
)()(
x
x
Sec. 21.3
Escala Para evitar que os valores de h() e a() se
tornem muito grandes, pode-se ajustar sua escala, reduzido para baixo a cada iteração.
O fator de escala realmente não interessa: Nos preocupamos apenas com os valores
relativos dos scores.
Sec. 21.3
Quantas iterações? Os valores relativos dos scores vão convergir
depois de algumas poucas iterações: de fato, escaladas apropriadamente, os scores h()
e a() entram em um estado de estabilização! Na prática, aproxima-se da estabilização após
cerca de 5 iterações.
Sec. 21.3
Escolas Elementares do Japão
The American School in Japan The Link Page ‰ªès—§ˆä� � “c¬ŠwZƒz[ƒƒy[ƒW � � � � � Kids' Space ˆÀés—§ˆÀ鼕� � � � ”¬ŠwZ � � ‹{鋳ˆç� ‘åŠw•�‘®¬ŠwZ � � KEIMEI GAKUEN Home Page ( Japanese ) Shiranuma Home Page fuzoku-es.fukui-u.ac.jp welcome to Miasa E&J school _� “Þ쌧E‰¡•ls—§� � � ’†ì¼¬ŠwZ‚̃y� � � � http://www...p/~m_maru/index.html fukui haruyama-es HomePage Torisu primary school goo Yakumo Elementary,Hokkaido,Japan FUZOKU Home Page Kamishibun Elementary School...
schools LINK Page-13 “ú–{‚ÌŠwZ � a‰„¬ŠwZƒz[ƒƒy[ƒW � � � � � � 100 Schools Home Pages (English) K-12 from Japan 10/...rnet and Education ) http://www...iglobe.ne.jp/~IKESAN ‚l‚f‚j¬ŠwZ‚U� � ”N‚P‘g•¨Œê ÒŠ—� ’¬—§ÒŠ—� “Œ¬ŠwZ � � Koulutus ja oppilaitokset TOYODA HOMEPAGE Education Cay's Homepage(Japanese) –y“쬊wZ‚̃z[ƒƒy[ƒW � � � � � UNIVERSITY ‰J—³¬ŠwZ DRAGON97-TOP � � ‰ª¬ŠwZ‚T� � � ”N‚P‘gƒz[ƒƒy[ƒW � � � ¶µ°é¼ÂÁ© ¥á¥Ë¥å¡¼ ¥á¥Ë¥å¡¼
Hubs Competências
Sec. 21.3
Fatos interessantes
Agrupa páginas relevantes independentemente de linguagem ou conteúdo.
Usar análise de links apenas depois que o conjunto base estiver montado classificação iterativa é independente da
consulta. Computação iterativa depois de recuperação
textual – overhead significativo.
Sec. 21.3
Questões Desvio de Tópico
Páginas fora do tópico podem fazer com que outras páginas fora fora do tópico sejam consideradas competentes
Reforço mútuo por filiação Páginas ou sites afiliados podem aumentar seus
scores trocando links Esse tipo de link não dá informação útil para a busca
Sec. 21.3