Focused Crawler Arlind Kopliku Dicembre 2006. Riferimenti Focused Crawling: A new approach to Topic-Specific Resource Discovery - Soumen Chakrabarti,

Focused Crawler

Arlind Kopliku

Dicembre 2006

Riferimenti• Focused Crawling: A new approach to

Topic-Specific Resource Discovery - Soumen Chakrabarti, Martin van den Berg, Byron Dom, IBM Almaden Reasearch Center

• Mining the web - Morgan Kauffman • Focused Crawling using context graphs –

M.Diligenti, F.M Coetzze, S.Lawrence• http://www.Netcraft.org - Web surveys

http://www.Netcraft.org/

Il focused crawler

Il focused crawler è un gestionale dell’informazione ipertestuale. Esso cerca solo le pagine rilevanti a un certo insieme di argomenti. Invece di raccogliere tutte le pagine ipertestuali accessibili, per essere capace a rispondere a tutte le queries possibili, il focused cralwer analizza il suo confine cercando i link più rilevanti per lui. Evita cosi regioni inutili del web.

General-purpose crawler vs focused crawler

•Non è molto costoso● Basta un PC● Deve ricoprire una picola percentuale del web● l’aggionamento è più veloce

• Non è dispersivo ● Da risposte solo dentro il dominio di ricerca● Propone soluzioni a base di persona, campo di ricerca,

argomenti, etc

• È costoso ●hw, risorse rete ●richiede enorme copertura del web● aggiornamento lento

• E’ dispersivo● Le risposte ottenute alle query sono spesso fuori dal dominio del qualle noi siammo interessati●E’ una soluzione “one-size fits

all”

Focused crawlerGeneral-purpose crawler

La crescita del www

Netcraft's latest Web survey found 101,435,253 websites in November 2006

http://news.netcraft.com/archives/2006/11/01/november_2006_web_server_survey.html

• 1991-1997: Explosive growth, at a rate of 850% per year. • 1998-2001: Rapid growth, at a rate of 150% per year. • 2002-2006: Maturing growth, at a rate of 25% per year.

• Solo nel mese di novembre sono state aggiunti 3.5 milioni di nuovi siti.

• Il numero di pagine attuali del web si aggirà sulla decina di miliardi.

• Ci possiamo aspetare 200 milioni di siti per il 2010.

Statistiche sulle ricerche sui motori di ricerca piu famosi

6,40213Total

1666Others

37813Ask

48616AOL

84528MSN

1,79260Yahoo

2,73391Google

Per Month (Millions)Per Day (Millions)Searches

• Copertuara attuale web dai motori di ricerca : 30%-40%

• L’aggiornamento dura da una settimana a mesi.

• Le risposte alle query sono spesso dispersive

Introduzione al focused crawler

• E’ un crawler a priorità

• Focalizzato su un insieme di argomenti (topic)

• Espande il suo dominio di ricerca solo a partire da pagine rilevanti

• Ha un sistema di valutazione di rilevanza e autorità

• E’ più difficile del general-purpose crawling

Focused Crawler

URL seed

Frontiera: i nodi rilevanti con link ancora inesplorati

Composto da

• Crawler

• Rating system (Sistema di valutazione)

• Classificatore ipertestuale

Il crawler fa i seguenti passi:

● Trova la pagina con priorità massima t.c sia rilevante

● Recupera le pagine linkate ad essa

● Classifica le pagine recuperate

● Valuta la loro rilevanza ed autorevolezza

● Ripete dal primo passo

Fetch

Il focused crawler ha le seguenti modalità operazionali:● Imparare da esempi: nella fase iniziale.● Scoprire risorse: grandi quantità in tempi rapidi, mantenendo alta rilevanza al topic.● Ricognizionamento: identificare le pagine che portano al più possibile di pagine rilevanti.● Mantenimento: verificare il materiale già recuperato.

Focused Crawler Administration• Il focused crawler necessita dell’intervento umano in 2 forme:

– Costruzione di tassonomie basilari dei più importanti topic

– Indicazione da parte dell’utente delle categorie (e relative sottocategorie)

in cui è interessato

• Le tassonomie sono strutturate in un master category tree

e forniscono una base sulla quale l’utente mappa i propri interessi.

• Perché mappare i topic su una gerarchia di categorie fissate?– Per poter riutilizzare il classifier-training:

• produrre l’albero una volta sola;

• utilizzare la nuova, ampia conoscenza come espansione del set di traning.

– Per migliorare il modello di classe negativa• gli esempi negativi sono fonte di informazione.

– Per scoprire classi correlate• che inizialmente non erano naturalmente correlate.

Focused Crawler Administration• Il primo passo consiste nel mappare i topic

in una serie di nodi all’interno del master category tree.

• Il classificatore dirotta i documenti

al miglior nodo associato nell’albero delle categorie.

• L’amministratore può comunque fornire feedback in tre

modi:

– Correggendo classificazioni

– Eliminando classi

– Raffinando classi

• A questo punto può essere lanciato il crawler.

System Architecture

• La rilevanza è calcolata usando un hypertext classificator,

assumendo che la tassonomia imponga

una partizione gerarchica dei documenti

R(d) = Σgood(c) Pr[c|d]

• La tabella del documento ha 2 campi inerenti alla

tassonomia:– Relevance settata a R(d)

– cid rappresenta il nodo che meglio associa al documento

Yamaha

d riguardante Vale Rossi

radice

torte moto

Ducati

1

0,80,1

0,860,3

La relevanza di un documento

Il documento è visto come “bag of words”

docwordwordcategdoccateg )|Pr()|Pr(

System Architecture• Oltre alla rilevanza, si calcola il popularity rating

sulla base dell’algoritmo di HITS,

generando un mutuo rinforzo sulla base:

a[v] = Σ(u,v) E h[u]

h[u] = Σ(u,v) E a[v]

• Un diverso algoritmo prevede di considerare anche la rilevanza:

1. Si seleziona una soglia di rilevanza;

2. Attraverso delle iterazioni si calcola

a[v] come R[u]/h’[u,v] e h[u] come R[u]/a’[u,v];

4. Cambieremo il valore di autorevolezza

solo a quelle pagine che superano il valore R[x] > ;

HITS: authority score e hub score

Per il calcolo di a[v]

u1

u2

u3

v

Per il calcolo di h[u]

v1

v2

v3

u

Il valore di hub di u è dato dalla somma dei valori di autorevolezza dei v puntati da u.

Una pagina u è tanto più un buon hub quanto più punta a pagine autorevoli.

Il valore di autorevolezza di v è dato dalla somma dei valori di hub degli u che puntanto a v.

Una pagina v è tanto più autorevole quanto più è puntata da buoni hub.

Crawling Strategies• Due tipologie di focused crawling:

– Hard crawling• Il problema di questo metodo

è la possibilità di perdere informazioni sensibili

riguardo il topic in questione

(crawl stagnation:

fallendo nell’acquisizione di pagine rilevanti addizionali)

– Soft crawling• Questo metodo pecca del problema inverso,

ovvero il rischio di una quantità di informazioni non

eccessivamente in co-relazione con il topic in esame

(crawl diffusion:

accumulando troppo poche pagine rilevanti)

Evaluation

• Ci sono fondamentalmente 4 misure

per valutare le performance di un crawler:

– Relevance (precision)

– Coverage (recall) spesso difficilmente calcolabile

– Refresh rate spesso difficilmente calcolabile

– Quality

Evaluation

Evaluation

Evaluation

Evaluation

Documents

Focused Crawler Arlind Kopliku Dicembre 2006. Riferimenti Focused Crawling: A new approach to Topic-Specific Resource Discovery - Soumen Chakrabarti,