Querying - Parte II

  • View
    25

  • Download
    0

Embed Size (px)

DESCRIPTION

Querying - Parte II. Modelli per la ricerca. Rappresentazione e Vector Space (VS). Ogni doc. j è un vettore di valori tf  idf Si può normalizzare a lunghezza unitaria. Si ottiene uno spazio vettoriale i termini sono gli assi i documenti “vivono” nel VS - PowerPoint PPT Presentation

Text of Querying - Parte II

Querying - parte IIOgni doc. j è un vettore di valori tfidf
Si può normalizzare a lunghezza unitaria.
Si ottiene uno spazio vettoriale
i termini sono gli assi
i documenti “vivono” nel VS
*
t 1
Organizza opportunamente gli indici inversi per supportare la similiarità coseno
Discuti l’algoritmo per rispondere ad una generica query.
*
Idea Base: Una query è vista come un “piccolo” documento.
Le queries diventano vettori nello stesso spazio dei documenti.
*
Ranking Coseno Efficiente
Il Ranking è il calcolo dei k doc. più “vicini” alla query k più alti coseni query-doc.
Ranking efficiente:
Scegli i k più alti coseni in modo efficiente.
*
Più in generale considerare idfi.
Accumola la somma per componenti omologhe
*
Tipicamente vogliamo i k doc con ranking più alto
non ordinare tutto!
*
Candidati Term-wise
Preprocessing: Pre-calcola, per ogni term, i suoi k docs più vicini
(ogni termine come 1-term query.).
Risultato: “lista dei preferiti” per ogni term.
Ricerca:
Per ogni t-term query, prendi l’unione delle loro t “liste dei preferiti” - chiamala S.
*
Analizza in dettaglio i calcoli:
*
Per ogni altro doc, pre-calcola il leader più vicino
Docs attaccati al leader: seguaci;
Ragionevole: ogni leader ha ~ n seguaci.
Elaborazione query:
Data Q, trova il più vicino leader L.
*
Dimensionality reduction
Perché non “impaccare” i vettori in un numero minore di dimensioni (diciamo 10000100) preservando le distanze?
Questo incrementa la velocità del coseno!
Due metodi:
Random projection.
Random projection è data-independent
Pre-elabora doc. mediante la tecnica Singular Value Decomposition.
Qual è l’effetto?
Si crea un nuovo vector space
*
A has rank r m,n.
matrice di correlazione term-term T=AAt
T è quadrata, simmetrica m m.
matrice di correlazione doc-doc D=AtA.
D è quadrata, simmetrica n n.
*
A può decomporsi come
A = PQRt
*
Riduzione di dimensione
Per qualche s << r, azzero tutti gli s più grandi autovalori di Q.
Denoto Qs la versione di Q ridotta.
E’ normale che s sia qualche centinaia, mentre r e dell’ordine decine di migliaia.
Dunque As = P Qs Rt
Risulta che As è una “buona” approssimazione di A.
*
As
P
Qs
Rt
0
Le colonne di As representano i doc, ma in s<<m dimensioni.
0
0
Le distanze relative tra doc sono (approssimativamente) preservate dalla proiezione:
*
As Ast è una matrice di similiarità doc-doc:
*
I doc con molti termini in overlapping vanno assieme
I termini vengono raggruppati.
*
Una query è un piccolo doc:
sia la riga 0 di As.
Le coordinate nella linea 0 di As Ast restituiscono la similarità della query con ogni doc.
*
4.6 (molti dettagli in più per chi vuole approfondire)
Latent semantic indexing:
http://citeseer.nj.nec.com/deerwester90indexing.html
Letture correlate
Un articolo introduttivo che discute criticamente i concetti di base dell’information retrieval dal titolo
“What Do People Want from Information Retrieval?”
http://www.dlib.org/dlib/november95/11croft.html