25
Recuperación de Información: Recuperación de Información: el Modelo de Espacio Vectorial el Modelo de Espacio Vectorial Alfonso E. Romero Alfonso E. Romero Departamento de Ciencias de la Computación e I. A. Departamento de Ciencias de la Computación e I. A. [email protected] [email protected] - - http://decsai.ugr.es/~aeromero http://decsai.ugr.es/~aeromero

Recuperación de Información y el modelo de Espacio Vectorial

Embed Size (px)

DESCRIPTION

Una introducción muy somera

Citation preview

Page 1: Recuperación de Información y el modelo de Espacio Vectorial

Recuperación de Información: Recuperación de Información: el Modelo de Espacio Vectorial el Modelo de Espacio Vectorial

Alfonso E. RomeroAlfonso E. RomeroDepartamento de Ciencias de la Computación e I. A.Departamento de Ciencias de la Computación e I. A.

[email protected]@decsai.ugr.es - - http://decsai.ugr.es/~aeromerohttp://decsai.ugr.es/~aeromero

Page 2: Recuperación de Información y el modelo de Espacio Vectorial

1. Introducción

Page 3: Recuperación de Información y el modelo de Espacio Vectorial

Motivación

Por qué es importante saber cosas de Recuperación de Información?

●Sapere aude●Aplicación profesional●Mueve mucho dinero

Page 4: Recuperación de Información y el modelo de Espacio Vectorial

2006-06-01 4

¿Qué es eso de la “Recuperación de Información”?

Pero, ¿sabe usted que aún cuando hace ya varios meses que mantengo al día el diario [en un fonógrafo], nunca me preocupé de cómo podría encontrar cualquier parte enespecial de él que deseara examinar?

—Dr. Seward. Drácula, de Bram Stoker, 1897.

Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial

Page 5: Recuperación de Información y el modelo de Espacio Vectorial

¿Qué es eso de la “Recuperación de Información”?

El avance de la tecnología implica que cada vez hay más información almacenada.Estudiar Recuperación de Información es tratar con métodos con los que un usuario acceda eficientemente a la información, de forma efectiva, según sus necesidades.

Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial

La Recuperación de Información trata de la representación, almacenamiento, oganización y acceso de ítems de ítems de información

Gerard Salton, uno de los padres de la R.I.

Page 6: Recuperación de Información y el modelo de Espacio Vectorial

¿Qué entidades aparecen en la R.I.?

Usuarios

Información(documentos)

Wizard Glass

Necesidad de Información (consulta)

- La Torre Oscura IV- “The Wizard”

Resultado

Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial

Page 7: Recuperación de Información y el modelo de Espacio Vectorial

Sistemas de Recuperación de Información

Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial

El objetivo de los Sistemas de Recuperación de Información (SRI)es, dada una colección de documentos y una consulta formulada por un usuario en un cierto momento, proporcionar el subconjunto de documentos que es más relevante para la consulta del usuario.

Funcionamiento de un SRI:1. El usuario introduce una consulta en el sistema. Esta consulta representa sus necesidades de información.2. El sistema procesa dicha consulta. Se buscan documentos que, de alguna forma, sean coincidentes con los términos que aparecen en dicha consulta.3. El sistema muestra los documentos que son coincidentes con la consulta, ordenándolos de mayor a menor relevancia segúnel valor proporcionado por una función de ranking.

Page 8: Recuperación de Información y el modelo de Espacio Vectorial

Modelos de Recuperación de Información

Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial

Un Modelo de Recuperación de Información [Baeza] es una cuádrupla (D,Q,F,R(q

i,d

j)):

1. D es un conjunto formado por la representación de los documentos.

2. Q es un conjunto formado por consultas, es decir la representación de la información que el usuario necesita.

3. F es un marco o modelo de representación de los documentos,las consultas, y las relaciones existentes entre ellos.

4. R(qi,d

j) es una función (ranking) que asocia un número real a

cada consulta qi de Q y representación del documento d

j de D.

Page 9: Recuperación de Información y el modelo de Espacio Vectorial

La representación de documentos (y consultas)

● La representación clásica de documentos: “bag of words”.● Términos índice independientes unos de otros ● Para cada par término documento (t

i , d

j) un peso w(i,j)

● Los documentos se indexan previamente● Eliminar stopwords y signos de puntuación● Case Folding● Stemming

● Se disponen de estructuras (en disco) con documentos procesados, con pesos precalculados y de acceso rápido

● Las estructuras se crean una sola vez (indexación).

Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial

Page 10: Recuperación de Información y el modelo de Espacio Vectorial

La representación de documentos (y consultas) II

Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial

Verde que te quiero verde, verde viento, verdes ramas

verde quer verde verde viento verde rama

[ (verde, 4), (quer, 1), (viento,1), (rama, 1)]

4 1 1 1

¡Puedo representar cada documento como una n-tupla (vector n dimensional), donde cada casilla (dimensión)

corresponde a cada uno de los n términos de la colección y cada coordenada i (número), al “peso”

del término i-ésimo en el documento.

Page 11: Recuperación de Información y el modelo de Espacio Vectorial

2. El Modelo de Espacio Vectorial

Page 12: Recuperación de Información y el modelo de Espacio Vectorial

Motivación del modelo

Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial

La presencia de objetos (documentos y consultas) en un “espacio”hace preguntarse fácilmente si no hay una cierta forma de medir distancias en dicho espacio y que sea válida para nuestro propósito.

Según la representación anterior de los documentos, una consultatambién puede representarse como un vector (con 0 en los términosque no aparecen en ella, 1 si aparecen).

Dicha forma debe de cumplir:1. Quiero que un documento relevante tenga el mayor número de términos coincidentes entre consulta y documento.

2. Un documento respuesta “ideal” a una consulta es el que contienetodos los términos de la búsqueda.

3. Dentro de todos los documentos ideales, preferimos aquellos enlos que los términos buscados aparezcan más veces.

Page 13: Recuperación de Información y el modelo de Espacio Vectorial

Descripción del modelo I

Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial

● Salton y McGill en el sistema SMART (1971)

● Calculan la similaridad entre la consulta y cada uno de los documentos como el ángulo entre el vector consulta y cada uno de los vectores de los documentos.● Los documentos más “paralelos” a la consulta serán aquellos que “respondan” mejor a la misma.

G. Salton, padre de la R.I.

Page 14: Recuperación de Información y el modelo de Espacio Vectorial

Descripción del modelo II

Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial

Gráficamente - En el gráfico, d1 “responde” mejor

a la consulta que d2.

- Las coordenadas con valor distintode 0 para el vector consulta sonmuy pocas: sólo tenemos que realizar operaciones para ellas.- La forma de calcular la relevancia está expresada aquí (ángulo entre dos vectores):

R q , di=cosq, di=

⟨ q , di ⟩

∣q∣⋅∣di∣=

∑ j=1

nw j ,q⋅w j , i

∑ j=1

nw j ,q

2 ⋅∑ j=1

nw j , i

2

Page 15: Recuperación de Información y el modelo de Espacio Vectorial

Esquema de pesos

Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial

¿Cómo medir la importancia de un término en un documento?

1. A mayor frecuencia de un término en un documento, mayor importancia. Problema, documentos extensos. Normalizar:

tf i , j=ni , j

maxknk , j

2. Los términos más infrecuentes en la colección son más importantes, pues discriminan antes. Definimos la “rareza” de un término como su frecuencia inversa documental, o idf:

idf i=logNNi

3. Defino el peso de un término i en un documento j como el producto de ambos términos (esquema TF x IDF):

wi , j=tf i , j⋅idf i

Page 16: Recuperación de Información y el modelo de Espacio Vectorial

Análisis crítico del modelo

Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial

+ Recuperación “ordenada” (si un documento se devuelveantes que otro, es más relevante).

+ Acoplamiento “parcial” (el documento más relevante notiene por qué contener todos los términos de la consulta). Incluso, no tendria por qué haber ningún documento así, aunque hubiera documentos relevantes.

+ Comparado con otros modelos de recuperaciónfunciona bastante bien (difícil de superar).

- El esquema TF x IDF es intuitivo (pero no formal)

- Asume independencia de los términos (bag of words).

Page 17: Recuperación de Información y el modelo de Espacio Vectorial

3. Implementando el modelo

Page 18: Recuperación de Información y el modelo de Espacio Vectorial

Introducción a la implementación de un SRI

● Una colección de documentos (p. ej. páginas web) no está preparada para realizar directamente operaciones de R.I.

● Por ejemplo: encontrar la lista de páginas que contengan:“Fernando”, “Alonso”, “McLaren”, “Hamilton”

● No es lógico pensar que la búsqueda se haga linealmente. Lascolecciones actuales de documentos tienen GBs (¡o TBs!). Conlas tasas de transferencia actuales, despreciando el tiempo de cómputo, y suponiendo que los datos son secuenciales, en una colección de 10 GB habría que hacer varias búsquedas de 10 segundos (y en la realidad sería bastante más).

● Necesitamos crear estructuras persistentes que permitan accedereficientemente a los datos ya procesados.

Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial

Page 19: Recuperación de Información y el modelo de Espacio Vectorial

Estructuras de Datos: el índice invertido

● Similar al índice terminológico de un libro.● Para cada término, tenemos la lista de (páginas) identificadores de documentos, en los que aparece. (también puede dar la lista de pesos de cada término en cada documento).

● Se construye una sóla vez, durante el proceso llamado indexación.● Obviamente, el índice puede no caber en memoria (tiene un tamaño del mismo orden que el de la colección), por lo que se divide en dos partes:

- Vocabulario: que contiene la lista de términos- Ocurrencias: que es una tabla con las listasde documentos (y los pesos).

● Cada entrada en el vocabulario contiene la dirección en discodonde se encuentra su ocurrencia. Así, el vocabulario se puede mantener en memoria (10 MB por cada 300 MB de colección)

Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial

Page 20: Recuperación de Información y el modelo de Espacio Vectorial

Construcción de índices invertidos

Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial

● La construcción del índice, al no caber en memoria, no es sencilla.Normalmente, se realiza en dos pasos:

1. Obtención (a disco) de las tuplas (t, d, f(t,d), w(t,d)) (todas conel mismo d para cada documento). Estarán ordenados por d.2. Utilizando un algoritmo de ordenación externa, ordenar por t.3. Una vez ordenado el archivo de tuplas, ir leyendo todas las tuplas de un mismo t y crear la ocurrencia correspondiente.

● Obviamente, se puede añadir información sobre la posición de laspalabras en el texto (para hacer consultas por proximidad; con “comillas”).

● Por otra parte, el vocabulario debe permitir búsqueda O(1) poridentificador, y O(log n), por cadena (n el número de términos).

● Una buena referencia para los algoritmos de indexación (y en general, las estructuras de datos es el libro Managing Gigabytes).

Page 21: Recuperación de Información y el modelo de Espacio Vectorial

Implementación del algoritmo de recuperación

Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial

Algoritmo:

1. A = {} (array asociativo de identificadores de doc.)2. Para cada término t de la consulta

Obtener la dirección de su ocurrencia L(t)Leer la ocurrencia L(t) de discoPara cada par (d, wd,t) en L(t)

Si A[d] ∉A, iniciar A[d] a 0 y añadirlo al conjunto AA[d] = A[d] + wd,t

3. Para cada A[d] de A, normalizar A[d] = A[d] / Wd

4. Devolver al usuario los r mejores documentos

Page 22: Recuperación de Información y el modelo de Espacio Vectorial

4. Para saber más...

Page 23: Recuperación de Información y el modelo de Espacio Vectorial

Libros

http://www.dcs.gla.ac.uk/Keith/Preface.html ¡GRATIS!

Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial

Page 24: Recuperación de Información y el modelo de Espacio Vectorial

Más libros

Alfonso E. Romero – Recuperación de Información: el Modelo de Espacio Vectorial

Page 25: Recuperación de Información y el modelo de Espacio Vectorial

FINGracias por vuestra atención

(¿preguntas, consultas, sugerencias?)