1 Sistemas de Recuperación de Información Sistemas de Procesamientos de Archivos

1

Sistemas de Recuperación de Información

Sistemas de Procesamientos de Archivos.

2

Introducción – Sistemas IR

La Recuperación de datos se ocupa de la representación, alamacenamiento, organización y acceso de la información.La representación y organización de la información deben proveer al usuario un fácil acceso a sus interes personales.Dado un query, la meta de una llave es recuperar la información relevante para el usuario.

3

Información Vs. Recuperación de Datos

La recuperación de datos consiste en determinar que documentos contienen las llaves del query en el documento.La recuperación de datos, no resuelve el problema de recuperar información acerca de un tema.

4

Información Vs. Recuperación de Datos

Los sistemas IR, deben interpretar de alguna manera el contenido de la información de los documentos y ponerlos en orden de relevancia de acuerdo al query de usuario.

5

Recuperación de información en el centro del etapa

El Web se está convirtiendo como un depósito universal de conocimiento humano y de cultura, el cual permite intercambios de ideas e información en una escala nunca antes vista. El Web ha introducido frecuentes problemas. Encontrar información útil se ha convertido en una tarea tediosa.

Web Links.

6

Tarea del usuario

EL usuario tiene que traducir la información necesaria en un query proporcionado en el lenguaje del sistema.Son dos tipos de tareas distintas para el usuario: Recuperación de datos o información y browsing.(pulling actions)Los sistemas IR se encargan de filtrar información relevante para el usuario.

7

Distintas tareas del usuario en un sistema de recuperación

8

Visión lógica de los documentos

La visión lógica es la representación de documentos y páginas Web adoptadas por un sistema. La forma más común de representar un documento de texto es por un sistema de términos indexados o palabras llaves.En una gran colección estas computadoras deben reducir el sistema representativo de llaves.

9


Esto se puede realizar a través de la eliminación de los “stopwords” (como artículos), el uso de “stemming” (reducir palabras de su raíz gramatical) y la eliminación de grupos de sustantivos (los cuales eliminan adjetivos, adverbios, y verbos).

10


11

Problemas del IR

Son dos los diferentes tipos de problemas: La visión computadora - centrada La visión humano - centrado

12

Problemas del IR

La visión computadora - centrada, consiste en construir un índice eficiente, procesar los querys del usuario con un alto rendimiento y algoritmos que mejoren la calidad de respuesta del sistema.La visión humano – centrado consiste principalmente en estudiar las necesidades del usuario, saber como afecta a la organización y operación del sistema de recuperación.

13

Recuperación de información en Bibliotecas

Las bibliotecas fueron las primaras en adoptar los sistemas IR, posteriormente pasaron a instituciones académicas y a vendedores comerciales.

14

Recuperación de información en Bibliotecas

En la primera generación, solo se permitian búsquedas por título y autor.En la segunda generación se permitió buscar por tema, palabras claves y algunos querys más complejos.En la tercera generación, se introdujo la interfaz gráfica, hipertextos y formas electrónicas.

15

El Web y las bibliotecas digitales

El bajo costo, buenos accesos, y la libertad de publicar permiten que las personas usen el Web (y las bibliotecas digitales) como un gran medio interactivo.Sin embargo, esto ha introducido nuevos problemas, encontrar información valiosa en el Web se ha convertido en una tarea de forma tediosa y difícil.

16

Proceso de recuperación de información

Antes de que el proceso de recuperación, sea inicializado es necesario definir la base de datos del texto, esto es hecho por el administrador de la base de datos. El administrador de la base de datos construye el índice del texto (fila invertida)El usuario especifica lo que necesita , el cual es parseado y procesado para obtener la recuperación de los documentos.Antes de que la información sea enviada al usuario, esta es ordenada en orden de relevancia.

17

Los tres modelos clásicos en la recuperación de información son:

•En el modelo Boleano, se presentan documentos y preguntas como los conjutnos de condiciones del índice, también se le conoce como conjunto teórico.

•En el modelo de Vectorial, se representan documentos y preguntas como los vectores en un espacio t-dimensional, también se conoce que este modelo es un modelo algebraico.

•En el modelo Probabilístico, su grupo de trabajo para el documento modelado y la representación de la pregunta, se basan en la teoría de probabilidad, esta es la razón por la cual este modelo recibe el nombre de probabilístico.

MODELOS DE RECUPERACION DE INFORMACIÓN

18

CONCEPTOS BÁSICOS

Los modelos clásicos en la recuperación de información (IR) consideran que cada documento se describe por un conjunto de palabras claves representativas llamado condiciones del índice.

El termino del índice simplemente es una (campo) palabra cuya semántica ayuda a recordar los temas principales del documento.

Generalmente, las condiciones del índice son principalmente los nombres, esto es por que los nombres tiene un solo significado y así,

su semántica es mas fácil de identificar.

19

MODELO BOLEANO

El modelo Boleano, es un modelo de recuperación simple basado en la teoría fija y álgebra de Boolean, este modelo proporciona un grupo de trabajo que es fácil de usar por un usuario común de un sistema de IR. Además, las llamadas se especifican como expresiones de Boolean que tienen la semántica precisa.

Dado su simplicidad inherente y formalismo, el modelo de Boolean recibió la gran atención y se adopto por muchos de los sistemas bibliográficos comerciales.

20

MODELO BOLEANO

De este modelo se pueden destacar los siguientes puntos:

*La relevancia es binaria: un documento es relevante o no lo es.

*Consultas de una palabra: un documento es relevante si contiene la palabra.

*Consultas AND: Los documentos deben contener todas las palabras.

*Consultas OR: Los documentos deben contener alguna palabra.

*Consultas A BUTNOT B: Los documentos los documentos deben ser relevantes para A pero no para B.

· Ejemplo: lo mejor de Maradona

Maradona AND Mundial

AND (( México ’86 OR Italia ’90) BUTNOT U.S.A. ’94)

*Es el modelo mas primitivo, sin embargo es el mas popular.

21

MODELO BOLEANO

¿Por qué es malo?

*No discrimina entre documentos más y menos relevantes.

*Da lo mismo que un documento contenga una o cien veces las palabras de consulta.

*Da lo mismo que cumpla una o todas las cláusulas de un OR.

*No permite ordenar los resultados.

*La mayoría de los usuarios les es difícil de entender.

Ej.:” Necesito investigar sobre los Aztecas y los Incas

Aztecas AND Incas

(grave error, se perderán excelentes documentos que traten una sola de las culturas en profundidad, debió ser Aztecas OR Incas).

22

MODELO BOLEANO ¿Por qué es popular?

*Es una de los primeros modelos que se implemento y muchos de los primeros sistemas de IR se basaron en él

*La idea suele ser común entre los usuarios que la están usando.

*Es la opción favorita para insertar texto en un RDBMS.

*Es simple de formalizar y eficiente de implementar.

*En algunos caso (usuarios expertos) puede ser adecuado.

*Puede ser útil en combinación con otro modelo ej. Para excluir documentos.

*Puede ser útil con buenas interfaces.

23

MODELO PROBABILÍSTICO

Este modelo fue introducido en 1976 por Roberston y Spark Jones y después se conoció como el modelo de la recuperación de independencia binario.

La idea fundamental es, dada una pregunta del usuario, se encuentra un conjunto de documentos que contienen los datos pertinentes que necesita el usuario, a este conjunto se le conoce como conjunto de la respuesta ideal.

El modelo solo asume que esta probabilidad de relevancia depende de la pregunta y las representaciones del documento, que en este caso el usuario haga.

24


La ventaja principal del modelo probabilístico, en teoría, es que se alinean los documentos en orden decreciente de su probabilidad de ser pertinentes (referenciados).

Las desventajas incluyen:

*La necesidad de suponer la separación inicial de documentos en los conjuntos pertinentes y no pertinentes.

*El echo que el método no tiene en cuenta la frecuencia con que un termino del índice ocurre dentro de un documento ( todo los pesos son binarios).

*Que adopta la independencia para las condiciones del índice.

25


Concluyendo:

*Se presupone que existe exactamente un subconjunto de documentos que son relevantes para una consulta dada.

*Para cada documento, se intenta evaluar la probabilidad de que el usuario lo considere relevante.

*La relevancia de un documento se calcula como:

P (d relevante para q)/ P(d no relevante para q)

Donde q es una pregunta del usuario y q los campos de cada documentos.

*Luego de una iteración se recuperan V documentos; sea vr el numero de documentos recuperados que contiene el termino tr.

*El modelo propabilístico, en teoría, recupera los documentos que con mayor probabilidad son relevantes. Sin embargo, es poco popular.

26


¿Por qué es poco popular?

*Se debe comenzar adivinando y luego refinar esa apuesta iterativamente.

*El modelo ve cada documento como un conjunto de términos.

*Necesita presuponer que los términos son independientes.

*Existen estudios que muestra que es inferior al modelo vectorial y casi todos los científicos lo consideran inferior.

Sin embargo, tiene una base teórica distinta a la del modelo vectorial y permite extensiones que sí son populares.

27

Modelo - Vectorial

Redes Neuronales

LSI: Latent Semantic indexing

28

Modelo Vector:

- Se selecciona un conjunto de palabras útiles para discriminar (términos o keywords).

- Se Puede enriquecer esto con un proceso de lematisazion (o steamming), etiquetado, e identificación de frases.

- En los sistemas modernos, toda palabra del texto es un t₫rmino, excepto posiblemente las stopwords o palabras vacías.

- Si un termino aparece mucho en un documento, se supone que es importante en ese documento(t f crece).

- Pero si aparece un muchos documentos, entonces no es útil para distinguir ningún documento de los otros (i df decrece).

- Además normalizamos los módulos de los vectores para no favorecer documentos más largos.

- Lo que se intenta medir es cúanto ayuda ese t₫rmino a distinguirese documento de los demás.

29

30

31

- La similaridad es un valor entre cero y uno.- Notar que dos documentos iguales tienen similaridad 1,y ortogonal (si no comparten terminos) tienen similaridad cero.- En particular, una consulta se puede ver como un documento (formado por esas palabras) y por lo tanto como un vector.

El modelo es más general, y permite cosas como:

- Que la consulta sea un documento.- Hacer clustering de documentos

similares.- Relevance feedback ("more like this").

Este modelo no es el mas pópular de RI hoy en día.

32

LSI: Latent Semantic Indexing

- La idea es mapear el espacio de vectores a uno de menor dimensiónconservando lo mejor posible las distancias entre los vectores. Existen m₫todos matemaáticos bien conocidos como heurísticas para hacer esto.

- Lo que ocurre es que se selecciona un conjunto de vectores relativamente independientes, y los dependientes se colapsan en una sola coordenada.

- La idea es que los vectores del espacio reducido representan conceptos mas que t₫rminos, y esto reducirá el "ruido" de las palabras individuales.

-Por ejemplo, si "auto" y "vehículo" tienden a aparecer en los mismos documentos, los dos vectores serán relativamente dependientes y colapsarán. Luego al preguntar por uno de ellos se recuperará el otro también .

33

Redes Neuronales

- La idea general es tratar de expandir los t₫rminos de la consultapor interación.

- Es un grafo dirigido cuyos nodos son los t₫rmino de los documentosen sí. Las flechas representan " activación".

- Los t₫rmino de las consultas activan los mismos t₫rminos de losdocumentos.

- Los t₫rminos de documentos activan los documentos donde aparecen.

- Estos documentos activan los t₫rminos que contienen.

- Esto iteran con intensidades decrecientes hasta converger.

- El nivel alcanzado por cada documento es su relevancia.

- Esto permite que se activen documentos en forma indirecta, cuando contiene un t₫rmino que en los documentos de la colecciónaparece frecuentemente junto a uno de la consulta.

34

35

36

Modelo de Redes de Inferencia

Las dos escuelas más tradicionales del pensamiento en probabilidad se basan en la visión Frecuentista y en la visión Epistemológica.

•Los Frecuentistas se refieren a la probabilidad como la noción estadística relacionada a las leyes del cambio.

•La Epistemología interpreta a la probabilidad como el grado de creencia cuya especificación puede ser debida a la experimentación estadística.

37

El modelo de redes de inferencia toma una visión Epistemológica de el problema de recuperación de información.

El modelo de redes asocia variables aleatorias con los términos indices, los documentos y las consultas de los usuarios.

Una variable aleatoria asociada con un documento Dj representa el evento de observar ese documento (el modelo asume que los documentos están siendo observados en la búsqueda de documentos relevantes.)

38

•El termino Indice y las variables del documento son representadas como nodos en la red.

•Las aristas son dirigidas de un nodo de un documento hacia los nodos termino para indicar que la observación de un documento produce la creencia de mejorar sus nodos termino.

•Las variables aleatorias asociadas con los modelos de consulta de los usuarios el Evento de solicitar la información especificada por la consulta ha sido conocido.

•Esta variable aleatoria es representada por un nodo en la red.

39

De ahí que, las aristas son dirigidas desde los nodos del termino indice hacia los nodos de consulta. La figura 2.9 que se muestra a continuación ilustra un modelo de re redes de inferencia de recuperación de información.

40

Antecedentes de probabilidad para redes de inferencia.

Este antecedente de probabilidad refleja la probabilidad asociada al evento de observar un documento determinado Dj. Puesto que no tenemos antecedentes para ningún documento en particular, generalmente se adopta un antecedente de probabilidad distribuido uniforme. La probabilidad de observar un documento Dj, se establece como 1/N en donde N es el número total de documentos en el sistema.

P(Dj) = 1/N

~P(Dj) = 1 - 1/N

41

Modelo de Redes de Creencia

El Modelo de Redes de Creencia fue introducido en 1996 por Ribeiro - Neto y Muntz.

Se basa en la interpretación Epistemológica de las probabilidades. Sin embargo, este modelo comienza como el Modelo de Redes de Inferencia al adoptar un espacio muestral.

Como resultado produce una pequeña diferencia en las redes de topología, las cuales muestran una separación entre el documento y las consultas en la red.

42

El espacio de probabilidad

Todos los documentos en una colección son indexados por sus términos indices y el universo es el conjunto K de todos los términos índices.

Cada elemento indice es visto como un concepto elementario y K como el espacio. El concepto u es un subconjunto de K y representa un documento en la colección o la consulta del usuario. En un modelo de creencia el conjunto de relaciones son especificadas variables aleatorias.

43

Modelos basados en estructuras de texto

Problema:Encontrar los documentos que contengan la cadena “holocausto atómico” con letra cursiva, y que se encuentre cerca de una figura cuya etiqueta dice “tierra”.

Solución:Un modelo que permita la siguiente consulta:

misma-pagina( cerca_de( “holocausto atómico”, figura( etiqueta( “tierra”))))

Definición:“un modelo de RI que combina la información del contenido del texto con la información sobre la estructura del documento”

Desventaja:no tiene una manera de clasificar los resultados en base a su importancia (ranking).

44

Terminos y conceptos importantes

1. match point (punto de coincidencia):una posición del texto en la que hay una secuencia de palabras que satisface una consulta.

2. region:una porción contigua del texto.3. node (nodo):un componente estructural del documento

(capítulo, sección, etc.).

45

Modelos basados en listas no sobrepuestas (non-overlapping)

Idea:dividir el texto de cada documento en regiones que no están sobrepuestas y juntarlos en una lista.

Implementación:se crea un archivo invertido en el que cada componente estructural es una entrada en el índice. Asociado con cada una de estas entradas, hay una lista de regiones de texto como una lista de ocurrencias. Ejemplos de consultas:

a) seleccionar una región que contenga una palabra dadab) seleccionar la región A que no contenga una región B.

Capítulos

Secciones

Subsecciones

L0

L1

L2

46

Modelos basados en nodos proximales

Idea: definir estructuras de indexamiento jerárquicas e independientes sobre un mismo documento.

Implementación: primero buscar los componentes que coinciden con la cadena especificada en la consulta y, subsecuentemente, evaluando cúal de estos componentes satisface la parte estructural de la consulta. Ejemplos de consultas:(*section) with (‘holocaust’)

Capítulos

Secciones

Subsecciones

47

Modelos para hojear (browsing)

Puede darse el caso de que un usuario no quiera hacer una consulta sino que se toma el tiempo para hojear por el documento buscando palabras o referencias de interés. Browsing plano (flat): el usuario explora los documentos sin seguir una secuencia determinada. Browsing guiado por estructura: el documento esta organizado en una estructura de tipo directorio y por lo tanto tiene una jerarquía de contenido. Hipertexto: el usuario navega a través del documento mediante ligas (como en Internet).

48

Modelos de hipertexto

Un concepto fundamental relacionado con la tarea de escribir texto es la secuencia que le damos para que el lector capte nuestro mensaje.Definición: “es una estructura interactiva de navegación de alto nivel que permite ver texto de una manera no secuencial en un monitor de computadora”.Idea: un hipertexto consiste en nodos que se unen mediante ligas dirigidas dentro de un grafo. A cada nodo se le asocia una región de texto, la cual puede ser un capítulo, una sección, un artículo o una página Web. Implementación: un hipertexto tiene ligas dentro del texto en forma de palabras marcadas de manera especial. Al hacer clic en una liga nos lleva a otra parte del documento. Desventaja: cuando el hipertexto es grande, el usuario puede perderse en su estructura. Solución: contar con un mapa del hipertexto que indique al usuario su posición actual dentro de la estructura.

49

Temas de investigación

1) En sistemas de bibliotecas:Hay interés en entender los criterios que el usuario usa para juzgar la importancia de los documentos que busca. se esta investigando la manera en que otros modelos diferentes al modelo Booleano (el cual sigue siendo utilizado por los grandes sistemas de bibliotecas comerciales) afectan al usuario de una biblioteca.

2) En sistemas especializados:la investigación se centra en el problema de poder recuperar el mayor número de documentos relevantes minimizando el número de documentos que no tienen importancia.

3) En el Web:un usuario muchas veces no sabe lo que quiere buscar o le cuesta trabajo formular una consulta apropiada. Sería productivo investigar en el tema de crear interfaces avanzadas para los usuarios. motores de meta-búsquedas (motores que trabajan utilizando las clasificaciones generadas por otros motores).

Documents

1 Sistemas de Recuperación de Información Sistemas de Procesamientos de Archivos