Propuesta de actualización de macro-tesauros a partir de noticias de divulgación

Actualización de tesauros a partir de

noticias de divulgaciónMaría-José Baños-Moreno, Juan Antonio Pastor-Sánchez,

Rodrigo Martínez-Béjar

I Congreso ISKO España y Portugal / XI Congreso ISKO España – Oporto, 7/9 de noviembre de 2013

INTRODUCCIÓN● Contexto: crecimiento exponencial de

información en Internet● Herramientas de control: tesauros, para 1)

la descripción de documentos; 2) la recuperación de información; 3) construir otros productos documentales

● Destacan: Unesco y Eurovoc.● Requisito fundamental: actualización

frecuente

OBJETIVOS

● Analizar el grado de actualización de los Tesauros de la UNESCO y de la Unión Europea (Teurovoc);

● Conocer si los Tesauros de la UNESCO y Eurovoc pueden ser utilizados para indizar noticias;

METODOLOGÍA

● Obtención de muestra mediante:

○ Selección de países punteros en ciencia y tecnología;○ Selección del periódico más leído por país;

○ Selección de una noticia diaria de la sección de ciencia y tecnología;

○ Extracción de entre 1 y 6 palabras clave mediante indización en lenguaje natural;

○ Traducción a español, francés e inglés

--> Corpus de 320 noticias y 599 términos.

METODOLOGÍA● Construcción de una colección de términos de

tesauro, a la que se interroga posteriormente:

● Búsqueda de equivalencias, mediante Apache Solr, entre pares de términos según score proporcionado

METODOLOGÍA● Búsqueda de equivalencias, mediante Apache Solr:

○ Por palabras en índice general (Q1).○ Literal en el campo descriptor (Q2).○ Literal en el campo no-descriptor (Q3).○ Lematizada de expresión en el campo descriptor (Q4).○ Lematizada de expresión en el campo no-descriptor

(Q5).○ Lematizada por palabras en campo descriptor (Q6).○ Lematizada por palabras en campo no-descriptor (Q7)

METODOLOGÍA● Apache Solr proporciona una medida de similitud

(score) que clasifica los resultados:

○ A las consultas Q2 y Q3 se les aplicó un factor de potenciación del score de 5 y 3.

○ Experimentalmente se comprobó la necesidad de potenciar los resultados de la consulta Q1, aplicando en este caso un boost de 2,5.

○ Los primeros datos obtenidos aconsejaron establecer un umbral mínimo de score por debajo del cual debían desecharse dichos resultados: 0,4 para el Tesauro de la UNESCO y 0,5 para EUROVOC

METODOLOGÍA● Resultados obtenidos con Solr para los términos de

los tesauros:

METODOLOGÍA

● Clasificación en función de la relación entre los pares de términos en:

○ Correctos (TC)○ Sinónimos (TS)○ Específicos (TE)○ Genéricos (TG)○ Término relacionado (TR);○ Término nuevo (TN);○ Falso equivalente (TFE)

RESULTADOS● Varios cálculos de precisión:

○ Precisión exacta (TC) y precisión cercana (TC+TS): Casi 50% de términos indizados aparecían en el tesauro;

○ Precisión total (TC+TS+TG+TE): Cerca de 75% de palabras clave extraídas mantienen alguna relación con los términos de tesauros, aunque no implica una recuperación satisfactoria

CONCLUSIONES● Casi la mitad de los términos extraídos, son recogidos por los dos

tesauros. Se puede estimar que existe cierta preocupación por su renovación;

● De las equivalencias halladas, más de un 25% son de tipo jerárquico (TE, TG) o asociativo (TR). Una búsqueda eventual por dichas palabras clave no aportaría el resultado más adecuado.

● Para casi un 25% de los términos extraídos no se halló ninguna equivalencia (TN) o era falsa (TFE).

● Tanto el tesauro de la Unesco como Eurovoc necesitan incrementar su frecuencia de actualización;

● En su estado actual, estos tesauros no pueden ser utilizados para indizar noticias;

LÍNEAS FUTURAS● Los lenguajes pivote resuelven casos de

homonimia, polisemia y riqueza lingüística. En el futuro se podrían añadir otras lenguas al estudio

● Apache Solr, a diferencia de otras técnicas, como N-gramas, detecta automáticamente términos nuevos. Otra línea podría centrarse en el análisis de las búsquedas para mejorar los resultados

GRACIAS POR VUESTRA ATENCIÓN

Technology

Propuesta de actualización de macro-tesauros a partir de noticias de divulgación