Upload
maria-jose-banos-moreno
View
245
Download
0
Embed Size (px)
Citation preview
Actualización de tesauros a partir de
noticias de divulgaciónMaría-José Baños-Moreno, Juan Antonio Pastor-Sánchez,
Rodrigo Martínez-Béjar
I Congreso ISKO España y Portugal / XI Congreso ISKO España – Oporto, 7/9 de noviembre de 2013
INTRODUCCIÓN● Contexto: crecimiento exponencial de
información en Internet● Herramientas de control: tesauros, para 1)
la descripción de documentos; 2) la recuperación de información; 3) construir otros productos documentales
● Destacan: Unesco y Eurovoc.● Requisito fundamental: actualización
frecuente
OBJETIVOS
● Analizar el grado de actualización de los Tesauros de la UNESCO y de la Unión Europea (Teurovoc);
● Conocer si los Tesauros de la UNESCO y Eurovoc pueden ser utilizados para indizar noticias;
METODOLOGÍA
● Obtención de muestra mediante:
○ Selección de países punteros en ciencia y tecnología;○ Selección del periódico más leído por país;
○ Selección de una noticia diaria de la sección de ciencia y tecnología;
○ Extracción de entre 1 y 6 palabras clave mediante indización en lenguaje natural;
○ Traducción a español, francés e inglés
--> Corpus de 320 noticias y 599 términos.
METODOLOGÍA● Construcción de una colección de términos de
tesauro, a la que se interroga posteriormente:
● Búsqueda de equivalencias, mediante Apache Solr, entre pares de términos según score proporcionado
METODOLOGÍA● Búsqueda de equivalencias, mediante Apache Solr:
○ Por palabras en índice general (Q1).○ Literal en el campo descriptor (Q2).○ Literal en el campo no-descriptor (Q3).○ Lematizada de expresión en el campo descriptor (Q4).○ Lematizada de expresión en el campo no-descriptor
(Q5).○ Lematizada por palabras en campo descriptor (Q6).○ Lematizada por palabras en campo no-descriptor (Q7)
METODOLOGÍA● Apache Solr proporciona una medida de similitud
(score) que clasifica los resultados:
○ A las consultas Q2 y Q3 se les aplicó un factor de potenciación del score de 5 y 3.
○ Experimentalmente se comprobó la necesidad de potenciar los resultados de la consulta Q1, aplicando en este caso un boost de 2,5.
○ Los primeros datos obtenidos aconsejaron establecer un umbral mínimo de score por debajo del cual debían desecharse dichos resultados: 0,4 para el Tesauro de la UNESCO y 0,5 para EUROVOC
METODOLOGÍA● Resultados obtenidos con Solr para los términos de
los tesauros:
METODOLOGÍA
● Clasificación en función de la relación entre los pares de términos en:
○ Correctos (TC)○ Sinónimos (TS)○ Específicos (TE)○ Genéricos (TG)○ Término relacionado (TR);○ Término nuevo (TN);○ Falso equivalente (TFE)
RESULTADOS● Varios cálculos de precisión:
○ Precisión exacta (TC) y precisión cercana (TC+TS): Casi 50% de términos indizados aparecían en el tesauro;
○ Precisión total (TC+TS+TG+TE): Cerca de 75% de palabras clave extraídas mantienen alguna relación con los términos de tesauros, aunque no implica una recuperación satisfactoria
CONCLUSIONES● Casi la mitad de los términos extraídos, son recogidos por los dos
tesauros. Se puede estimar que existe cierta preocupación por su renovación;
● De las equivalencias halladas, más de un 25% son de tipo jerárquico (TE, TG) o asociativo (TR). Una búsqueda eventual por dichas palabras clave no aportaría el resultado más adecuado.
● Para casi un 25% de los términos extraídos no se halló ninguna equivalencia (TN) o era falsa (TFE).
● Tanto el tesauro de la Unesco como Eurovoc necesitan incrementar su frecuencia de actualización;
● En su estado actual, estos tesauros no pueden ser utilizados para indizar noticias;
LÍNEAS FUTURAS● Los lenguajes pivote resuelven casos de
homonimia, polisemia y riqueza lingüística. En el futuro se podrían añadir otras lenguas al estudio
● Apache Solr, a diferencia de otras técnicas, como N-gramas, detecta automáticamente términos nuevos. Otra línea podría centrarse en el análisis de las búsquedas para mejorar los resultados
GRACIAS POR VUESTRA ATENCIÓN