31
12/11/09 AESLA 2009 1 AESLA 09 Lingüística de Corpus, Computacional e Ingeniería Lingüística Comunicación: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA Guillermo jorge-Botana, José A. León, Ricardo Olmos. Universidad Autónoma de Madrid

Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA (Latent Semantic Analysis)

Embed Size (px)

DESCRIPTION

El Análisis de la Semántica Latente (LSA) (Latent Semantic Analysis) devuelve una representación estática del conocimiento representado en un texto. Una matriz LSA representa un conocimiento cristalizado de un dominio temático concreto o de una muestra de uso general del lenguaje. De la anterior proposición se extrae que LSA es únicamente un modelo de representación y adquisición pero no un modelo de procesamiento del lenguaje. La representación proporcionada por LSA funciona como base para proponer modelos de procesamiento e implementar algoritmos que lo simulen.

Citation preview

Page 1: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA (Latent Semantic Analysis)

12/11/09 AESLA 2009 1

AESLA 09Lingüística de Corpus, Computacional

e Ingeniería Lingüística

Comunicación: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA

Guillermo jorge-Botana, José A. León, Ricardo Olmos.Universidad Autónoma de Madrid

Page 2: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA (Latent Semantic Analysis)

12/11/09 AESLA 2009 2

Palabras con distintos sentidos en distintos contextos

• Palabras con distintos sentidos– Homonimia: Sentidos sin relación

• jota letra (Contexto) • jota región (Contexto)

– Polisemia: Sentidos relacionados• hoja rosal (Contexto) • hoja tinta (Contexto)

Page 3: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA (Latent Semantic Analysis)

12/11/09 AESLA 2009 3

¿Cómo explotar el contexto para desambiguar?

HOJA

TINTA

ROSAL

Page 4: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA (Latent Semantic Analysis)

12/11/09 AESLA 2009 4

¿Por qué LSA puede ser eficiente?

• Técnica basada en apariciones reales• Corpus

• Representación mensurable y manipulable de las palabras y estructuras textuales

• Operaciones sobre vectores.

• Tiene una métrica clara en cuanto a funciones de similitud

• Cosenos• Distancias• Correlaciones

Page 5: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA (Latent Semantic Analysis)

12/11/09 AESLA 2009 5

LSA como modelo

Page 6: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA (Latent Semantic Analysis)

12/11/09 AESLA 2009 6

LSA como modelo de representación del léxico

• Landauer & Dumais (1997)

– Tarea de reconocimiento de sinónimos.

Page 7: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA (Latent Semantic Analysis)

12/11/09 AESLA 2009 7

LSA como modelo de la adquisición del léxico

• Landauer & Dumais (1997)

– El aprendizaje del lenguaje parece tener lugar mucho más rápido que lo que la exposición a los términos permite.

– El concepto de “león” se aprende también en los textos en que la palabra no aparece.

Page 8: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA (Latent Semantic Analysis)

12/11/09 AESLA 2009 8

Limitaciones con polisemia

• Deerwester et al. (1990)

– Una palabra es un vector.– Ese vector es un promedio de todos los significados

ponderado por la frecuencia de los contextos en donde ha aparecido.

Page 9: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA (Latent Semantic Analysis)

12/11/09 AESLA 2009 9

LSA no emula el procesamiento del lenguaje.

• Es una representación estática de unidades lingüísticas.

• Es simplemente un espacio semántico-vectorial

Page 10: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA (Latent Semantic Analysis)

12/11/09 AESLA 2009 10

LSA+ Algoritmos puede emular algunos procesos del lenguaje

• Sobre este espacio vectorial tenemos que implementar algún tipo de operación para dar cuenta de algunos procesos (Burgess, 2000)

– Directos: cosenos, Distancias, Longitud de vector

– Contextuales: Construcción-integración, Algoritmo de predicación. (Kintsch,2001) o Ponderación a índices de confianza en el reconocimiento.

Page 11: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA (Latent Semantic Analysis)

12/11/09 AESLA 2009 11

LSA+ Algoritmos puede emular algunos procesos del lenguaje

Page 12: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA (Latent Semantic Analysis)

12/11/09 AESLA 2009 12

Hoja(Tinta)

Palabra(Palabra contexto)

Hoja(Rosal)

¿Sobre que trabajamos?

Page 13: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA (Latent Semantic Analysis)

12/11/09 AESLA 2009 13

Experiencia anterior:Extracción de sentidos

• Espacio semántico: Psicopatología (Jorge-Botana, León, Olmos; en prensa)

• Suma de vectores:– V de “fobia” + v de “Tormentas”

• Extracción de los vecinos al vector resultante

“Fobia a las tormentas”

“Personalidad de la pistola”

P(C)

Personalidad (Pistola)

Fobia (Tormentas)

Page 14: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA (Latent Semantic Analysis)

12/11/09 AESLA 2009 14

Experiencia anterior: Problemas

• Inundación del sentido predominante La definición de “fobia a las tormentas” posee muchos términos del sentido predominante de la fobia (fobia social).

Page 15: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA (Latent Semantic Analysis)

12/11/09 AESLA 2009 15

Experiencia anterior: Problemas

Fobia

Público

Social

Precipicios

Timidez

Page 16: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA (Latent Semantic Analysis)

12/11/09 AESLA 2009 16

Experiencia anterior: Problemas

• Definición inexacta – Aunque la lista de términos coincida con la del

sentido predominante (fobia específica), no cubre del todo las especificidades buscadas (“a las tormentas”).

Page 17: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA (Latent Semantic Analysis)

12/11/09 AESLA 2009 17

Experiencia anterior: Problemas

Fobia

situaciones

Miedo

Serpientes

Ansiedad

Page 18: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA (Latent Semantic Analysis)

12/11/09 AESLA 2009 18

Experiencia anterior: Problemas

• Definición de bajo nivel– Los términos de la lista no son lo suficientemente

representativos para cubrir todos los aspectos de “fobia a las tormentas”

Page 19: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA (Latent Semantic Analysis)

12/11/09 AESLA 2009 19

Experiencia anterior: Problemas

Ejemplo: Fobia tormentas

PuentesAviones

Serpientes

Fobia tormentas

Miedo

Ansiedad

Temor

Y quizás también queremos

Términos de poca relevancia

Que sólo concurren con el término de referencia

Page 20: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA (Latent Semantic Analysis)

12/11/09 AESLA 2009 20

Experiencia anterior: ¿Qué necesitamos?

Page 21: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA (Latent Semantic Analysis)

12/11/09 AESLA 2009 21

Experiencia anterior: ¿Qué empleamos?

• Algoritmo de Kintsch– El Sentido es evanescente y temporal y se

genera en línea. – Dos componentes:

• Una representación flexible de las palabras– LSA, HAL, Modelo espacio vectorial clásico

• Un mecanismo que active contenido en base a su contexto.

– Una red Construcción-Integración, etc

Page 22: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA (Latent Semantic Analysis)

12/11/09 AESLA 2009 22

Experiencia anterior: ¿Qué empleamos?

• Algoritmo de Kintsch– Se buscan los n primeros vecinos del término T– Se calcula la similitud de cada uno con la palabra contexto C.– Se forma una red entre el término T, C y lo n primeros vecinos de T– Las conexiones entre los nodos son los cosenos entre los términos que representan.– Se lanza la red con conexiones excitatorias e inhibitorias.– Vector resultante: La suma de los vectores término (T), contexto (C) y los k

primeros nodos más activados.

Page 23: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA (Latent Semantic Analysis)

12/11/09 AESLA 2009 23

Experiencia anterior: ¿Qué empleamos?

• Corrección en base a la longitud de vector

– Mientras los vecinos semánticos se extraen generalmente empleando el coseno, nosotros corregimos el coseno introduciendo la longitud de vector.

– Similarity = Cos(A, I). – Confidence = Cos(A, I) * log (1 + VectorLength(I)),

Page 24: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA (Latent Semantic Analysis)

12/11/09 AESLA 2009 24

Experiencia anterior: ¿Qué conseguimos?

Page 25: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA (Latent Semantic Analysis)

12/11/09 AESLA 2009 25

Visualización

• Visualizar las palabras junto con sus contextos.

– HOJA(TINTA, ROSAL)

Page 26: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA (Latent Semantic Analysis)

12/11/09 AESLA 2009 26

Visualización

• Método:– Corpus LEXESP(Sebastián, Cuetos, Carreiras & Martí,

2000) – Se emplea Gallito- .Net-Matlab para LSA y A.

predicación (www.elsemantico.com)– Se crea un grafo con todos los vecinos extraidos

– Se emplea Pajek. (Kamada –Kawai)

Page 27: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA (Latent Semantic Analysis)

12/11/09 AESLA 2009 27

Visualización

• Visualización de los 30 primeros vecinos de “Hoja”

Page 28: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA (Latent Semantic Analysis)

12/11/09 AESLA 2009 28

Visualización

• Hoja(Tinta, Rosal) Suma de vectores

VEGETALPAPEL

OTROS

HOJA

Page 29: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA (Latent Semantic Analysis)

12/11/09 AESLA 2009 29

Visualización

• Hoja(Tinta, Rosal) Algoritmo de predicación

PAPEL

VEGETAL

HOJA

Page 30: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA (Latent Semantic Analysis)

12/11/09 AESLA 2009 30

Visualización

• Hoja(Tinta, Rosal) – Algoritmo de predicación– Corrección con longitud de vector

PAPEL

VEGETAL

HOJA

Page 31: Emulación del procesamiento de palabras polisémicas determinando el contexto con LSA (Latent Semantic Analysis)

12/11/09 AESLA 2009 31

Conclusiones:

• LSA proporciona una representación objetiva y mensurable de conocimiento estático.

• LSA es una buena base para simular procesos mediante algoritmos que tengan en cuenta las constricciones del contexto.

• LSA y los algoritmos que provienen de la psicolingúística tiene muchas aplicaciones en el ámbito de la industria lingüística (buscadores, interpretadores de intenciones del usuario, reconocedores de voz, indexadores de información diagnóstica, visualización, etc) .