Upload
lekhue
View
216
Download
1
Embed Size (px)
Citation preview
Universidad Politecnica de Madrid
Escuela Tecnica Superior de Ingenieros Informaticos
Tesis de Fin de Master
MODELO DE PARAFRASIS SEMANTICA
DE SIMILITUD DE DOCUMENTOS
MASTER UNIVERSITARIO EN INTELIGENCIAARTIFICIAL
Departamento de Inteligencia Artificial
Madrid, Julio 2016
Autora
Marıa Navas LoroSupervisor
Jesus Cardenosa Lera
Grupo de Validacion y Aplicaciones Industriales
What else would be given without explanation?
How far could he rely, then, on the knowledge he was gaining? He would have
to ask questions constantly, take nothing for granted.
There would be so many opportunities to miss the obvious, so many chances to
misunderstand, so many ways of taking the wrong path.
The Robots of Dawn, Isaac Asimov
The difficult is what takes a little time;
the impossible is what takes a little longer.
Fridtjof Nansen
ii
Dedicado a ...
Ojala existiese una metrica de agradecimientos
que diese a cada uno de los que me aguantan
acompanan el peso justo que merece. No obstante,
y pese a lo que digan Riemann y Lebesgue,
hay cosas que no se pueden medir.
iii
Abstract
Treatment of paraphrasing is an understudied area of Natural Language Proces-
sing. Most related efforts have focused on the study of purely semantic similarity,
oriented to tasks such as text categorization, leaving aside the study of the content
of the text, of what it does really mean. The fact that the main approaches to the
treatment of paraphrasing are limited either to related areas such as logic or to
purely theoretical linguistic models with difficult and costly practical application
make this phenomenon not to be properly covered nowadays, being still impos-
sible to tell whether two texts say exactly the same despite being expressed in
different ways. Existing approaches also tend to be oriented to a unique language,
so their scope is even more limited, preventing them for instance from certifying if
a translation is correct or not. This thesis aims to remove this obstacle by approa-
ching paraphrasing from a multilingual point of view, basing the presented model
on an interlingual representation that allows it to study paraphrased texts that
can come from any language. This representation will also help to avoid other
common obstacles in Natural Language Understanding, such as the ambiguity
problem. Therefore we introduce a model based on a novel approach, language
independent, along with an extensive State of the Art on the areas involved in
the treatment of paraphrasing.
Resumen
El tratamiento de la parafrasis es un area poco estudiada del Procesamiento del
Lenguaje Natural. La mayorıa de esfuerzos relacionados se han centrado en el
estudio de la similaridad puramente semantica, orientada a tareas como la ca-
tegorizacion de textos, dejando a un lado el estudio del contenido del texto, de
que quiere decir realmente. El hecho ademas de que los principales enfoques del
tratamiento de la parafrasis se limiten o bien a areas relacionadas como la logica
o bien a modelos linguısticos puramente teoricos de difıcil y costosa aplicacion
practica hacen que este fenomeno no este a dıa de hoy debidamente cubierto,
siendo imposible asegurar si dos textos dicen lo mismo pese a estar expresados de
diferente manera. Las aproximaciones existentes suelen ademas estar orientadas
a una unica lengua, por lo que su alcance es aun mas limitado, impidiendo por
ejemplo certificar si una traduccion es correcta o no. En esta tesis se pretende
eliminar esta traba abordando la parafrasis desde un punto de vista multilingue,
basandose en una representacion interlingual que permitira al modelo presentado
estudiar la parafrasis en textos que pueden proceder de cualquier idioma. Es-
ta representacion servira tambien para evitar otros obstaculos habituales en la
Comprension del Lenguaje Natural, como es el problema de la ambiguedad. Pre-
sentaremos por tanto un modelo basado en un enfoque novedoso, independiente
de la lengua, acompanado ademas de un extenso Estado del Arte sobre las areas
involucradas en el tratamiento de la parafrasis.
Indice general
Dedicatoria III
Abstract IV
Resumen V
1. Introduccion 1
1.1. Representacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Similitud entre textos . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3. Parafrasis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4. Objetivos y utilidad de la propuesta . . . . . . . . . . . . . . . . . 6
1.5. Outline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2. Estado del Arte 9
2.1. Representacion del conocimiento . . . . . . . . . . . . . . . . . . . 9
2.1.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.2. Teorıa de la Dependencia Conceptual . . . . . . . . . . . . 10
2.1.3. Roles Semanticos . . . . . . . . . . . . . . . . . . . . . . . 12
2.1.3.1. Marcos semanticos . . . . . . . . . . . . . . . . . 14
2.1.4. Redes Semanticas . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.4.1. Tipos de Redes Semanticas . . . . . . . . . . . . 16
2.1.4.2. Ejemplos de Redes Semanticas . . . . . . . . . . 17
ConceptNet . . . . . . . . . . . . . . . . . . . . . . 17
WordNet . . . . . . . . . . . . . . . . . . . . . . . . 17
BabelNet . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1.5. Ontologıas . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1.5.1. Posibles definiciones . . . . . . . . . . . . . . . . 20
2.1.5.2. Tipos de ontologıas . . . . . . . . . . . . . . . . . 21
vi
Indice general vii
2.1.5.3. Componentes y ejemplos de Ontologıas . . . . . . 22
2.1.6. Grafos conceptuales . . . . . . . . . . . . . . . . . . . . . . 23
2.1.6.1. Estructura . . . . . . . . . . . . . . . . . . . . . 24
2.1.6.2. Roles Semanticos . . . . . . . . . . . . . . . . . . 24
2.1.6.3. Evolucion y aplicaciones . . . . . . . . . . . . . . 26
2.1.7. Teorıa del Texto-Significado . . . . . . . . . . . . . . . . . 27
2.1.8. Interlinguas . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1.8.1. La Traduccion Automatica . . . . . . . . . . . . 29
2.1.8.2. Caracterısticas de una interlingua . . . . . . . . . 32
2.1.8.3. Ejemplos de interlinguas . . . . . . . . . . . . . . 33
PIVOT . . . . . . . . . . . . . . . . . . . . . . . . . 33
ATLAS II . . . . . . . . . . . . . . . . . . . . . . . 33
KANT . . . . . . . . . . . . . . . . . . . . . . . . . 34
UNITRAN . . . . . . . . . . . . . . . . . . . . . . . 35
DLT . . . . . . . . . . . . . . . . . . . . . . . . . . 36
Mikrokosmos . . . . . . . . . . . . . . . . . . . . . . 36
Interlingua IAMTC . . . . . . . . . . . . . . . . . . 37
Otras interlinguas . . . . . . . . . . . . . . . . . . . 38
2.1.9. UNL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.1.9.1. Palabras Universales . . . . . . . . . . . . . . . . 39
2.1.9.2. Relaciones . . . . . . . . . . . . . . . . . . . . . . 41
2.1.9.3. Atributos . . . . . . . . . . . . . . . . . . . . . . 42
2.1.9.4. Grafos UNL . . . . . . . . . . . . . . . . . . . . . 43
2.1.9.5. Situacion actual . . . . . . . . . . . . . . . . . . 45
2.2. Parafrasis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.2.2. Perspectiva linguıstica . . . . . . . . . . . . . . . . . . . . 47
2.2.2.1. Conceptos linguısticos relacionados . . . . . . . . 47
Textual entailment . . . . . . . . . . . . . . . . . . 47
Polisemia . . . . . . . . . . . . . . . . . . . . . . . . 48
Anafora y Correferencia . . . . . . . . . . . . . . . 48
Sinonimia . . . . . . . . . . . . . . . . . . . . . . . 49
Semantica Distribucional . . . . . . . . . . . . . . . 50
2.2.2.2. Modelo del Texto-Significado . . . . . . . . . . . 52
Concepto de parafrasis . . . . . . . . . . . . . . . . 52
Indice general viii
Tipos de parafrasis . . . . . . . . . . . . . . . . . . 53
Funciones lexicas . . . . . . . . . . . . . . . . . . . 53
2.2.3. Perspectiva computacional . . . . . . . . . . . . . . . . . . 54
2.2.3.1. Tipos de parafrasis . . . . . . . . . . . . . . . . . 54
2.2.3.2. Posibles enfoques . . . . . . . . . . . . . . . . . . 55
Generacion . . . . . . . . . . . . . . . . . . . . . . . 55
Extraccion . . . . . . . . . . . . . . . . . . . . . . . 55
Reconocimiento . . . . . . . . . . . . . . . . . . . . 56
2.2.3.3. Campos de aplicacion . . . . . . . . . . . . . . . 58
Resumidores . . . . . . . . . . . . . . . . . . . . . . 58
2.2.3.4. Consultas expandidas, Q/A y EI . . . . . . . . . 60
2.2.3.5. Generacion de LN y TA . . . . . . . . . . . . . . 60
Otros usos . . . . . . . . . . . . . . . . . . . . . . . 61
2.2.3.6. Recursos . . . . . . . . . . . . . . . . . . . . . . . 61
2.2.3.7. Otras consideraciones . . . . . . . . . . . . . . . 62
2.3. Similaridad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
2.3.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . 63
2.3.2. Nivel de palabra . . . . . . . . . . . . . . . . . . . . . . . 63
2.3.2.1. Cadenas de caracteres . . . . . . . . . . . . . . . 63
Basadas en edicion . . . . . . . . . . . . . . . . . . 63
Basadas en tokens . . . . . . . . . . . . . . . . . . . 65
Otras medidas . . . . . . . . . . . . . . . . . . . . . 67
2.3.2.2. Metodos de evaluacion de Traduccion Automatica 68
BLEU . . . . . . . . . . . . . . . . . . . . . . . . . 68
NIST . . . . . . . . . . . . . . . . . . . . . . . . . . 69
METEOR . . . . . . . . . . . . . . . . . . . . . . . 69
WER . . . . . . . . . . . . . . . . . . . . . . . . . . 70
TER . . . . . . . . . . . . . . . . . . . . . . . . . . 70
PER . . . . . . . . . . . . . . . . . . . . . . . . . . 70
Otras medidas . . . . . . . . . . . . . . . . . . . . . 71
2.3.3. Nivel sintactico . . . . . . . . . . . . . . . . . . . . . . . . 71
2.3.3.1. Arboles . . . . . . . . . . . . . . . . . . . . . . . 71
2.3.3.2. Grafos . . . . . . . . . . . . . . . . . . . . . . . . 72
2.3.4. Nivel semantico . . . . . . . . . . . . . . . . . . . . . . . . 73
2.3.4.1. Co-ocurrencias o medidas basadas en corpus . . . 74
Indice general ix
2.3.4.2. Medidas taxonomicas para conceptos . . . . . . . 75
Basadas en el camino entre conceptos . . . . . . . . 75
Basadas en el Contenido de Informacion . . . . . . 78
2.3.4.3. Medidas de similaridad para oraciones y textos . 79
Semantica de las palabras . . . . . . . . . . . . . . 81
Orden de las palabras . . . . . . . . . . . . . . . . . 81
Diferencias . . . . . . . . . . . . . . . . . . . . . . . 82
Uso de Roles Semanticos . . . . . . . . . . . . . . . 82
2.3.4.4. Similaridad entre grafos . . . . . . . . . . . . . . 83
Conceptos previos . . . . . . . . . . . . . . . . . . . 83
Comparacion de Grafos Conceptuales . . . . . . . . 84
2.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
3. Definicion del Trabajo 88
3.1. Introduccion y motivacion . . . . . . . . . . . . . . . . . . . . . . 88
3.2. Hipotesis de trabajo . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.3. Asunciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.4. Restricciones y limitaciones . . . . . . . . . . . . . . . . . . . . . 90
3.5. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
3.6. Metodo de validacion . . . . . . . . . . . . . . . . . . . . . . . . . 91
4. Modelo propuesto 93
4.1. Bases teoricas del modelo . . . . . . . . . . . . . . . . . . . . . . 93
4.1.1. Perspectiva sintactica . . . . . . . . . . . . . . . . . . . . . 93
4.1.2. Perspectiva semantica . . . . . . . . . . . . . . . . . . . . 94
4.1.3. Comparacion de grafos . . . . . . . . . . . . . . . . . . . . 94
4.2. Puntos claves de UNL sobre los que se asienta el modelo . . . . . 94
4.2.1. Elementos de la oracion en UNL . . . . . . . . . . . . . . . 95
4.2.1.1. @entry, el nucleo de la frase . . . . . . . . . . . . 95
4.2.1.2. Categorıas gramaticales . . . . . . . . . . . . . . 95
4.2.1.3. Atributos . . . . . . . . . . . . . . . . . . . . . . 98
4.3. Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
4.3.1. Jerarquıa de relaciones . . . . . . . . . . . . . . . . . . . . 98
4.3.1.1. Relaciones basicas . . . . . . . . . . . . . . . . . 99
4.3.1.2. Modificadores . . . . . . . . . . . . . . . . . . . . 100
Modificadores de primer nivel (Mod1) . . . . . . . . 100
Indice general x
Modificadores de subgrafos de segundo nivel (ModS2) 102
Modificadores de subgrafos coordinados (ModSC) . . 105
Modificadores de subgrafos de tercer nivel (ModS3) . 106
4.3.2. Otros tipos de mapeos o correspondencias . . . . . . . . . 106
4.3.2.1. Mapeo de relaciones entre verbos de distinta ca-
tegorıa ontologica . . . . . . . . . . . . . . . . . . 106
4.3.2.2. Mapeo de relaciones entre subgrafos con nucleo
sustantivo-verbo y sustantivo-sustantivo . . . . . 108
4.3.2.3. Casos especiales: la comparacion, los superlativos
y la coordinacion . . . . . . . . . . . . . . . . . . 108
La comparacion . . . . . . . . . . . . . . . . . . . . 108
Los superlativos . . . . . . . . . . . . . . . . . . . . 110
La coordinacion . . . . . . . . . . . . . . . . . . . . 110
4.3.3. Seleccion de atributos . . . . . . . . . . . . . . . . . . . . 110
4.3.4. Medida de similaridad . . . . . . . . . . . . . . . . . . . . 112
4.3.4.1. Verbos . . . . . . . . . . . . . . . . . . . . . . . . 112
4.3.4.2. Adjetivos, adverbios y sustantivos . . . . . . . . . 115
4.3.4.3. Similaridad entre palabras de distinta categorıa . 116
4.3.4.4. Ejemplos de aplicacion de la medida . . . . . . . 116
4.3.5. Algoritmo de comparacion de grafos . . . . . . . . . . . . . 117
4.3.5.1. Distincion de casos del modelo comparativo . . . 118
4.3.5.2. Casos del modelo comparativo . . . . . . . . . . . 118
Caso 1 . . . . . . . . . . . . . . . . . . . . . . . . . 121
Casos 2, 3 y 4 . . . . . . . . . . . . . . . . . . . . . 122
4.3.5.3. Identificacion de subgrafos . . . . . . . . . . . . . 123
4.3.6. Ejemplos de aplicacion del modelo . . . . . . . . . . . . . . 124
4.3.6.1. Presencia de entidades . . . . . . . . . . . . . . . 125
Posibles variaciones . . . . . . . . . . . . . . . . . . 126
4.3.6.2. Similaridad semantica con varios verbos . . . . . 128
4.3.6.3. Caso de comparacion . . . . . . . . . . . . . . . . 131
Posibles variaciones . . . . . . . . . . . . . . . . . . 133
4.4. Resumen final sobre el modelo . . . . . . . . . . . . . . . . . . . . 133
5. Experimentacion y resultados 135
5.1. Implementacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
5.2. Validacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
Indice general xi
5.2.1. Tıtulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
5.2.2. Oracion 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
5.2.3. Oracion 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
5.2.4. Oracion 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
5.3. Conclusiones sobre la validacion . . . . . . . . . . . . . . . . . . . 141
6. Conclusiones y futuros caminos 142
6.1. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
6.2. Futuras lıneas a seguir . . . . . . . . . . . . . . . . . . . . . . . . 143
A. Relaciones UNL 146
B. Atributos UNL 149
C. Validacion del documento 154
D. Otros ejemplos de validacion 159
Bibliografıa 161
Indice de figuras
2.1. Representacion cronologica de Teorıas y Sistemas de Representacion 10
2.2. Relaciones mas habituales en ConceptNet . . . . . . . . . . . . . 18
2.3. Recursos principales de BabelNet . . . . . . . . . . . . . . . . . . 19
2.4. Tipos de ontologıas . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.5. Ejemplo de Grafo Conceptual . . . . . . . . . . . . . . . . . . . . 25
2.6. Representaciones de MTT . . . . . . . . . . . . . . . . . . . . . . 29
2.7. Triangulo de Vauquois . . . . . . . . . . . . . . . . . . . . . . . . 30
2.8. Traduccion entre pares vs Traduccion basada en interlinguas . . . 31
2.9. Ejemplo clasico de grafo UNL. . . . . . . . . . . . . . . . . . . . . 43
2.10. Ejemplo de representacion UNL . . . . . . . . . . . . . . . . . . . 45
2.11. Escala de sinonimia . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.12. Arquitectura de parafrasis segun la Distribucion Estructural . . . 51
2.13. Tipos de parafrasis . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.14. Medidas de similaridad para caracteres . . . . . . . . . . . . . . . 64
2.15. Ejemplo arbol de dependencias . . . . . . . . . . . . . . . . . . . 72
2.16. Comparativa medidas de similaridad semantica . . . . . . . . . . 80
2.17. Ejemplo de overlap en Grafos Conceptuales . . . . . . . . . . . . . 84
4.1. Ejemplo @entry verbo . . . . . . . . . . . . . . . . . . . . . . . . 95
4.2. Ejemplo @entry sustantivo . . . . . . . . . . . . . . . . . . . . . . 96
4.3. Modelo: Esquema de la jerarquıa relaciones UNL propuesta . . . . 99
4.4. Modelo: Esquema de modificadores tipo Mod1 . . . . . . . . . . . 103
4.5. Modelo: Esquema de modificadores de subgrafos . . . . . . . . . . 104
4.6. Estructura de la comparacion . . . . . . . . . . . . . . . . . . . . 109
4.7. Modelo: Casos del modelo de comparacion . . . . . . . . . . . . . 119
4.8. Modelo: Caso 1 del modelo de comparacion . . . . . . . . . . . . . 120
4.9. Grafo de la frase: “Tom bought a Honda from John.” . . . . . . . 125
xii
Indice de figuras xiii
4.10. Grafo de la frase: “Tom purchased a Honda from John.” . . . . . 125
4.11. Grafo de la frase: “Me comento que no pensaba participar en el
concurso.” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
4.12. Grafo de la frase: “Me dijo que pensaba participar en el concurso.” 128
4.13. Subgrafos en el proceso de comparacion entre dos oraciones . . . . 130
4.14. Grafo de la frase: “Las ciudades del norte son mas ricas que las
ciudades del sur.” . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
4.15. Grafo de la frase: “Las ciudades del sur son mas pobres que las
ciudades del norte.” . . . . . . . . . . . . . . . . . . . . . . . . . . 131
5.1. Verificacion: Grafo del tıtulo del texto original. “Los espanoles no
confıan en que los Gobiernos esten usando bien sus datos” . . . . 137
5.2. Verificacion: Grafo del tıtulo del texto modificado. “Los espanoles
no confıan en que los Gobiernos no esten usando bien sus datos” 137
5.3. Verificacion: Grafo de la oracion 1 del texto original. “Los ciuda-
danos afirman que no saben ni quien, ni donde, esta capturando y
almacenando sus datos” . . . . . . . . . . . . . . . . . . . . . . . 138
5.4. Verificacion: Grafo de la oracion 1 del texto modificado. “Los ciu-
dadanos niegan que no saben ni quien, ni donde, esta capturando
y almacenando sus datos” . . . . . . . . . . . . . . . . . . . . . . 138
5.5. Verificacion: Grafo de la oracion 3 del texto original. “Ademas,
cuando aumenta la edad y baja el nivel de instruccion disminuye
drasticamente las ventajas percibidas sobre el Big Data.” . . . . . 140
5.6. Verificacion: Grafo de la oracion 3 del texto modificado. “Ademas,
cuando disminuye la edad y aumenta el nivel de instruccion au-
menta drasticamente las ventajas percibidas sobre el Big Data” . . 140
C.1. Resultado de la verificacion del tıtulo del texto . . . . . . . . . . . 155
C.2. Resultado de la verificacion de la primera oracion del texto . . . . 156
C.3. Resultado de la verificacion de la segunda oracion del texto . . . . 157
C.4. Resultado de la verificacion de la tercera oracion del texto . . . . 158
Indice de tablas
2.1. Roles Semanticos estandar . . . . . . . . . . . . . . . . . . . . . . 14
2.2. Relaciones gramaticales vs Roles Semanticos . . . . . . . . . . . . 14
2.3. Tipos de Participantes en los Grafos Conceptuales . . . . . . . . . 26
2.4. Thematic Roles segun el tipo de participante en los Grafos Con-
ceptuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.1. Modelo: Relaciones basicas UNL . . . . . . . . . . . . . . . . . . . 100
4.2. Correspondencias entre relaciones modificadoras semanticas . . . . 101
4.3. Mapeos entre verbos de distintas categorıas ontologicas. . . . . . . 107
A.1. Atributos de UNL . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
B.1. Relaciones conceptuales . . . . . . . . . . . . . . . . . . . . . . . 153
D.1. Ejemplos de validacion . . . . . . . . . . . . . . . . . . . . . . . . 160
xiv
Capıtulo 1
Introduccion
El Procesamiento del Lenguaje Natural es un area particularmente difıcil de
la Inteligencia Artificial, pues el Lenguaje Natural, ya de por sı complejo en la
comunicacion entre seres humanos, es un escollo difıcil de superar a la hora de ser
procesado exclusivamente por maquinas. La riqueza y vasta diversidad del mis-
mo conllevan problemas como la ambiguedad y el multilinguismo que, junto con
otros aspectos como la separacion existente entre la Linguıstica Computacional
y la Linguıstica pura, han dificultado la evolucion de esta disciplina. Impulsada
recientemente por el auge de Internet y por el exito de propuestas como la Web
Semantica, que hacen que cada dıa el volumen de informacion a tratar crezca de
manera exponencial, la necesidad de sistemas capaces de analizar, procesar y es-
pecialmente interpretar correctamente todo tipo de informacion de distintas pro-
cedencias, idiomas y caracterısticas se hace cada vez mas acuciante. Los soportes
en los que estos datos llegan son cada vez mas diversos: vıdeo, audio, documentos,
blogs, webs, redes sociales, mensajerıa... pudiendo ademas venir formulados por
personas de muy distinta procedencia social, cultural y geolinguıstica, lo que aca-
rrea expresiones muy diferentes para los mismos conceptos. Todos estos formatos
y posibles formas de expresion tienen algo en comun: necesitan de un correcto
procesamiento del lenguaje para poder ser usados en toda su plenitud.
1.1. Representacion
Uno de los principales problemas a la hora de lidiar con el Lenguaje Natural
es su representacion. Aunque el ingles ha sido casi unanimemente adoptado como
lengua vehicular tanto en internet como en las relaciones internacionales a todos
1
Capıtulo 1. Introduccion 2
los niveles, no resulta efectivo como sistema de representacion del conocimiento
a nivel maquina; ademas, al no ser capaz de representar fielmente conceptos de
otros idiomas, no puede cumplir adecuadamente las expectativas de la globalizada
sociedad en la que vivimos, ni tampoco las necesidades impuestas por propuestas
como la ya mencionada Web Semantica.
Aunque existen tanto en el mercado como en el mundo de la investigacion multi-
tud de iniciativas que tratan de paliar el problema del multilinguismo mediante el
uso de distintos sistemas de traduccion y representacion del lenguaje, no es posi-
ble encontrar a dıa de hoy una solucion plenamente satisfactoria y completamente
operativa. Una parte representativa del Estado del Arte del presente trabajo re-
visa algunas de las teorıas y representaciones mas comunes propuestas desde la
perspectiva de la Linguıstica Computacional para lidiar con esta cuestion, hacien-
do especial hincapie en UNL, el lenguaje universal impulsado por las Naciones
Unidas como sistema de representacion intermedia entre distintos idiomas. Como
veremos mas adelante, el interes de esta iniciativa radica en el consenso alcanzado
por equipos procedentes de distintos paıses, compuestos por expertos del domi-
nio y designados representantes de las distintas lenguas, a la hora de organizar y
representar de manera estandarizada tanto los conceptos comunes a las diferentes
lenguas como los rasgos caracterısticos y distintivos de cada una de ellas, ası como
de definir y normalizar las distintas relaciones que se pueden dar entre dichos con-
ceptos en el proceso de comunicacion. Se alcanza por tanto con UNL el objetivo
de una representacion independiente de la lengua y basada exclusivamente en el
significado tras la formulacion en el lenguaje en el que se expreso originalmente,
que facilita tanto su procesamiento a nivel maquina como su transformacion a
otra lengua en el seno de un proceso de traduccion automatica.
No obstante, UNL esta aun en desarrollo y constante evolucion, por lo que a
la hora de comunicarnos con personas de otras lenguas y culturas, la mayorıa
de veces no tenemos mas remedio que conformarnos con el uso de traductores
automaticos que en ocasiones son de dudosa fiabilidad. Esto puede resultar de
utilidad en caso de tener dudas puntuales sobre expresiones concretas a la hora
de redactar por ejemplo en idiomas que conocemos parcialmente (como general-
mente es el caso del ingles) o que intuitivamente podemos interpretar, ya sea por
su similitud linguıstica con nuestra lengua materna o porque su origen es similar
Capıtulo 1. Introduccion 3
y por tanto la estructura nos resulta familiar y es facil establecer similitudes con
nuestra propia lengua (como por ejemplo ocurre con el italiano y el espanol);
sin embargo, es poco probable que alguien con necesidad de escribir por ejemplo
un contrato en una lengua como el japones confiase ciegamente en la traduccion
arrojada por uno de estos sistemas. ¿Como saber si la traduccion es correcta?
¿existe alguna forma de corroborar esto a nivel maquina?
1.2. Similitud entre textos
En lo concerniente a la relacion de similaridad entre textos (y como veremos
mas adelante en el Estado del Arte), se ha escrito mucho tanto a nivel monolingue
como multilingue, ya que por ejemplo es util a la hora de realizar clasificaciones
tematicas de documentos, noticias, correos electronicos, etc. No obstante, en la
mayorıa de ocasiones esta similaridad se centra casi exclusivamente en la semanti-
ca, podrıamos decir que respondiendo a la pregunta ¿hablan de los mismo?, cuan-
do en el contexto de la comunicacion interlingue y la traduccion automatica la
cuestion clave, la que realmente nos interesa, es ¿dicen lo mismo?, que es igual
que decir que ambas representaciones significan lo mismo.
Es importante recalcar esta diferencia entre similitud semantica y mismo signifi-
cado o contenido, por lo que clarificaremos esta distincion con una serie ejemplos.
Si tenemos las siguientes oraciones:
Me gustan las patatas.
No me gustan las patatas.
para un ser humano es evidente que estamos hablando de lo mismo, pero que el
significado es radicalmente opuesto. Un sistema de similitud semantica darıa por
tanto una relacion de similaridad elevada, cuando obviamente no transmiten la
misma informacion. Asimismo, las frases:
Los limones son frutas.
Los limones son cıtricos.
tienen tambien un alto grado de similaridad semantica, y aunque el contenido
no podemos decir que sea exactamente el mismo, podemos considerar que sı que
tienen un significado francamente parecido.
Capıtulo 1. Introduccion 4
Pensemos ahora en documentos legales o jurıdicos, como por ejemplo decretos
o un contrato. La correcta definicion y correspondencia entre una clausula y
su traduccion puede cambiar por completo las condiciones de un acuerdo, dando
lugar a posibles problemas y litigios que probablemente ambas partes quieran evi-
tar. En este caso, la sensibilidad a la hora de homogeneizar el significado deberıa
ser maxima. Vemos por tanto que el concepto de tener el mismo de significado
entre oraciones no esta tampoco muy claro; aunque lo trataremos mas adelante y
con mayor rigurosidad en el Estado del Arte, siguiendo la idea de la definicion de
igualdad o similaridad en el significado pasamos a avanzar brevemente el concepto
de parafrasis.
1.3. Parafrasis
Pese a que, como veremos, no es facil definir el concepto de parafrasis y no exis-
te una definicion absoluta aceptada, habitualmente la parafrasis se suele entender
como expresiones linguısticas que, usando distintas palabras, tienen el mismo sig-
nificado, pudiendo abarcar este fenomeno distintas unidades lexicas (desde morfe-
mas a oraciones o textos completos) [126]. No obstante, ¿que podemos considerar
mismo significado? Algunos autores sostienen que la parafrasis se da cuando hay
una correspondencia pura de significado, una sinonimia absoluta, mientras que
otros mantienen que la propia naturaleza del lenguaje hace practicamente im-
posible que se de una correspondencia exacta de significado entre formulaciones
distintas. Es por ello que comunmente se aceptan como parafrasis las expresiones
linguısticas que tienen aproximadamente el mismo significado, radicando el prin-
cipal problema tanto a nivel maquina como para los propios humanos en discernir
cuando se da y cuando no mediante algun tipo de umbral difuso dependiente del
propio contexto de las expresiones.
Por su parte, Hirst [46] mantiene que la parafrasis consiste en hablar de la “misma
situacion de manera diferente”, matizando que la “misma situacion” no tiene por
que implicar las mismas condiciones, detalles o siquiera el mismo mensaje. Esta
aproximacion a la parafrasis se relaciona tambien con otra perspectiva en la que
profundizaremos mas adelante y que pasa por considerar la parafrasis como una
doble presencia de otro fenomeno linguıstico conocido como “textual entailment”
Capıtulo 1. Introduccion 5
(o implicacion textual). El textual entailment consiste a grandes rasgos en que un
primer texto implique el significado contenido en un segundo texto, por lo que
en caso de darse de manera bidireccional entre ambos textos se podrıa considerar
que estamos hablando de una parafrasis, ya que esto significarıa que vienen a
decir lo mismo.
Antes hablabamos de como la riqueza del lenguaje, una de las caracterısticas
que define al ser humano como especie superior, puede suponer un problema en
sı mismo; esto se hace patente al encontrar mil formas diferentes de expresar lo
que a priori consideramos el mismo contenido. Para decir que partimos de un lu-
gar, podemos elegir por ejemplo entre expresiones como “me voy”, “me marcho”,
“me piro”, “me largo” o incluso “huyo”. No obstante, aunque todas significan
irse de un lugar, no debemos dejar de apreciar los distintos matices que aporta
cada una de las posibles representaciones: “me piro” o “me largo”, por ejemplo,
son expresiones mucho mas coloquiales que las demas, dando una connotacion de
familiaridad e indicios sobre el contexto que no nos aportan las otras opciones,
mientras que “huir”, aunque signifique irse, implica urgencia y dejar atras una
situacion no deseada. El mismo contenido de informacion y la forma en la que
se expresa puede tambien buscar influir en la vision del receptor, o simplemen-
te plasmar o reforzar un punto de vista. Es el caso de las siguientes oraciones
(extraıdas de [46]):
Los Estados Unidos dirigieron la invasion de Iraq.
Los Estados Unidos dirigieron la liberacion de Iraq.
Los Estados Unidos dirigieron la ocupacion de Iraq.
donde los tres enunciados hacen referencia a la misma situacion, y sin embargo
la designan de manera diferente, siendo obvio para una persona que hablan de lo
mismo y que es una cuestion de perspectiva pero suponiendo un verdadero pro-
blema a nivel de procesamiento automatico. Igualmente ocurre con el enfasis que
queramos darle a los diferentes elementos de una frase, como podemos observar
en las siguientes oraciones:
Mueren trece personas en un atentado terrorista.
Un atentado terrorista provoca trece vıctimas mortales.
donde la primera enfatiza el numero de vıctimas y la segunda el propio atentado,
pese a contener exactamente la misma informacion. Por ultimo, muchas veces la
Capıtulo 1. Introduccion 6
forma de expresar la informacion viene impuesta tambien por el propio contexto
del lenguaje, como es el caso de las formulas prefijadas de muchos textos jurıdi-
cos y legales, por lo que cabe resaltar que la parafrasis en ciertos casos puede
implicar perdida de informacion o incluso ambiguedad en la interpretacion del
contenido. Es por ello que a la hora de definir un sistema de gestion de parafrasis
es recomendable restringirse a un dominio concreto.
En definitiva, podemos concluir que la parafrasis es completamente subjetiva
y que se mueve entre los lımites de la similitud de significado y la importancia de
los diferentes matices de los que se compone una misma situacion, ası como de las
distintas formas que nos ofrece la lengua de tratarlos y expresarlos y que forman
parte de misma de la riqueza del lenguaje. Multitud de fenomenos linguısticos
como la ironıa y la metafora lindan con la parafrasis y pueden entenderse como
tal, pero indudablemente aportan al texto una patina que difıcilmente se pue-
de reproducir o detectar adecuadamente en un sistema de parafrasis automatico
actual; esto nos demuestra lo lejos que estamos aun de un sistema de Procesa-
miento del Lenguaje Natural perfecto, capaz de entender las sutilezas y distintas
dimensiones del lenguaje, y de como queda aun mucho trabajo por delante para
alcanzar resultados plenamente satisfactorios.
1.4. Objetivos y utilidad de la propuesta
Pasamos ahora a enunciar los objetivos a alcanzar en el presente trabajo y la
idea tras la propuesta planteada. Los objetivos a conseguir son los siguientes:
Por una parte, en esta tesis se planea estudiar el propio fenomeno de la parafra-
sis, contestando entre otras a las siguientes cuestiones: ¿que tipos hay? ¿como
se da? ¿como se gestiona en los sistemas actuales? ¿hay avances en este ambito?
¿cuales son las necesidad en este aspecto de los sistemas de Procesamiento del
Lenguaje Natural? ¿que aplicaciones pueden beneficiarse mas de un sistema de
estas caracterısticas? ¿que factores son importantes en la parafrasis (estructura,
semantica...)? y ¿que debemos mirar, donde orientar nuestros esfuerzos? Para
ello se ha realizado un extenso trabajo de documentacion sobre el estado actual
de la cuestion, que ha desembocado en la redaccion de un Estado del Arte en
el que repasaremos algunas teorıas linguısticas al respecto y las soluciones que
Capıtulo 1. Introduccion 7
plantean, ası como posibles representaciones, formalizaciones e interpretaciones
de las mismas a nivel practico.
Por otra parte, se busca en el presente trabajo plantear un modelo capaz de
lidiar con la parafrasis a nivel tanto sintactico como semantico desde la represen-
tacion de UNL de la que hemos hablado anteriormente. Para ello se tendran en
cuenta tanto las teorıas linguısticas y los modelos y soluciones ya desarrollados y
examinados durante el Estado del Arte como las propias caracterısticas del siste-
ma UNL, que se revisaran tambien en dicho apartado de la tesis. Como veremos
mas adelante, la variacion que origina la parafrasis puede darse a distintos niveles:
sintactico, lexico, semantico... aunque la mayorıa de enfoques se han orientado a
este ultimo, creemos que la clave radica en combinar todas las perspectivas para
alcanzar un sistema lo mas completo posible; en definitiva, no podemos limitar-
nos solo a la semantica, por lo que vamos a abordarlo desde un punto de vista
semantico y sintactico.
Respecto a la utilidad del trabajo realizado, las posibles aplicaciones de un siste-
ma funcional de deteccion de parafrasis son muchas, como veremos mas adelante
en el Estado del Arte. Destacamos entre ellas la deteccion de plagio, la compa-
racion de respuestas en examenes y la expansion de busqueda en sistemas de
pregunta/respuesta. Otras ideas de mayor complejidad son la comprension y ge-
neracion de textos poeticos (principalmente de metaforas), ya que la deteccion
puede ademas ayudar a enriquecer la generacion de Lenguaje Natural, pudiendo
dotar de distintos niveles de complejidad a un mismo texto, adaptandolo a cierto
tipo de receptor (ninos, extranjeros, profesionales de cierto sector...). Un modelo
interlingue como el propuesto en este trabajo anadirıa a esta lista, ademas, la
posibilidad de verificar traducciones de distintos idiomas.
1.5. Outline
En lo concerniente a la organizacion de la tesis, tras la presente introduccion
sera como sigue.
Primero se realizara una revision de en que punto se encuentra la cuestion a
Capıtulo 1. Introduccion 8
tratar actualmente; este Estado del Arte ha sido planteado en tres partes, como
sigue:
1. Se comenzara por examinar las distintas teorıas linguısticas y los posibles
sistemas de representacion que podemos encontrar en el Procesamiento del
Lenguaje Natural, tanto en lo concerniente al propio texto a interpretar
como en los distintos recursos que pueden ayudarnos en dicha tarea.
2. En segundo lugar pasaremos a revisar las distintas aproximaciones reali-
zadas para abordar el problema de la parafrasis, definiendola en mayor
profundidad y relacionandola con otros fenomenos linguısticos colindantes.
Veremos tambien areas de aplicacion que se benefician de los modelos ac-
tuales de gestion de la parafrasis, otras disciplinas del Procesamiento del
Lenguaje Natural que tocan la parafrasis y algunas de las soluciones plan-
teadas hasta ahora.
3. Por ultimo, hablaremos del concepto de similaridad en los distintos niveles
del lenguaje y veremos las posibles maneras de abordar la comparacion
de grafos, dado que es esta la representacion usada en UNL y con la que
trataremos en el modelo propuesto.
Tras el Estado del Arte enunciaremos el planteamiento del problema, mati-
zando los principales obstaculos que podemos encontrar (extraıdos de la revision
realizada en la seccion anterior) y definiendo las limitaciones, las asunciones y las
hipotesis que consideraremos en el modelo propuesto; estas restricciones vienen
impuestas por la propia naturaleza compleja del problema a tratar y por el hecho
de tratarse el presente trabajo de una Tesis de Fin de Master y ser por tanto de
una duracion y un enfoque forzosamente acotados.
Una vez realizado el planteamiento se detallara el modelo propuesto, ası como
los resultados obtenidos de su implementacion y la informacion que podemos
extraer de los mismos. Finalmente, se enunciaran las conclusiones derivadas del
problema tratado, del modelo y de los resultados, y se realizara un analisis final
que incluira las contribuciones principales de la tesis y el trabajo futuro a realizar.
Capıtulo 2
Estado del Arte
2.1. Representacion del conocimiento
2.1.1. Introduccion
Como ya se indico en la seccion previa, el Estado del Arte se dividira en tres
partes bien diferenciadas. Por un lado veremos distintas formas de representar
conocimiento linguıstico, ası como las teorıas y componentes mas importantes de
dicho campo. Comenzaremos por la Teorıa de la Dependencia Conceptual, con-
siderada precursora de las interlinguas, y el concepto de Roles Semanticos para
pasar a las representaciones propiamente dichas, entre las que veremos las Redes
Semanticas, las Ontologıas y los Grafos Conceptuales de John Sowa, acabando
con el Modelo del Texto Significado de Igor Mel’cuk y el concepto de interlin-
gua, analizando las principales propuestas de este tipo. Por ultimo, se expondran
las principales caracterısticas del Lenguaje Universal UNL. En la Figura 2.1 en-
contramos una representacion cronologica de los temas que trataremos en esta
primera parte del Estado del Arte.
A continuacion abordaremos directamente el tema de la parafrasis, examinan-
do estudios al respecto, formas de enfocarla y otras aproximaciones que tocan
distintas formas de tratar un texto a nivel de significado y que pueden resultar
utiles de cara al tratamiento de este fenomeno linguıstico. Por ultimo, en el ter-
cer apartado estudiaremos distintas medidas de similaridad entre los diferentes
componentes del lenguaje, ası como en algunas de sus posibles representaciones.
9
Capıtulo 2. Estado del Arte 10
C.S. Peirce(1883)
1969
TeoríaTexto-Significado
1965
Grafos Conceptuales
1976
Roles Semánticos
1965
Boom de las Interlinguas~1980 ~1990
Teoría de la Dependencia Conceptual
JapónPIVOTATLAS II
Europa79 - DLT
EEUU87 - UNITRAN89 - KANT (KANTOO)90’s - Mikrokosmos
2003IAMTC (EEUU)
1996UNL (UNU)
Redes Semánticas
1968
Ontologías(origen
filosófico)
Introducción de las Ontologías en la IA
~ 1970
Figura 2.1: Representacion cronologica de las teorıas y sistemas de representaciontratados durante la primera parte del Estado del Arte.
2.1.2. Teorıa de la Dependencia Conceptual
Para conocer el origen de las interlinguas, debemos remontarnos a la Teorıa
de la Dependencia Conceptual, considerada precursora de las mismas y planteada
formalmente en 1975.
La Teorıa de la Dependencia Conceptual (o Conceptual Dependency Theory)
es un modelo de representacion del conocimiento cuyas bases se proponen por
primera vez a finales de los anos 60, en el marco de la investigacion de la tesis
doctoral de Roger Schank1, publicada en 1969. Este modelo entiende la concep-
tualizacion de una oracion como una red de conceptos linguısticos unidos por una
serie de relaciones de dependencia, pudiendo encuadrarse estos conceptos a una
o varias categorıas predefinidas, que podemos subdividir en categorıas principa-
les o gobernantes (Governing categories) y categorıas secundarias o de asistencia
(Assisting categories). La pertenencia a dichas categorıas viene determinada por
una serie de reglas de dependencia, como por ejemplo si una palabra tiene senti-
do o no por sı misma, sin depender de otra (este es el caso, por ejemplo, de los
adjetivos, que deben acompanar necesariamente al concepto al que describen).
Segun esta teorıa, el proceso linguıstico puede entenderse como un mapeo desde y
hasta una representacion mental [103], componiendose dicho mapeo de conceptos
unidos mediante relaciones de dependencia.
1 http://www.rogerschank.com/about#stuff-I-have-done. El ultimo acceso a todas laswebs citadas en el presente documento se ha realizado el 20 de junio de 2016.
Capıtulo 2. Estado del Arte 11
En este modelo, los significados se representan por medio de una serie de Con-
ceptos Primitivos (CPs), que pueden simbolizar acciones, cambios de estado o
instrumentos para otras acciones, entre otros. Estos CPs tienen a su vez un rol
conceptual concreto en el global de la frase (tales como agente, objeto...) y estan
estrechamente relacionados con sus representados en el mundo real, por lo que
pueden utilizarse como referencia tanto para una interlingua como para un siste-
ma de representacion interno para una base del conocimiento no necesariamente
orientado a la linguıstica.
Dentro de los CPs destacan las Acciones Primitivas, un conjunto de acciones
base que han ido evolucionando al tiempo que la propia teorıa y que pueden
representar cualquier suceso, ya sea individualmente o combinandose unas con
otras. Entre estas Acciones Primitivas encontramos, por ejemplo, PTRANS (que
simboliza la transferencia de un objeto de un lugar a otro) o SPEAK (el acto
de producir sonidos, no necesariamente con el fin de comunicarse). Las Accio-
nes Primitivas pueden, ademas, incluir modificadores para matizar o situar su
ratio de accion; algunos de estos modificadores son, por ejemplo, los referentes al
tiempo (pasado, futuro, transicion...) o la actitud (interrogacion, negacion, condi-
cionalidad...). Paralelamente, estas acciones se relacionan mediante relaciones de
dependencia como instrumento de, objeto de o receptor, dando lugar a un grafo
que simboliza el significado de la frase pero no emula necesariamente la estructura
sintactica de la misma.
Uno de los puntos claves de esta propuesta es que introduce la idea de una re-
presentacion canonica del significado, implicando por un lado la independencia
con respecto a la lengua y por otro la posibilidad de que distintas palabras y
estructuras puedan representar un mismo significado o concepto, contemplando
ası la parafrasis. Estas propiedades, como veremos mas adelante, son algunos de
los rasgos fundamentales que caracterizan a las interlinguas. La representacion
canonica, ademas, permite un cierto grado de inferencia que otras representa-
ciones mas enfocadas a la linguıstica (como por ejemplo las Redes Semanticas,
abordadas en la Seccion 2.1.4) no admiten.
Mas alla de su posterior relacion con las interlinguas, este modelo ha sido amplia-
mente utilizado para diversas aplicaciones [62], destacando entre ellas la repre-
Capıtulo 2. Estado del Arte 12
sentacion de escenarios y situaciones mediante planes y scripts o guiones (como
es el caso de los proyectos PAM, Plan Applier Mechanism, y SAM, Script Ap-
plier Mechanism [102]) y el procesamiento del lenguaje natural en general (en
proyectos como MARGIE, Meaning Analysis, Response Generation and Inferen-
ce on English). Cabe mencionar que las bases de la Teorıa de la Dependencia
Conceptual han ido evolucionando y adaptandose dependiendo del uso y el con-
texto de aplicacion hasta desembocar finalmente en ciertos casos en la creacion
de interlinguas propiamente dichas.
2.1.3. Roles Semanticos
Los Roles Semanticos o Thematic Roles (“roles tematicos” en espanol, tam-
bien llamados case relations o karakas [28]) son, desde el punto de vista linguıstico
[50], “generalizaciones entre los argumentos de un predicado para capturar regu-
laridades entre la representacion semantica y la expresion sintactica de dicho
predicado”.
El origen de los Roles Semanticos se remonta a la aparicion del termino origi-
nal Thematic Relation a mediados de la decada de los 60 y a su posterior po-
pularizacion en los anos 70; no obstante, la idea ya estaba presente en distintas
propuestas linguısticas anteriores (para mas informacion al respecto, ver [29]).
Existen ademas distintos puntos de vista sobre que perspectiva debe prevalecer
al definir los roles, pudiendo verse desde una perspectiva sintactica, lexica o con-
ceptual (o incluso una mezcla de varias), o si estos deben formar parte de la
propia base del lenguaje o definirse en el mapeo entre significado y forma.
De un manera mas intuitiva, los roles semanticos podrıan definirse como eti-
quetas semanticas entre conceptos que describen relaciones conceptuales entre
los mismos. Han sido ampliamente utilizados en todo tipo de representacion del
conocimiento, desde los Grafos Conceptuales hasta las interlinguas (casos que ve-
remos mas adelante en este mismo capıtulo), pasando por las Redes Semanticas.
El nombre que se da a estas etiquetas, ası como su tipo y la cantidad de ellas,
cambiara dependiendo de la implementacion, al igual que la forma de organizarlas
(pueden estar relacionadas, por ejemplo, de manera taxonomica, como ocurre en
el caso de las ontologıas y los tesauros). Aunque no existe un listado estandar de
Roles Semanticos, han sido muchos los linguistas que se han aventurado a dar su
Capıtulo 2. Estado del Arte 13
propia lista, y son palpables las similitudes entre ciertos elementos en distintas
formas de representacion (veremos casos concretos mas adelante); en la Tabla 2.1
destacamos algunas de los roles mas utilizados (recopilados en [28] a partir de los
trabajos de distintos autores) y los nombres que reciben en algunas representa-
ciones (segun lo expuesto en [26]):
Rol Descripcion Ejemplo Notacion
Agent
Participante para el
cual el significado del
verbo especifica lo que
hace o causa, posi-
blemente de manera
intencionada.
sujeto de:
matar
comer
golpear
CGs: agent, accom-
paniment
KANT: agent, ac-
companier
UNL: agent, co-
agent, partner
Patient
Participante para el
cual el verbo caracteri-
za que le ha ocurrido y
como le afecta lo que le
ocurre.
objeto de:
matar
comer.
CGs: experiencer
KANT: experiencer
UNL: experiencer
Experiencer
Participante que se ca-
racteriza por ser cons-
ciente de algo
sujeto de:
amar
objeto de:
molestar
CGs: experiencer
KANT: experiencer
UNL: experiencer
Theme
Participante que se ca-
racteriza por cambiar su
posicion o condicion, o
por estar en un estado o
posicion
sujeto de:
andar
morir
objeto de:
dar
CGs: theme
KANT: -
UNL: object
SourceObjeto del que procede
el movimiento
caja en:
Quito el libro
de la caja
CGs: matter
KANT: source
UNL: source
GoalObjeto al que se dirige
el movimiento
caja en:
Puso el libro
en la caja
CGs: goal
KANT: -
UNL: goal
Capıtulo 2. Estado del Arte 14
Tabla 2.1: Algunos Roles Semanticos estandar (los dos ultimos propuestos porJackendoff) y su notacion en distintas representaciones (CGs = ConceptualGraphs, UNL y KANT sendas interlinguas), todas ellas explicadas con mayordetalle mas adelante en este mismo capıtulo.
Un error muy comun suele ser confundir los roles semanticos con las relaciones
gramaticales estandar usuales, tales como sujeto, objeto, complemento... Aunque
en algunos casos establecer dicha relacion puede resultar util para ciertas tareas
de procesamiento o parsing, la relacion entre ambos etiquetados no es necesaria-
mente directa: mientras que los Roles Semanticos son una notacion conceptual,
las relaciones gramaticales son puramente morfosintacticas 2. En la Tabla 2.2 en-
contramos un ejemplo de esta diferencia, en el que tres sujetos desempenan tres
roles semanticos distintos.
Frase de ejemplo Sujeto Rol Semantico
Bob abrio la puerta con una llave. Bob Agente
La llave abrio la puerta. La llave Instrumento
La puerta se abrio. La puerta Paciente
Tabla 2.2: Relaciones gramaticales vs Roles Semanticos: tres ejemplos en los quela misma relacion gramatical (el sujeto) desempena distintos roles semanticos.
2.1.3.1. Marcos semanticos
Intimamente ligado a los Roles Semanticos, otro concepto linguıstico intere-
sante a la hora de representar consideraciones semanticas es el de frame o marco
semantico. La idea de los marcos fue establecida en 1974 por Marvin Minsky,
considerado el padre de la Inteligencia Artificial, y podrıan verse en el contexto
de su investigacion (en ese momento orientada a la percepcion y la representacion
de conocimiento en el seno de la Vision por Computador) como “capturas o foto-
grafıas de un momento concreto en un contexto o problema determinado”. Como
explica el propio Minsky en [78], un frame serıa “una estructura de datos que
almacenamos en nuestra memoria para representar una situacion estereotipada”,
2 http://www-01.sil.org/linguistics/GlossaryOfLinguisticTerms/
ComparisonOfSemanticRoleAndGra.htm
Capıtulo 2. Estado del Arte 15
“un framework que recordamos y que debe ser ajustado o adaptado a la realidad
introduciendo los cambios necesarios”. Cada frame implica a su vez cierta infor-
macion adjunta (metainformacion, podrıamos decir), sobre como usar el frame en
la practica, que puede implicar en el futuro, etc. Los frames se podrıan agrupar
en colecciones tematicas, convirtiendose en sistemas de frames que se relacionan
entre sı por sus diferentes componentes, coordinando ası distintos puntos de vista
sobre las situaciones relacionadas que representa cada frame.
Siguiendo la idea de Minsky encontramos la Semantica de Frames, una teorıa
linguıstica desarrollada por Charles Fillmore, donde el frame es “una estructura
conceptual que representa y describe una situacion, un objeto o un evento junto
con sus participantes y propiedades” [100]. Un frame serıa como una lista de argu-
mentos (slots) donde introducirıamos los distintos elementos participantes en la
situacion que describe el frame [11]. En palabras de Sowa, los slots de los frames
son la representacion de los roles semanticos en un sistema de frames, equiva-
liendo3 a las relaciones conceptuales de los Grafos Conceptuales (que trataremos
mas adelante en la Seccion 2.1.6). El repositorio de frames mas importante a nivel
mundial es FrameNet4, en ingles e iniciado por el propio Fillmore en la Universi-
dad de Berkeley en 1997, pero existen alternativas en distintos idiomas, como por
ejemplo Spanish FrameNet para el espanol5. Existen asimismo otras iniciativas
similares disponibles online, como es el caso de PropBank6.
2.1.4. Redes Semanticas
Las Redes Semanticas (Semantic Networks) fueron introducidas en el mundo
de la Inteligencia Artificial por primera vez en 1968 por Ross Quillian, pensadas
como “un mecanismo asociativo general capaz de codificar el significado de las
palabras” [12]. Los significados se representarıan mediante nodos que se unirıan
unos con otros para representar informacion asociada como propiedades, clases,
instancias... Una posible definicion formal de las Redes Semanticas podemos en-
contrarla en [54], donde se las considera “una representacion del conocimiento
grafal con forma de red”, distinguiendola explıcitamente de otros tipos de red al
considerar que “una red abstracta (...) se convierte en semantica cuando asig-
3 http://www.jfsowa.com/ontology/thematic.htm4 https://framenet.icsi.berkeley.edu/fndrupal/5 http://spanishfn.org/6 https://verbs.colorado.edu/~mpalmer/projects/ace.html
Capıtulo 2. Estado del Arte 16
nas un significado a cada nodo y link”. Se pueden tambien interpretar las Redes
Semanticas como una evolucion de las Redes de Herencia, tal y como declaran
Branchman y Levesque en [11], al igual que se consideran precursoras de los
Grafos Conceptuales (que abordaremos mas tarde en la Seccion 2.1.6).
2.1.4.1. Tipos de Redes Semanticas
Por su parte, John Sowa define en [109] las Redes Semanticas de la siguiente
manera:
“Informalmente, una Red Semantica es un grafo no dirigido y acıcli-
co en el cual los nodos representan entidades y los arcos etiquetados
representan relaciones binarias entre las entidades.”
Segun este autor7, existen diversos tipos de Redes Semanticas:
Redes Defininicionales (Definitional networks): donde se hace enfasis en
las relaciones is-a y subtipo-de, dando lugar a jerarquıas con herencia.
Redes Asercionales (Assertional networks): contienen aserciones; se di-
ferencian de las primeras porque se asume que lo expresado es cierto.
Redes Implicacionales (Implicational networks): la relacion primaria es la
implicacion, pudiendo usarse para expresar patrones de creencia, causalidad
o inferencia.
Redes Ejecutables (Executable networks): este tipo de Redes Semanticas
incluyen mecanismos que se ejecutan, como paso de mensajes, inferencias,
busqueda de asociaciones...
Redes de Aprendizaje (Learning networks): construye o extiende las
representaciones adquiriendo nuevo conocimiento a partir de ejemplos, pu-
diendo ajustarse (borrar o crear nuevos nodos) segun un sistema de pesos
asociado a su estructura (tanto a los arcos como a los nodos).
Redes Hıbridas (Hybrid networks): combinan dos o mas de los tipos de
redes vistas anteriormente, ya sea mezclandolas o interactuando de alguna
manera.
7 http://www.jfsowa.com/pubs/semnet.htm
Capıtulo 2. Estado del Arte 17
2.1.4.2. Ejemplos de Redes Semanticas
Algunas Redes Semanticas bien conocidas y ampliamente utilizadas tanto en
el campo del Procesamiento del Lenguaje Natural como en otras disciplinas de la
Inteligencia Artificial se exponen a continuacion:
ConceptNet
ConceptNet es una gran Red Semantica destinada a la representacion de co-
nocimiento orientado a tareas que implican sentido comun. Es parte del proyecto
OMCS8 (Open Mind Commonsense), desarrollado por el Media Lab del MIT
(Instituto Tecnologico de Massachusetts), y se construye a partir de un corpus
escrito en lenguaje natural (en ingles) con el que la gente puede interactuar di-
rectamente, aportando nueva informacion de sentido comun.
ConceptNet (actualmente en su quinta version9) es conceptualmente un hiper-
grafo cuyos nodos representan palabras o frases cortas (conceptos) y que consta
de relaciones etiquetadas entre dichos nodos (que expresan aserciones sobre el
mundo) [114]. Algunas de estas relaciones (las mas utilizadas) pueden encontrar-
se en la Figura 2.2, tomada de [114].
Existe asimismo una version visual online llamada Lexipedia basada en Con-
ceptNet10, ası como diversos sistemas que lo usan para distintas aplicaciones
(Sentiment Analysis, Traduccion Automatica, Bases del Conocimiento...).
WordNet
WordNet es una Red Semantica (probablemente la mas conocida del mundo)
que viene desarrollandose en la Universidad de Princeton desde 1985. Conside-
rada uno de los recursos mas utilizados en lengua inglesa, es una base de datos
lexica cuyo contenido se agrupa en synsets, un termino especıfico para denominar
un concepto que puede representarse por medio de distintos terminos, a los que
agrupa a nivel organizativo como si de un cluster se tratara. Estos synsets (defi-
8 https://en.wikipedia.org/wiki/Open_Mind_Common_Sense#ConceptNet9 http://conceptnet5.media.mit.edu/
10 https://en.wikipedia.org/wiki/Lexipedia , http://www.lexipedia.com/
Capıtulo 2. Estado del Arte 18
Figura 2.2: Relaciones mas habituales en ConceptNet, con su numero de apari-ciones y los patrones asociados (Fuente: [114]).
nidos en la web de WordNet11 como “conjuntos de sinonimos cognitivos”) pueden
agrupar adjetivos, sustantivos, adverbios o verbos, y estan relacionados entre sı
tanto por relaciones semantico-conceptuales como por relaciones lexicas, dando
lugar a una red semantica completamente desambiguada. Aunque a primera vista
la estructura de WordNet pueda recordar a la de un tesauro, WordNet es mas
profundo a nivel semantico, al considerar los propios significados mas alla de las
palabras. Tambien se puede considerar que la infraestructura de relaciones que
sostiene WordNet tiene todas las propiedades necesarias para ser usada como una
ontologıa, llegando a utilizarse en ocasiones como tal.
Respecto a las relaciones semanticas que encontramos en WordNet, no todas pue-
den darse entre todos los tipos de synset ; a continuacion citamos las principales
con sus respectivas restricciones [77]:
11 https://wordnet.princeton.edu/
Capıtulo 2. Estado del Arte 19
Sinonimia: es la relacion basica de WordNet, simetrica y equivalente a is-a
para todas las categorıas gramaticales.
Antonimia: tambien simetrica y aplicable a todas las categorıas gramati-
cales; es especialmente relevante en caso de darse en synsets adverbiales y
adjetivales.
Hiponimia/Hiperonimia (tambien conocidas como subclase de y super-
clase de): son relaciones transitivas y opuestas entre synsets exclusivamente
nominales, creando jerarquıas entre ellos.
Meronimia/Holonimia (parte de/todo de): consta a su vez de distintas
subclases (miembro, substantivo o componente). Solo utilizable entre synsets
nominales.
Troponimia: equivalente para los synsets verbales a la relacion de hiponi-
mia para los synsets nominales, aunque las jerarquıas resultantes tienden
a ser de menor profundidad. La estructura va a depender de las circuns-
tancias semanticas que relacionen a los elementos de la jerarquıa (pueden
organizarse por intensidad, volumen...).
Consecuencia logica (entailment): relaciones logicas entre synsets de ver-
bos (por ejemplo, las parejas dormir y roncar o comprar y vender estan
relacionadas en cierta manera aunque no cumplan ninguna de las relaciones
previamente descritas).
Figura 2.3: Recursos principales de Ba-belNet segun la web oficial.
La popularidad de WordNet y su
exito como recurso linguıstico llevo a
otras lenguas a emular el formato ori-
ginal en ingles (aunque no todas estas
nuevas versiones mantuvieron el acceso
abierto, siendo algunas de pago); na-
cieron ası iniciativas como EuroWord-
Net12 para las lenguas europeas, Ger-
maNet13 para el aleman, IndoWord-
Net14 para las 18 lenguas habladas en
12 https://en.wikipedia.org/wiki/EuroWordNet13 https://en.wikipedia.org/wiki/GermaNet14 https://en.wikipedia.org/wiki/IndoWordNet
Capıtulo 2. Estado del Arte 20
la India e incluso una version china (CWN, Chinese Wordnet 15). Tambien sur-
gieron distintas versiones para una misma lengua, como es por ejemplo el caso del
frances (con WOLF16 y WoNeF17). A nivel mundial encontramos Global Word-
Net, una asociacion que conecta la mayor parte de implementaciones de WordNet;
en su web se puede encontrar una lista con muchas mas versiones18.
BabelNet
BabelNet es una red semantica multilingue desarrollada en la Universidad
Sapienza de Roma y generada automaticamente a partir de distintos recursos.
En un principio, estos recursos eran Wikipedia (de donde se extraıa fundamen-
talmente informacion sobre las categorıas y relaciones entre los artıculos) y el
previamente mencionado WordNet (de donde se tomaban los synsets, que pasan
a convertirse en babel synsets) [86], pero posteriormente se anadieron otros recur-
sos adicionales. Del mismo modo, el proceso consistıa originalmente en realizar
sucesivos mapeos sobre ambas fuentes, que finalmente daban lugar a la creacion
de nuevas relaciones y por consiguiente a una nueva red semantica.
A dıa de hoy, BabelNet se encuentra en la version 3.6 e integra 217 lenguas
diferentes en mas de 14 millones de Babel synsets construidos automaticamente
a partir de recursos como WordNet, Wikipedia o GeoNames; una lista completa
de los recursos integrados se puede encontrar en la web oficial de BabelNet19,
destacando los presentes en la Figura 2.3, extraıda de dicha pagina.
2.1.5. Ontologıas
2.1.5.1. Posibles definiciones
En [40] encontramos distintas definiciones que se han ido dando a las on-
tologıas en el campo de las ciencias de la computacion (tiene una connotacion
anterior en la rama metafısica de la filosofıa, que entre otras tareas estudia la
15 http://lope.linguistics.ntu.edu.tw/cwn/16 http://alpage.inria.fr/~sagot/wolf.html17 http://wonef.fr/18 http://globalwordnet.org/wordnets-in-the-world/19 http://babelnet.org/about
Capıtulo 2. Estado del Arte 21
manera en que se relacionan las entidades que existen20); a continuacion citamos
algunas de las definiciones mas representativas:
“Una ontologıa define los terminos y las relaciones basicos contenidos
en el vocabulario de una area tematica, ası como las reglas para com-
binar terminos y relaciones para definir extensiones del vocabulario”.
Aunque esta definicion es importante porque fue una de las primeras en enun-
ciarse, la mas utilizada y aceptada generalmente aparecio anos mas tarde, expre-
sada ademas de una forma mucho mas clara y concisa:
“Una ontologıa es una especificacion formal de una conceptualizacion
consensuada”.
Las definiciones de las ontologıas pueden asimismo depender del punto de
vista o del uso que se le vayan a dar; de cara a su utilizacion como base del
conocimiento y focalizando en la estructura mas que en el concepto, otra posible
definicion es la siguiente:
“Una ontologıa es un conjunto de terminos estructurado de manera
jerarquica que describen un dominio y que puede ser usado como el
esqueleto fundamental de una base del conocimiento”.
2.1.5.2. Tipos de ontologıas
Dependiendo de su profundidad y de la manera de especificar los terminos,
en general las ontologıas se clasifican como lightweight (pudiendo representar tan
solo la estructura taxonomica, sin adentrarse en absoluto el significado de los
terminos) o heavyweight (caso en el que se formalizan teorıas logicas, anadien-
do axiomas y restricciones a una ontologıa lightweight). Ademas, se considera
que una ontologıa puede ubicarse en una escala de formalidad en cuatro posicio-
nes estandar segun lo expuesto en [40]: altamente informal si esta expresada en
lenguaje natural, semi-informal si este lenguaje natural esta restringido y estruc-
turado, semi-formal en caso de estar expresada en un lenguaje artificial definido
formalmente o regurosamente formal si esta provista de terminos dotados de una
semantica formal, teoremas, etc.
20 https://es.wikipedia.org/wiki/Ontolog%C3%ADa
Capıtulo 2. Estado del Arte 22
Figura 2.4: Tipos de ontologıas lightweight segun el nivel de especificacion, demenor a mayor. (Fuente: [45])
Las definiciones y el sistema de clasificacion de ontologıas expuestos previamente
engloban asimismo recursos linguısticos estandar como los tesauros o los glosarios
segun su nivel de profundidad, como podemos observar en la Figura 2.4, tomada
de [45].
2.1.5.3. Componentes y ejemplos de Ontologıas
Dependiendo de que usemos para modelar la ontologıa, los componentes pue-
den variar; a continuacion se exponen los elementos mas habituales que conforman
una ontologıa:
Clases que representan conceptos (que en el caso de las ontologıas heavy-
weight pueden ser primitivos o definidos), ya sean abstractos o especıficos.
Relaciones, habitualmente binarias, que representan algun tipo de asocia-
cion entre conceptos o de un concepto con sus atributos (caracterısticas de
la clase). En el caso de las ontologıas heavyweight, las relaciones se denomi-
nan roles; algunas relaciones habituales son subclase de o parte de, ademas
de las relaciones ad hoc, que se definen dentro del contexto de la ontologıa.
Dentro de las relaciones encontramos el caso concreto de las funciones.
Axiomas formales, que modelizan frases que son siempre ciertas y resul-
tan utiles para realizar inferencia; un ejemplo puede ser indicar que ciertas
clases son necesariamente disjuntas.
Capıtulo 2. Estado del Arte 23
Instancias (o individuos en las ontologıas heavyweight) que representan
elementos o individuos de una ontologıa.
Algunas de las ontologıas mas conocidas y usadas como recurso auxiliar en el
ambito de la Ingenierıa Linguıstica son las siguientes:
SUMO21 (Suggested Upper Merged Ontology).
SENSUS22, una extension de la ya tratada WordNet.
OMEGA23 sucesora de la anterior y usada por una interlingua (como vere-
mos mas tarde).
DOLCE24 (Descriptive Ontology for Linguistic and Cognitive Engineering).
2.1.6. Grafos conceptuales
Segun el propio John Sowa, considerado por muchos el creador de los grafos
conceptuales, este tipo de representacion es el resultado de un siglo de trabajo,
remontandose sus orıgenes a los avances y creacion en 1883 de una notacion para
la logica de primer orden por parte de Charles Sanders Peirce [110]. La posterior
representacion de esta logica en la forma de grafos existenciales y distintas apor-
taciones y uso por parte de otros investigadores a lo largo del siglo XX (entre
ellos Roger Shank, ya comentado, e Igor A. Mel’cuk, cuyos trabajos trataremos
mas adelante) desembocan en la aparicion de los grafos conceptuales propiamente
dichos. De hecho, los autores de [11] consideran que los grafos conceptuales son
una combinacion de los grafos existenciales y las inheritance networks (“redes de
herencia”), en tanto que para Sowa son “forma logica bidimiensional basada en
las redes semanticas de la Inteligencia Artificial y los grafos logicos de C.S. Peir-
ce, siendo ambas notaciones exactamente equivalentes en sus semanticas” [111].
Eileen Way, una de las discıpulas de Sowa en el campo de los Grafos Conceptuales,
declaro una decada despues de la aparicion de la obra original en la que se propu-
sieron estas estructuras que era “algo mas que una sıntesis del trabajo actual en
Inteligencia Artificial; un intento de reconciliar lo mejor de las aproximaciones
“limpias” y “chapuceras” a la Inteligencia Artificial”, llegando a considerarlos
21 http://www.adampease.org/OP/22 http://www.isi.edu/natural-language/projects/ONTOLOGIES.html23 http://www.gabormelli.com/RKB/Omega_Ontology24 http://www.loa.istc.cnr.it/old/DOLCE.html
Capıtulo 2. Estado del Arte 24
“un puente para salvar la distancia entre el rigor de la logica y la expresividad de
los metodos heurısticos o basados en esquemas”.
2.1.6.1. Estructura
Respecto a la formacion original de los Grafos Conceptuales, Sowa explica en
[108] que la primitiva basica son los llamados conceptos, que suelen representar-
se25 con una caja que contiene una etiqueta en ingles (sort label) que identifica
el tipo de dicho concepto. El conjunto de estas etiquetas esta subordinado a un
orden parcial con el objetivo de permitir representar distintos niveles de genera-
lidad. La conexion entre los conceptos se representa con una serie de relaciones
conceptuales (los Roles Semanticos analizados en la seccion anterior), represen-
tadas generalmente con cırculos (podemos ver un ejemplo de Grafo Conceptual
tomado de [111] en la Figura 2.5).
¿Pero que es exactamente un Grafo Conceptual? A partir de los componentes
previamente expuestos, Sowa da la siguiente definicion:
“Un grafo conceptual es un grafo bipartito, finito, conectado y no
dirigido con un tipo de nodos llamados conceptos y nodos de otro ti-
po denominados relaciones conceptuales. Un grafo conceptual puede
consistir en un unico concepto, pero no puede tener relaciones con-
ceptuales sin enlazar.”
Tambien se suele considerar que un Grafo Conceptual es una representacion grafal
etiquetada de una formula Logica de Primer Orden.
2.1.6.2. Roles Semanticos
En los Grafos Conceptuales, los roles semanticos explicados en la seccion an-
terior se denominan Thematic Roles o case relations, y equivalen a los predicados
diadicos del Calculo de Predicados y a los slots de los sistemas basados en frames,
siendo todas estas notaciones formas equivalentes de representar las relaciones en-
tre un proceso y sus participantes26. En la Tabla 2.4 encontramos un desglose de
25 Aunque se ha adoptado como canonico, el sistema de representacion de cajas y cırculos essolo un medio y no esta intrınsecamente ligado a la idea de los Grafos Conceptuales, sirviendocualquier notacion que se ajuste a las definiciones de la misma (tal y como declara el propioSowa en [110]).
26 http://www.jfsowa.com/ontology/thematic.htm
Capıtulo 2. Estado del Arte 25
Figura 2.5: Grafo conceptual de la frase ”You can lead a horse to water, butyou can‘t make him drink.”(“Puedes llevar un caballo al agua, pero no puedesobligarle a beber.”) (Fuente: [111])
Capıtulo 2. Estado del Arte 26
los Thematic Roles de Sowa segun los tipos de participante, a su vez reflejados
en la Tabla 2.3 [111]. Estos Thematic Roles relacionados con los participantes se
engloban, a su vez, en una estructura mayor que clasifica todos los posibles roles
presentes en la ontologıa de los Grafos Conceptuales27.
Source Product
Determinant Initiator Goal
Immanent Resource Essence
Tabla 2.3: Tipos de Participantes en los Grafos Conceptuales
Initiator Resource Goal Essence
ActionAgent,
EffectorInstrument
Result,
Recipient
Patient,
Theme
ProcessAgent,
OriginMatter
Result,
Recipient
Patient,
Theme
TransferAgent,
Origin
Instrument,
Medium
Experiencer,
RecipientTheme
Spatial Origin Path Destination Location
Temporal Start Duration Completion PointInTime
Ambient OriginInstrument,
MatterResult Theme
Tabla 2.4: Thematic Roles segun el tipo de participante en los Grafos Concep-tuales
2.1.6.3. Evolucion y aplicaciones
Los Grafos Conceptuales han evolucionado mucho desde su creacion, dando
lugar a diversas versiones [112], entre las que destacan las expuestas a continua-
cion:
Core Conceptual Graph: la version original, que de hecho cuenta con
su propia notacion estandar ISO (Core CGIF, Core Conceptual Graph Iter-
change Format).
27 http://www.jfsowa.com/ontology/roles.htm
Capıtulo 2. Estado del Arte 27
Extended Conceptual Graph: una version extendida del anterior con
aportaciones de distintos tipos (como la adicion del cuantificador universal,
nuevas etiquetas...) con su correspondiente notacion en el estandar ISO
(Extended CGIF ).
Research Conceptual Graphs: extensiones formales o informales para
distintas aplicaciones. Entre ellos encontramos los Nested Conceptual
Graphs (NCGs), usados para formalizar la semantica de distintos tipos de
logica modal e intencional.
Entre las diversas posibles aplicaciones de los Grafos Conceptuales encontra-
mos por ejemplo la construccion de un parser semantico [113]; la investigacion en
este campo sigue asimismo muy activa, con la publicacion de nuevas propuestas de
manera periodica y la celebracion de distintas conferencias en torno al tema, en-
tre las que sobresale ICCS (International Conference on Conceptual Structures),
celebrada cada dos anos y fuente de interesantes propuestas de aplicacion en dis-
tintos ambitos. Destacamos dentro desde este evento algunas de las aplicaciones
sugeridas durante la conferencia 18esima, celebrada en 2010, como por ejemplo
la comprension del lenguaje natural por medio de NCGs o el procesamiento de
queries, direcciones de correo electronico y sistemas de pregunta/respuesta de
sentido comun con CGs [21].
2.1.7. Teorıa del Texto-Significado
Pasando a la perspectiva linguıstica, la Teorıa del Texto-Significado (en ingles
Meaning-Text Theory, o MTT ) es una teorıa propuesta por Aleksandr K. Zolkovskij
e Igor A. Mel’cuk en 1965 a la que posteriormente contribuyeron tambien otros
investigadores, como Jurij D. Apresjan, formando la llamada Escuela o Cırculo
Semantico de Moscu [70]. A partir de esta teorıa surgen los Meaning-Text Models
(o MTMs), modelos linguısticos funcionales (es decir, sistemas de expresiones
simbolicas creadas con el objetivo de representar el funcionamiento global de las
lenguas naturales) basados en la premisa de que el lenguaje es un mapeo entre
el contenido o significado (la semantica) de un enunciado y la senal (acustica o
grafica) usada para comunicar dicho contenido (a esta representacion la denomi-
naremos fonetica). Estas representaciones serıan los dos extremos de una serie de
representaciones intermedias estratificadas expuestas en la Figura 2.628. Las tres
28 Fuente: http://www.neuvel.net/meaningtext.htm
Capıtulo 2. Estado del Arte 28
ultimas representaciones (sintactica, morfologica y fonetica) se compondrıan a su
vez de dos subniveles, uno superficial y otro mas profundo, con un mayor grado
abstraccion e independiente de las peculiaridades linguısticas [73], conformando
un total de 7 niveles (cabe matizar que este numero ha ido variando con el tiem-
po). Paralelamente, cada unas de estas representaciones es una tupla de distintas
estructuras en funcion de su situacion en el proceso comunicativo29; la represen-
tacion semantica, por ejemplo, se compone de la estructura semantica principal
(una red semantica), de una estructura semantico-comunicativa, de una estructu-
ra retorica y de una estrucura referencial, mientras que la sintactica tendrıa una
sintactica principal y una anaforica, entre otras.
La teorıa de MTT se asienta sobre una serie de postulados y se puede resumir en
seis propiedades principales enunciadas por el propio Mel’cuk en [72]:
Se basa en la semantica, siendo dicha representacion el punto de partida.
Se situa desde el punto de vista del hablante, centrandose en la produccion
del texto mas que en su comprension (este enfoque se considera una tarea
mucho mas compleja a nivel linguıstico).
Esta enfocada a una separacion estricta de niveles linguısticos (los 7 que ya
hemos comentado anteriormente); la correspondencia y equivalencia entre
cada uno de estos niveles de representacion se da por medio de una serie
de reglas bidireccionales, organizadas en 6 modulos independientes (simbo-
lizados con ⇔) situados entre los niveles adyacentes:
SemanticR ⇔ Deep-SyntacticR ⇔ Surface-SyntacticR ⇔Deep-MorphologicalR ⇔ Surface-MorphologicalR ⇔Deep-PhonologicalR ⇔ Surface-PhonologicalR.
Cabe destacar que el ultimo modulo no se encuentra dentro del propio
MTM.
Pone enfasis en el lexico por medio de un diccionario especial fuertemente
formalizado conocido como Explanatory Combinatorial Dictionary.
Usa dependencias en vez de constituyentes.
29 http://meaningtext.net/wiki/Main_Page
Capıtulo 2. Estado del Arte 29
Figura 2.6: Representaciones de MTT. La representacion semantica (SemR) sebasa en una red semantica, mientras que la representacion sintactica lo hace enen arboles de dependencia y la representacion morfologica se representa mediantecadenas de morfemas.
Es una teorıa que entiende la generacion del lenguaje no como la accion de
pasar de unas entidades a otras, sino como hacerlo de un significado a su
correspondiente representacion textual o fonologica y viceversa.
Existen algunas posibles explicaciones acerca de por que esta teorıa no llego
a extenderse y tener mas exito del que tuvo [39]; fundamentalmente, podemos
achacarlo a que en el momento de su concepcion no existıan aun los recursos ne-
cesarios para su implementacion y al uso masivo de otras teorıas ya instauradas y
fuertemente asentadas en las principales corrientes de investigacion occidentales.
No obstante, la teorıa de MTT ha tenido importantes repercusiones en trabajos
posteriores, como pueden ser el traductor ruso-ingles ETAP30 o el sistema de tra-
duccion de CETA, del que hablaremos mas adelante. Ademas del ya mencionado
diccionario combinatorio, otros puntos clave de la teorıa MTT fueron el uso de
indicadores del discurso tanto a nivel semantico como sintactico y la creacion de
un conjunto de “funciones lexicas” para el tratamiento de las relaciones semanti-
cas. En lo concerniente a la parafrasis, fue uno de los aspectos linguısticos a los
que la teorıa MTT dio mayor importancia [71], formalizando y distinguiendo los
distintos tipos y las posibles maneras de lidiar con ella desde el modelo MTM.
Abordaremos este tema en la segunda parte del Estado del Arte, dedicada a la
parafrasis (ver 2.2.2.2).
2.1.8. Interlinguas
2.1.8.1. La Traduccion Automatica
Antes de continuar hacia las interlinguas, cabe recordar los tres principales
tipos de traduccion automatica que existen, dado que esta es su principal area de
30 http://cl.iitp.ru/etap3
Capıtulo 2. Estado del Arte 30
Figura 2.7: Triangulo de Vauquois. De arriba a abajo, traduccion basada en in-terlinguas, sistema transfer y traduccion directa. Version enriquecida basada enel original de Vauquois.
aplicacion (aunque ni mucho menos la unica). Una imagen que ilustra las distintas
competencias y los grados de profundidad de cada aproximacion es el “triangulo
de Vauquois” de la Figura 2.731, donde la altura indica el nivel de representacion
abstracta y de independencia de las lenguas (siendo el vertice superior la inde-
pendencia idealmente absoluta), lo que implica a su vez una mayor necesidad de
estructuras para establecer equivalencias y un mayor esfuerzo a nivel de procesa-
miento.
Por un lado tenemos la traduccion directa, que se corresponderıa en la imagen
con la base del triangulo y que se queda en un analisis morfologico superficial del
texto de entrada. La siguiente opcion serıa un sistema transfer, donde se lleva
a cabo un analisis mas profundo a nivel sintactico y/o semantico pero se sigue
dependiendo de las lenguas de entrada y de salida de la traduccion. Finalmente,
en la cuspide del triangulo encontrarıamos la traduccion automatica basada en
una interlingua, ajena tanto a la lengua de entrada como a la de salida.
Tambien podemos distinguir entre traduccion automatica basada en reglas
(donde entrarıan los sistemas transfer y las interlinguas) o basadas en analogıas
31 Fuente: https://sites.google.com/site/b490nlp/machine-translation
Capıtulo 2. Estado del Arte 31
Figura 2.8: a) Traduccion entre pares. Cada flecha representa dos modulos, unoen cada direccion, por lo que son necesarios 12 modulos (n(n− 1) = 4 · 3 = 12).b) Traduccion basada en una interlingua LI (en gris en la imagen), con tan solo2n = 2 · 4 = 8 modulos.
(que puede basarse en estadıstica, ejemplos, corpus...). No obstante, en el presen-
te proyecto nos centraremos exclusivamente en representacion mediante el uso de
interlinguas.
En un entorno multilingue, la traduccion entre pares de lenguas conllevarıa la
implementacion de n(n − 1) modulos de traduccion directa (siendo n el numero
de lenguas a traducir), mientras que una interlingua necesitarıa, como mucho, 2n
(uno para traducir de la lengua original a la interlingua y otro para pasar de la
interlingua a la lengua destino); como veremos mas adelante, el sistema basado en
interlingua UNITRAN necesita incluso menos. En la Figura 2.832 se pueden ver
las distintas interacciones entre las lenguas en caso de disponer de una interlingua
o en caso de traducir directamente entre pares de lenguas para un entorno multi-
lingue de n = 4 lenguas. Imaginemos intentar traducir entornos mucho mayores,
como la Union Europea (con 24 lenguas oficiales33); con los 24 ·23 = 552 modulos
de la traduccion entre pares de lenguas frente al maximo de 2 ·24 = 48 que ofrece
una interlingua, el ahorro en terminos de tiempo y eficiencia serıa enorme. No
obstante, como veremos a continuacion, el enfoque de las interlinguas presenta
tambien importantes problemas a la hora de llevarse a la practica.
32 Fuente: https://upload.wikimedia.org/wikipedia/commons/f/fc/TAInterlingua_
Figura2.png33http://europa.eu/about-eu/facts-figures/administration/index_es.htm
Capıtulo 2. Estado del Arte 32
2.1.8.2. Caracterısticas de una interlingua
Una posible definicion formal de una interlingua la encontramos en [16], donde
se especifica que, para ser considerada como tal, una lengua debe cumplir las
siguientes caracterısticas:
Representar el significado independientemente de la lengua, en el nivel mas
abstracto y profundo del analisis linguıstico, descartando rasgos superficia-
les de cada idioma y adentrandose en el significado comun para todas las
lenguas (idealmente, en la practica suele ser solo para una gran cantidad de
ellas).
Se puede considerar una lengua independiente, autonoma, al poseer voca-
bulario y relaciones semanticas propios.
Los atomos linguısticos suelen ser el sentido de un concepto, y no palabras
como en otras lenguas.
Las relaciones tematicas y funcionales, que deben ser universales y del mas
profundo grado de abstraccion, se establecen entre los atomos semanticos
de la interlingua.
En definitiva, una interlingua debe evitar la ambiguedad y ser universal (inde-
pendiente del resto de lenguas y capaz de representar todas las particularidades
de cada una de ellas). Esta es la razon por la que las lenguas naturales no re-
sultan buenas interlinguas (como veremos mas adelante en el caso del esperanto
y el sistema DLT). No obstante, el diseno y la implementacion de las interlin-
guas conllevan una gran dificultad, razon por la cual no se utilizan a menudo
para nuevos sistemas de traduccion automatica ni han gozado de gran exito co-
mercial en el pasado: la seleccion y creacion de los CPs de una interlingua para
que sean realmente independientes del resto de lenguas es una tarea de por sı
complicada, y que se vuelve mas y mas impracticable a medida que se aumenta
el numero de lenguas a traducir. En favor de las interlinguas, cabe destacar que
no solo sirven para la traduccion automatica (esta es solo una de sus multiples
aplicaciones); tambien se pueden usar para representar informacion en bases de
conocimiento, realizar inferencia o relacionar preguntas y respuestas en sistemas
Question-Answer, entre otras posibles aplicaciones. Suele considerarse tambien
a nivel informatico que una interlingua es un metalenguaje usado para anotar
Capıtulo 2. Estado del Arte 33
informacion conceptual con el objetivo de facilitar el procesamiento del lenguaje
natural y compuesto por cuatro elementos: un vocabulario (conceptos, no pa-
labras), una serie de relaciones (los roles semanticos vistos previamente), una
sintaxis (a nivel de representacion, propia de la interlingua) y una semantica (el
mapeo con las lenguas naturales, que significan los elementos de la interlingua).
2.1.8.3. Ejemplos de interlinguas
A continuacion se exponen algunas de las interlinguas mas representativas
junto con una breve descripcion de su sistema de representacion:
PIVOT
Entre las interlinguas basadas en Conceptos Primitivos (CPs) encontramos
PIVOT [83], la propuesta impulsada por la empresa nipona NEC en la decada
de los ochenta. En este planteamiento, cada CP se relaciona con una o varias
expresiones (palabras o morfemas) presentes en los diccionarios de cada lengua,
permitiendo traducciones bidireccionales en una suerte de interlingua compuesta
por CPs.
El primer obstaculo que encontro PIVOT parte del propio planteamiento del pro-
blema: se comenzo por crear CPs exclusivamente pensadas para una traduccion
ingles/japones – japones/ingles, y fue a la hora de extender esta funcionalidad a
una tercera lengua cuando descubrieron que los CPs no eran lo suficientemente
genericos ni independientes de ambas lenguas. Pese a ello, el proyecto continuo
expandiendose a otras lenguas (entre ellas el espanol [88], de cuya traduccion a
la interlingua se encargo la Universidad Politecnica de Madrid), pero finalmente
cayo en desuso en los anos noventa.
ATLAS II
Al mismo tiempo que surge la anteriormente mencionada PIVOT, otra empre-
sa japonesa, en este caso Fujitsu, lanza su propio proyecto de traduccion basada
en una interlingua. Sucesora de ATLAS I, el primer sistema comercial de tra-
duccion ingles/japones – japones/ingles del mundo, ATLAS II [120] surge con la
necesidad de realizar una traduccion multilingue que englobe mas de dos idiomas
Capıtulo 2. Estado del Arte 34
(concretamente, se buscaba incluir la traduccion al coreano).
La interlingua presente en ATLAS II es una estructura conceptual expresada
por un conjunto de relaciones binarias entre conceptos y sus respectivas carac-
terısticas, permitiendo representar el significado de cada oracion en forma de una
o varias de estas relaciones binarias. A grandes rasgos, el vocabulario de la in-
terlingua consistıa en los propios conceptos y en las relaciones entre ellos, siendo
estas relaciones lo mas universales posibles pero incluyendo a su vez expresiones
unicas de cada lengua que no se puedan expresar mediante relaciones mas uni-
versales.
Finalmente, ATLAS II no llego a buen termino, y de cara al proyecto ATLAS Fu-
jitsu solo mantiene actualmente la comercializacion de la version bilingue ingles
/japones – japones/ingles34.
KANT
Cruzando el charco, en Estados Unidos encontramos una nueva propuesta de
finales de los ochenta, esta vez a nivel academico. En 1989 el Centro de Traduc-
cion Automatica (CMT) de la Universidad de Carnegie Mellon pone en marcha el
proyecto KANT (Knowledge-based, Accurate Natural-Language Translation) con
el objetivo de traducir a gran escala y de forma efectiva documentos tecnicos,
centrandose principalmente en los dominios de la electricidad, los reportes medi-
cos y ciertos campos industriales35. KANT se enfoca por tanto y en exclusiva al
procesamiento de lenguaje controlado, lo que permite cierta facilidad a la hora de
definir y poblar la interlingua, ya que la canonizacion a nivel de independencia
del idioma no es tan estricta. Los propios autores reconocen las limitaciones que
esto implica [22], definiendo la interlingua de KANT como una representacion
“literal” de la entrada, una suerte de representacion con frames (cada uno con
sus correspondientes slots, que pueden ser de distintos tipos), incapaz de resol-
ver problemas de correferencia y generalizacion a nuevos dominios (aunque se
han realizado en este aspecto avances en posteriores versiones). En la interlin-
34https://www.fujitsu.com/global/products/software/packaged-software/
translation/atlas/35 http://www.cs.cmu.edu/afs/cs/project/lti-web/Research/Kant/
http://www.lti.cs.cmu.edu/Research/Kant/
Capıtulo 2. Estado del Arte 35
gua de KANT encontramos, ademas de los frames, una serie de features y roles
semanticos bastante estandar, algunos de los cuales ya se mencionaron en la co-
rrespondiente seccion (por ejemplo36, agente, atributo, manner...).
KANT destaca por ser el unico sistema de Traduccion Automatica interlingual
que ha obtenido cierto exito comercial; precisamente de cara a esta comercializa-
cion y a una mayor robustez, se ha redisenado y reimplementado gran parte del
proyecto en C++, pasando a denominarse KANTOO37. En esta nueva version se
han paliado algunos de los problemas presentes en el planteamiento inicial previa-
mente mencionados, como por ejemplo la resolucion de las anaforas pronominales
[79].
UNITRAN
En paralelo a los sistemas anteriores, el MIT lanza en 1987 UNITRAN (UNI-
versal TRANslator). Este sistema usa descripciones de la gramatica basadas en
principios parametrizados en lugar basarse en reglas libres de contexto (sien-
do esta ultima la eleccion mas habitual). Inspirado en las teorıas desarrolladas
por Noam Chomsky en los anos 80 en torno al framework “Government and
Binding”38 (en espanol, “Reccion y ligamiento”), los parametros asociados a los
principios pueden ser ajustados con distintas variaciones en funcion de la len-
gua, permitiendo manejar fenomenos comunes pero en general problematicos en
el ambito de la traduccion automatica como pueden ser la elipsis, la presencia de
clausulas embebidas o la inversion del sujeto [27]. Como interlingua se usa como
representacion LCS (Lexical Conceptual Structure, una abstraccion composicional
usada en diversos proyectos, como MILT). Los LCS39 son grafos dirigidos con una
raız donde los nodos se asocian a cierta informacion y las primitivas pueden ser
de clases cerradas o de estructuras.
Una de las caracterısticas mas resenables del sistema UNITRAN es que permite
usar el mismo parser y el mismo generador para todas las lenguas con respecto a
36 http://www.cs.cmu.edu/~teruko/KANT-ir-description.html37 http://www.cs.cmu.edu/afs/cs/project/lti-web/Research/Kant/
kantoo-overview.html38 https://en.wikipedia.org/wiki/Government_and_binding_theory39 http://www2.let.uu.nl/uil-ots/lexicon/zoek.pl?lemma=Lexical+Conceptual+
Structure&lemmacode=605
Capıtulo 2. Estado del Arte 36
la interlingua (facilidad poco habitual en sistema basado en interlingua), ademas
de ser capaz de ir creando reglas basadas en principios linguısticos a medida que
procesa el texto de entrada.
DLT
En 1979 la empresa holandesa BSO (Buro voor Systemontwikkeling, actual-
mente Atos40) inicia el proyecto DLT (Distributed Language Translation), en un
principio para propositos ajenos a la traduccion automatica [129]. No es hasta
los anos 80, al introducirse el esperanto como lengua a considerar en el desarrollo
de aplicaciones de traduccion automatica, cuando se lleva el proyecto a dicho
terreno, adoptando este nuevo idioma como interlingua para la traduccion de un
total de 12 lenguas europeas.
El proyecto no llego a buen termino, ya que la eleccion del esperanto como inter-
lingua aunaba tanto los problemas de ser una lengua viva en constante evolucion
y con ciertas ambiguedades como el hecho de tener un vocabulario limitado al ser
una lengua artificialmente creada a posteriori a partir de otras lenguas.
Mikrokosmos
Mikrokosmos es un sistema de traduccion automatica basado en conocimiento
(KBMT) derivado de Pangloss [51] e iniciado en los anos 90 en el Laboratorio de
Investigacion Computacional (CRL) de la Universidad Estatal de Nuevo Mexico
y financiado por el Ministerio de Defensa estadounidense.
En el sistema Mikrokosmos hay cuatro componentes fundamentales: un lexicon,
una ontologıa, una conjunto de microteorıas y una serie de representaciones inter-
linguales (TMRs, o Text Meaning Representation) basadas en frames y generadas
a partir de las dos primeras. Estos TMRs simbolizan cada frase introducida y se
componen de distintos slots con diferentes tipos de informacion41 (relaciones, ac-
titudes, modalidad...) representados por medio de una notacion especıfica [10].
40 http://atos.net/en-us/home.html41 http://elies.rediris.es/elies9/3-3-6.htm
Capıtulo 2. Estado del Arte 37
Interlingua IAMTC
IAMTC (Interlingual Annotation of Multilingual Corpora) [96] fue un proyec-
to iniciado en 2003 por distintas universidades norteamericanas y actualmente
parado donde la construccion de la interlingua se basaba a una serie de cor-
pus bilingues. Estos corpus contenıan noticias en varios idiomas (espanol, hindi,
japones, coreano, arabe y frances) y distintas versiones en ingles. Destaca princi-
palmente por basarse en la anotacion, a diferencia del enfoque habitual de otras
interlinguas, que suele ser la desambiguacion lexica.
El proceso de creacion de la interlingua comienza con la traduccion y anotacion
de cada texto de los seis idiomas originales por parte de tres traductores distintos.
Esta es, sin duda, una de las particulares mas interesantes del proyecto: el hecho
de que dispongamos de distintas interpretaciones y versiones de un texto en un
mismo idioma nos permite cubrir uno de los principales problemas que encontra-
mos no solo en la traduccion automatica o en la representacion del conocimiento,
sino en el procesamiento del lenguaje natural en general: la parafrasis. Ademas,
este proceso manual nos permite localizar ambiguedades y limitaciones a la hora
de pasar conceptos de un idioma a otro, cuestion absolutamente fundamental y
crıtica a la hora de desarrollar y validar una interlingua.
Una vez tenemos las traducciones realizadas y anotadas, estas pasan por tres
niveles distintos de representacion (IL0, IL1 e IL2). En el primero, IL0, se in-
cluyen muchas referencias sintacticas que permitiran en etapas posteriores de-
ducir dependencias como los argumentos de los verbos. IL1 anadira informacion
semantica como los ya mencionados argumentos verbales, ademas de reemplazar
relaciones sintacticas como sujeto y predicado por roles como agente o tema y de
sustituir las palabras originales de la traduccion por conceptos correspondientes
en la Ontologıa Omega (de la que deberıa haber hablado ya). Finalmente, IL2
lograra la independencia de la interlingua con respecto a las lenguas con distintos
mecanismos; uno de ellos, por ejemplo, serıa identificar y normalizar situaciones
como comprar y vender, que dan la misma informacion pero que se expresa de
distinta forma; esta labor se llevarıa a cabo usando frames [32].
El principal problema de la interlingua de IAMTC radica en la dependencia de
Capıtulo 2. Estado del Arte 38
una ontologıa externa como es Omega. Esta ontologıa, ademas, se crea de manera
semi-automatica a partir de otros recursos, por lo que arrastrara los errores de
sus predecesoras y de los posibles problemas que surjan durante su aprendizaje.
Ademas, al igual que el propio proyecto IAMTC, dicha ontologıa no actualmente
activa (dejo de desarrollarse en 2008).
Otras interlinguas
Aunque se ha tratado de recopilar las principales interlinguas, existen mul-
titud de ellas de las que no hemos hablado, ademas de sistemas hıbridos que
tambien se pueden considerar basados en interlinguas. Ejemplos de ello son el
sistema Rosetta de la empresa Phillips [105] (donde la interlingua deriva de los
arboles semanticos obtenidos a partir del estudio del isomorfismo entre gramati-
cas de distintas lenguas), la “lengua pivote” de CETA (Centre d’Etudes pour la
Traduction Automatique de la Universidad de Grenoble, donde abandonaron las
interlinguas en favor de un sistema transfer [124]), el proyecto Eurotra42 (impul-
sado por la Union Europea y a medio camino entre las interlinguas y la traduccion
transfer entre pares de lenguas) o las “Preference Semantics” de Yorick Wilks43.
2.1.9. UNL
Tras este breve repaso a las interlinguas llegamos a UNL (Universal Networ-
king Language), el lenguaje universal artificial impulsado por la Universidad de
las Naciones Unidas en 1996 para facilitar la comunicacion entre diferentes cul-
turas. Aunque en un principio este papel mediador recayo sobre lenguas como el
esperanto y en ingles, estas han demostrado no ser capaces de reproducir todos
los matices presentes en otros idiomas [122], por lo que no son las opciones opti-
mas para este intento de eliminacion de las distintas barreras linguısticas a nivel
mundial (como ya vimos anteriormente en el caso concreto del sistema DLT y el
esperanto). Surge por tanto la necesidad de crear un lenguaje nuevo, neutral a las
lenguas ya existentes, y que ademas pueda ser procesado por ordenadores (pero
sin estar exclusivamente orientado a las maquinas): el lenguaje UNL es el fruto
de esta iniciativa.
42 http://elies.rediris.es/elies9/3-2-6.htm43 http://staffwww.dcs.shef.ac.uk/people/Y.Wilks/
Capıtulo 2. Estado del Arte 39
UNL consta un conjunto de palabras universales (Universal Words, el vocabu-
lario de UNL), una serie de relaciones y atributos (que representaran los roles
semanticos y los rasgos sintacticos de las oraciones) y una base del conocimiento
(que aportara la informacion semantica) [121]. Como la mayor parte de las inter-
linguas revisadas anteriormente, UNL representa la informacion presente en un
documento oracion a oracion, expresando cada una de estas frases en la forma de
un hipergrafo compuesto por palabras universales (de ahora en adelante, UWs)
a modo de nodos y una serie de relaciones binarias como arcos entre ellos. Es
posible aportar ciertos matices y grados de subjetividad a dicha representacion
mediante la adicion de atributos, como veremos mas adelante.
2.1.9.1. Palabras Universales
Las UWs pueden ser clasificadas de acuerdo con muchos criterios distintos, co-
mo por ejemplo si es temporal (como los numeros) o permanente en el diccionario
UW, si es compuesta o simple o si hace referencia a un concepto o a una entidad
concreta. Las UWs quedan en cualquiera de los casos anteriories supeditadas a
unos formatos sintacticos muy especıficos (recordemos que la representacion sera
procesada por maquinas).
En el caso de ser UWs simples, su representacion se compone de:
Una headword : en general, palabras o expresiones inglesas (solo en caso de
no encontrar una unica palabra capaz de expresar lo mismo) para facilitar
la tarea de enlace a terminos de otros idiomas a representantes de todos los
paıses. No obstante, en el caso de expresiones propias de un paıs se hace
una excepcion (por ejemplo con la palabra paella, que es la headword de
dicho concepto). Si la headword es de origen ingles, se considera que la UW
es de tipo basico (Basic UW ), mientras que en caso contrario se denomina
Extra UW.
Una lista de restricciones: que ayudan a delimitar, concretar y desambi-
guar el significado expresado por la headword. Pueden ser de tres tipos:
• Restricciones ontologicas: definen relaciones con otras UWs, pu-
diendo ser estas de hiperonimia/hiponimia, instanciacion, sinonimia/an-
tonimia o meronimia. Es obligatorio que las UWs contengan o bien la
restriccion de hiperonimia (representada por el comando icl) o bien la
Capıtulo 2. Estado del Arte 40
de instanciacion (iof); para saber que poner en cada restriccion existen
una serie de jerarquıas dependiendo de si el concepto que representa
la palabra universal es un verbo, un nombre o sustantivo (denominado
thing en UNL), un adjetivo o un adverbio:
◦ Conceptos verbales: dependiendo del significado del propio ver-
bo, puede ser:
� (icl>do): indica que la accion o la situacion la inicia alguien
o algo.
� (icl>occur): implica que el proceso o el evento no necesita
de un iniciador.
� (icl>be): expresa estados, propiedades o situaciones estaticas
en el tiempo.
◦ Conceptos nominales: su jerarquıa es la mas profunda, compo-
niendose de varios niveles; no obstante, a la hora de concretar habi-
tualmente se suele recurrir a la clase padre nominal (icl>thing) o
a sus subclases hijas inmediatas ((icl>abstract thing) y
(icl>concrete thing), englobando esta ultima casos como
(icl>living thing) o (icl>natural thing)). Tambien se dan
en esta categorıa instanciaciones como por ejemplo el caso de nom-
bres y lugares como Pedro(iof>person) o Madrid(iof>city).
◦ Conceptos adjetivales: pueden ser cualitativos ((icl>qual adj)),
cardinales ((icl>card adj)), ordinales ((icl>ord adj)), tempo-
rales ((icl>time adj)) o espaciales ((icl>place adj)); en caso
de no pertenecer a ninguna de estas subcategorıas, se remite di-
rectamente al tipo adjetivo ((icl>adj)).
◦ Conceptos adverbiales: engloban tambien a las preposiciones y
a las conjunciones. Las categorıas son similares a las de los adje-
tivos, y algunas incluyen restricciones especıficas.
• Restricciones semanticas: sirven para hacer distinciones mas pre-
cisas a nivel semantico, matices en el uso concreto de las palabras. Se
incluyen en este tipo de restriccion com (componente) y fld (dominio).
• Argumentos: permiten delimitar los conceptos restringiendo las ca-
racterısticas de las UWs relacionadas con ellos. Un ejemplo serıa el UW
de comer, eat(icl>consume,agt>living thing,obj>concrete thing),
Capıtulo 2. Estado del Arte 41
donde se especifica que la accion de comer es un tipo de consumicion
necesariamente desempenada por un ser vivo con respecto a una cosa
concreta.
2.1.9.2. Relaciones
Las relaciones UNL (la version UNL de los roles semanticos) enlazan las UWs
de una oracion indicando como interactuan en la frase a nivel sintactico. Estas re-
laciones llevan gran parte de la carga de significado de la oracion, por lo que seran
cruciales a la hora de determinar lo que expresa un texto. Una forma estandar de
organizarlas [16], junto con algunos de los fenomenos a los que hacen referencia,
es la siguiente:
Relaciones causales: propositos, causas...
Relaciones temporales: comienzo y fin de un suceso, co-ocurrencia...
Relaciones espaciales: origen, destino...
Relaciones logicas: conjuncion, disyuncion...
Relaciones numericas: cantidades, bases, proporciones...
Relaciones circunstanciales: instrumento, manera...
Relaciones argumentales: agente, objeto, objetivo...
Relaciones argumentales secuendarias: co-agente, beneficiario...
Relaciones nominales: posesion, meronimia...
Existen ademas relaciones especiales, de las que ya hemos hablado en el apar-
tado anterior, que se usan exclusivamente para la definicion de las restricciones
de las UWs: icl y iof para la hiperonimia y la instanciacion y equ y ant para
la equivalencia y la antonimia. Existen tambien otras posibles categorizaciones44.
Se adjunta como anexo la lista completa de las 40 relaciones conceptuales pre-
sentes en UNL (ver Anexo A).
44 http://www.unlweb.net/wiki/Universal_Relations
Capıtulo 2. Estado del Arte 42
2.1.9.3. Atributos
Los atributos son informacion adicional que se adjunta en las UWs de un grafo
para aportar matices de tipo temporal, de subjetividad, informacion dependiente
del hablante o acerca de la forma en que viene expresada originalmente la infor-
macion (en voz pasiva, por ejemplo). Se representan mediante el sımbolo ’@’ (por
ejemplo, @not), y cada UW puede tener mas de uno (o ninguno). Las categorıas
en las que se pueden clasificar y algunos ejemplos de cada una de ellas son las
siguientes:
Actitud: @exclamation (exclamacion), @not (para la negacion)...
Aspecto: @begin y @state (comienzo y estado final de una accion, respec-
tivamente).
Conclusion: @conclusion (conclusion), @consequence (consecuencia).
Consentimiento: @grant (permitir), @grant-not (no permitir).
Expectacion: @expectation (expectacion), @wish (deseo)...
Foco o enfasis: @emphasis, @entry (elemento principal de la oracion).
Intencion: @intention (intencion), @will (determinacion).
Modificadores de aspecto: @just (acabar de), @yet (pendiente).
Necesidad: @need (necesidad), @obligation (obligacion)...
Numero: @pl (plural).
Posibilidad: @certain (certeza), @may (posibilidad)...
Signos de puntuacion: @parenthesis (parentesis), @double quote (comi-
llas)...
Referencia: @def (para especificar si hablamos de individuos concretos,
como en la casa o en generico, una casa), @ordinal (para numeros ordina-
les)...
Sentimientos: @surprised, @admire...
Capıtulo 2. Estado del Arte 43
Tiempo: @future y @past para representar cuando sucede la accion (tam-
bien se puede usar @present, pero normalmente se asume si no se especifica
otro momento).
Al igual que ocurrıa con las relaciones, existen diversos puntos de vista sobre
la jerarquıa a utilizar45. En el Anexo B se da una lista detallada de los atributos
estandar de UNL, aunque se permite la creacion libre de nuevos atributos siempre
que no puedan representarse su intencion mediante el uso y combinacion de los
ya existentes.
Figura 2.9: Ejemplo clasico de grafo UNL.
2.1.9.4. Grafos UNL
Los grafos son redes semanticas en las que los nodos (conceptos) se enlazan
mediante relaciones binarias, desempenando estos papeles las UWs (con posibles
45 http://www.unlweb.net/wiki/index.php/Attributes
Capıtulo 2. Estado del Arte 44
modificaciones por parte de atributos) y las relaciones UNL, respectivamente. En
un grafo UNL podemos encontrar tambien hipernodos, es decir, que pueden exis-
tir conjuntos de nodos que se comporten como uno solo; estos hipernodos deben
ser hermeticos (sin arcos a o desde un solo nodo del hipernodo, sino al global del
mismo). Los hipernodos pueden ser semanticos (contienen informacion que de no
existir se perderıa) o sintacticos (usados para que el grafo sea mas comprensible,
pero sin aportar informacion; suelen usarse para representar frases largas).
El ejemplo clasico que suele usarse para ilustrar la representacion UNL se ex-
pone en forma de grafo en la Figura 2.9. La representacion interna de dicho grafo
en codigo plano (a nivel maquina), relacion a relacion, serıa la siguiente.
1 [ S : 2 ]
2 { org : es }3 Hace tiempo , en l a ciudad de Babi lonia , l a gente comenzo a
c o n s t r u i r una t o r r e enorme , que pa r e c i a a l canza r l o s c i e l o s .
4 {/ org }5 {unl }6 tim ( begin ( i c l >do ) . @entry . @past , long ago ( i c l >ago ) )
7 mod( c i t y ( i c l >r eg i on ) . @def , Babylon ( i c l >c i t y ) )
8 p l c ( begin ( i c l >do ) . @entry . @past , c i t y ( i c l >r eg i on ) . @def )
9 agt ( begin ( i c l >do ) . @entry . @past , people ( i c l >person ) . @def )
10 obj ( begin ( i c l >do ) . @entry . @past , bu i ld ( i c l >do ) )
11 agt ( bu i ld ( i c l >do ) , people . @def )
12 obj ( bu i ld ( i c l >do ) , tower ( i c l >bu i l d in g ) . @indef )
13 ao j ( huge ( i c l >big ) , tower ( i c l >bu i l d in g ) . @indef )
14 ao j ( seem ( i c l >be ) . @past , tower ( i c l >bu i l d in g ) . @indef )
15 obj ( seem ( i c l >be ) . @past , reach ( i c l >come ) . @begin . @soon )
16 obj ( reach ( i c l >come ) . @begin−soon , tower ( i c l >bu i l d in g ) . @indef )
17 go l ( reach ( i c l >come ) . @begin−soon , heaven ( i c l >r eg i on ) . @def . @pl )
18 {/ unl }19 [ / S ]
Otro ejemplo del sistema de representacion de grafos UNL, ilustrando tam-
bien la presencia de atributos y restricciones ontologicas, lo encontramos en la
Figura 2.1046. En dicha imagen podemos observar como se vinculan las carac-
terısticas intrınsecas a una frase expresada en lenguaje natural a las relaciones y
los atributos que conformaran su representacion en el sistema UNL.
46 Fuente: https://upload.wikimedia.org/wikipedia/commons/5/56/UNLGraph.svg
Capıtulo 2. Estado del Arte 45
the sky was blue ? !
@def @interrogative
sky(icl>natural world) blue(icl>color)aoj
@exclamation
@past
@entry
aoj ( blue(icl>color).@entry.@past.@interrogative.@exclamation , sky(icl>natural world) .@def )
English
graphrepresentation
in UNL
tabularrepresentation
in UNL
Figura 2.10: Ejemplo de proceso de representacion UNL: como se derivan lasrelaciones y los atributos presentes en una frase en lenguaje natural a la hora derepresentarla en el sistema UNL.
2.1.9.5. Situacion actual
Cabe destacar que aunque UNL empezo siendo un proyecto comun entre
equipos de distintos paıses, que discutieron y consensuaron una serie de bases y
estandares para poder desarrollar una interlingua verdaderamente independiente
del lenguaje, ahora mismo hay en marcha distintas iniciativas que divergen en
su planteamiento. La propuesta expuesta previamente es la original del proyecto
UNL, disponible en la web espanola47 y en las distintas publicaciones de Uchida
y otros miembros de los equipos originales (entre ellos el espanol, procedente de
la Universidad Politecnica); informacion adicional sobre otra propuesta represen-
tativa esta disponible en la web de dicha iniciativa, UNDL48. Por ultimo, una
comparativa bastante reciente del sistema UNL con respecto a algunas de las
interlinguas mencionadas previamente puede encontrarse en [3].
47 http://www.unl.fi.upm.es/spanish/about.htm48 http://www.undl.org/
Capıtulo 2. Estado del Arte 46
2.2. Parafrasis
2.2.1. Introduccion
Como ya avanzamos en la introduccion de esta tesis, no existe una definicion
unica de parafrasis, ya que el termino engloba a su vez fenomenos muy diferentes
y difıciles de estandarizar que pueden considerarse desde diversos puntos de vista.
Comenzaremos por tanto esta nueva seccion viendo varias definiciones propuestas
por distintos autores, ası como caracterısticas y opiniones de los mismos sobre la
parafrasis.
La primera definicion la encontramos en [63], donde Dorr y Madnani mencio-
nan que la definicion mas habitual parte de la base de la equivalencia semantica,
desarrollando la siguiente definicion:
‘‘Una parafrasis es una forma superficial alternativa en el mismo len-
guaje que expresa el mismo contenido semantico que la forma origi-
nal.”
Anaden ademas que cuando encontramos ıtems lexicos individuales con el
mismo significado se habla de parafrasis lexica (que no se limitarıa solo a la sino-
nimia, sino que englobarıa tambien fenomenos como la hiperonimia), mientras que
cuando son fragmentos de frase las que comparten el mismo contenido semantico
se usa el termino parafrasis frasal ; cuando ocurre con dos frases completas, se
denomina parafrasis oracional.
En [125] podemos encontrar una recopilacion de otras posibles definiciones, tales
como “expresar una cosa con otras palabras”, “formas alternativas de aportar la
misma informacion” o “frases u oraciones que aportan aproximadamente el mis-
mo significado usando distintas palabras en la superficie”; los autores recalcan la
“vaguedad” de las mismas y justifican la complejidad del asunto por la naturaleza
“polifacetica e ilimitada” del fenomeno de la parafrasis.
Para dar una idea de lo inabordable del problema de la parafrasis, citamos la
siguiente reflexion expuesta en [6]:
“(...) La cantidad relativamente pequena de artıculos de aplica-
cion (con respecto a publicaciones que proponen nuevos metodos o los
Capıtulo 2. Estado del Arte 47
prueban in vitro, o incluso llegan a apuntar a posibles aplicaciones de
dichos metodos) puede considerarse un indicador de que la parafrasis
y el textual entailment no gozan aun de un uso extendido en grandes
sistemas. Creemos que esto puede deberse al menos a dos razones.
La primera, que la eficiencia de los metodos necesita mejorar, lo que
podrıa requerir combinar los metodos de reconocimiento, generacion y
extraccion (...). Segundo, la literatura en parafrasis y textual entail-
ment es abundante, lo que dificulta que los investigadores que trabajan
en grandes sistemas asimilen los conceptos claves e identifiquen los
metodos que mejor se adapten a su caso.”
Veamos ahora como definen y manejan el fenomeno de la parafrasis distintas
teorıas desde el punto de vista puramente linguıstico.
2.2.2. Perspectiva linguıstica
2.2.2.1. Conceptos linguısticos relacionados
La parafrasis esta estrechamente ligada a otros fenomenos linguısticos, como
pueden ser la sinonimia, la anafora/correferencia, la polisemia y muy especial-
mente el llamado “textual entailment” (la traduccion al espanol serıa “implicacion
textual”), que ya mencionamos brevemente en la introduccion y en el que ahora
profundizaremos brevemente (para ver mas informacion al respecto, ver [6]).
Textual entailment
El fenomeno denominado textual entailment se refiere a la relacion que se da
entre dos enunciados cuando uno de ellos es necesariamente consecuencia logica
del otro, pero no a la inversa. El caso bidireccional serıa, de hecho, una parafrasis
propiamente dicha (aunque esta definicion no engloba todas las parafrasis, ya
que por ejemplo se aceptan algunos textual entailments unidireccionales como tal
[125]). Una manera intuitiva de entender la diferencia entre ambos fenomenos es
pensar en la parafrasis como una forma de sinonimia y en el textual entailment
como una hiponimia; veamoslo con un ejemplo:
Luis vive en Espana.
Luis vive en Madrid.
Capıtulo 2. Estado del Arte 48
La segunda frase implica la primera, pero no ası a la inversa. Es unidireccional
y no es una parafrasis. En cambio, “Luis vive en territorio espanol.” sı serıa
parafrasis de la primera, ya que el territorio espanol es Espana y viceversa. El
textual entailment y la parafrasis suelen de hecho buscarse y estudiarse siguiendo
metodos muy similares, como veremos mas adelante.
Polisemia
La polisemia es el fenomeno linguıstico consistente en que una misma palabra
tenga varios significados. De cara a la parafrasis, imaginemos por ejemplo los
siguientes casos:
Luis siguio el curso del rıo con atencion.
Luis siguio el curso con atencion.
Aunque a primera vista (y muy especialmente para un sistema de reconoci-
miento automatico) pueda parecer que las dos frases hablan de lo mismo, y que
tan solo se omite en la segunda un pequeno matiz respecto a la primera, no tiene
por que ser una verdadera parafrasis. La segunda frase podrıa referirse a asistir
a unas clases, por lo que no habrıa en absoluto parafrasis. Aunque este es un
caso extremo y difıcil de encontrar en la comparacion de textos que a priori se
asumen relacionados al menos a nivel contextual, ilustra la importancia de la
desambiguacion lexica y de la correcta representacion de la semantica de cara a
la identificacion de la parafrasis.
Anafora y Correferencia
La anafora y la correferencia son problemas siempre presentes en el Procesa-
miento del Lenguaje Natural. La posibilidad de hacer referencia a un elemento
anterior del texto por medio de palabras distintas y no necesariamente relacio-
nadas a nivel semantico o incluso gramatical con dicho antecedente dificulta e
incluso impide un correcto procesamiento del texto en cuestion. En el caso de la
parafrasis, estan completamente ligadas a la misma, ya que puede considerarse
un caso especial de reformulacion de la oracion. Un estudio exhaustivo sobre la
diferencia entre ambos fenomenos fue llevado a cabo por Vila y Recasens en [95];
extraemos de dicho analisis que la principal diferencia radica en que mientras la
Capıtulo 2. Estado del Arte 49
Figura 2.11: Escala de menor a mayor parecido en la sinonimia. Correspondenciaentre terminos de las escalas propuestas por Murphy (arriba) y Cruse (abajo).
igualdad de la parafrasis se da en el significado, en la correferencia lo equivalente
son los referentes (que apuntan a una misma entidad).
Sinonimia
La sinonimia es el fenomeno por el cual dos o mas formas linguısticas com-
parten el mismo significado [115]. Esta relacion puede darse en diversos niveles
linguısticos: morfemas, unidades lexicas, oraciones... y esta obviamente ligada al
concepto de parafrasis.
Dado que no existe una forma estandar de medir lo parecidas que son dos palabras
(pues depende del contexto, de la lengua...), existen varias maneras de clasificar
los sinonimos segun sea de parecido su significado. En [115] se citan dos escalas
(ilustradas tambien en la Figura 2.11).
Escala de Cruse:
• Sinonimos absolutos: identificacion absoluta de todos los significa-
dos de dos o mas lexemas en todos los posibles contextos. Se considera
antinatural encontrarlos en una lengua.
Capıtulo 2. Estado del Arte 50
• Sinonimos cognitivos: lo que habitualmente se denominarıa sino-
nimia; es decir, terminos con practicamente el mismo significado en
algunos contextos. A la sinonimia cognitiva se la conoce tambien como
descriptiva, proposicional o referencial [115].
• Sinonimos cercanos: significados cercanos o muy similares.
Escala de Murphy: se centra en la polisemia y el contexto.
• Sinonimos logicos: pueden ser completos (mismo sentido en todas
los posibles contextos) o de sentido (coinciden en algunos contextos).
• Sinonimos cercanos: sentidos muy parecidos dependiendo del con-
texto.
En lo relativo a los sinonimos cercanos, como ya se ha mencionado no hay una
forma estandar de medir este concepto de cercanıa; Hirst y Edmonds recopilan
en [30] una serie de dimensiones o variaciones segun las cuales se puede guiar la
distancia entre sinonimos cercanos, como por ejemplo las variaciones denotacio-
nales (como el grado de enfasis que puede aportar un termino frente a otro), las
estilısticas (dialecticas, por ejemplo), las estructurales (de subcategorizacion) o
las expresivas (rasgos de la actitud).
Semantica Distribucional
Un concepto particularmente relevante en el tratamiento de la parafrasis es la
Distribucion Estructural (tambien llamada Hipotesis Distribucional), que asume
que el lenguaje posee una cierta estructura distribucional. Esta idea fue enuncia-
da por primera vez por Zellig Harris en 1954 [42], continuando su desarrollo a lo
largo de distintas publicaciones y libros posteriores, y ha sido estudiada y usada
por muchos autores despues de el (como veremos mas adelante), popularizandose
con la expresion “a word is characterized by the company it keeps” (“una palabra
se caracteriza por sus acompanantes”). Para llegar a esta conclusion respecto a
la presencia subyacente de una estructura, Harris se baso en una serie de obser-
vaciones enunciadas en [42] y citadas textualmente a continuacion:
1. “Las partes de un lenguaje no ocurren arbitrariamente unas respecto a otras:
cada elemento ocurre en ciertas posiciones en relacion a otros elementos
concretos.”
Capıtulo 2. Estado del Arte 51
Figura 2.12: Arquitectura general de parafrasis siguiendo la teorıa de la Distri-bucion Estructural (fuente: [63]).
2. “La distribucion restringida de clases persiste en todas sus ocurrencias; las
restricciones no se desestiman arbitrariamente por, por ejemplo, necesida-
des semanticas. (...) Todos los elementos de un lenguaje pueden ser agrupa-
dos en clases cuya ocurrencia relativa se puede concretar de manera exacta.
Sin embargo, para la ocurrencia un miembro particular de una clase con
respecto a un miembro particular de otra clase serıa necesario hablar en
terminos de probabilidad, basandose en la frecuencia de esa ocurrencia en
un muestreo.”
3. “Las declaraciones distributivas cubren todo el material de una lengua sin
requerir asistencia de ningun otro tipo de informacion.”
4. “Las restricciones de la ocurrencia relativa de cada elemento se describen
simplemente mediante una red de declaraciones interrelacionadas, algunas
de las cuales se expresan segun los resultados de otras, en vez de con una
simple medida de la restriccion de cada elemento de manera separada.”
De esta teorıa se deduce la idea de la Semantica Distribucional (ver Figura
2.12, tomada de [63]), que defiende que las palabras y frases que comparten la
Capıtulo 2. Estado del Arte 52
misma distribucion tienden a tener significados similares. Ademas, se considera a
esta teorıa la base de la Semantica Estadıstica, campo en el que encontramos im-
portantes aportaciones al Procesamiento del Lenguaje Natural, como por ejemplo
el LSA (Latent Semantic Analysis)49.
Otras ideas interesantes derivadas de esta hipotesis (y recopiladas por Vila en
el transcurso de su tesis doctoral [126]), son por ejemplo la preservacion de las
entidades en las parafrasis o la inmutabilidad del significado del texto en torno a
las mismas en distintas ocurrencias.
2.2.2.2. Modelo del Texto-Significado
Desde un punto de vista linguıstico, segun los autores de [125] existen dos
grandes teorıas en las que la parafrasis se puede considerar un componente central:
la anteriormente analizada Teorıa del Texto-Significado (ver 2.1.7) y la Gramatica
Sistemico-Funcional (Systemic-Functional Grammar o SFG), ambas con distintos
planteamientos pero compartiendo la misma idea sobre la parafrasis como posible
consecuencia de un sistema de elecciones o alternativas. Para ver esta idea nos
centraremos por tanto y en exclusiva en el Modelo del Texto-Significado, dado
que ya hemos introducido las bases de dicha teorıa linguıstica y que ademas
Igor Mel’cuk desarrollo ampliamente como lidiar con la parafrasis en 1992 [71]. A
continuacion resumimos brevemente la extensa y detallada aportacion presentada
en dicha publicacion.
Concepto de parafrasis
Como no podıa ser de otra manera, Mel’cuk comienza por dar su propia in-
terpretacion del concepto de parafrasis, expresando50 la relacion de parafrasis
entre dos frases como una relacion de sinonimia o cuasi-sinonimia y entendien-
do la propia sinonimia como una nocion intuitiva y dependiente del contexto
de la conversacion. Cabe destacar que limita la sinonimia a un nivel puramente
linguıstico, aunque en el proceso de identificacion puedan intervenir nociones logi-
cas o matematicas, entre otras posibilidades. Ademas, entiende que el sentido de
49 http://www.aclweb.org/aclwiki/index.php?title=Statistical_Semantics50 El propio Mel’cuk aclara que no pretende definirla, ya que considera que “la identificacion
del sentido es una nocion indefinible”.
Capıtulo 2. Estado del Arte 53
una frase se compone de tres elementos (el sentido situacional, el comunicativo y
el retorico, reflejados en las tres estructuras asociadas al nivel semantico de repre-
sentacion de la Teorıa del Texto-Significado), y considera que la parafrasis debe
mantener “suficientemente parecido” solo el primero de ellos, pudiendo variar los
otros dos.
Tipos de parafrasis
En un Modelo de Texto-Significado, la parafrasis puede aparecer de dos ma-
neras: o bien pasando de un nivel de representacion a otro o bien estableciendose
a traves de reglas de equivalencia en un mismo nivel de representacion (pudiendo
ser estas reglas lexicas o sintacticas51). Puede haber asimismo parafrasis sintacti-
cas, derivadas de elegir o sustituir distintas estructuras sintacticas pero usando
las mismas lexies o unidades lexicas, o semanticas, fruto de una distribucion dis-
tinta de lexies (distinguiendose entre las dos frases al menos un lexie). Distingue
ademas otro tipo, las llamadas parafrasis lexicas, que mantienen las mismas re-
laciones semanticas: estas seran las parafrasis a tratar, las cuales aborda con la
creacion del concepto de funcion lexica.
Funciones lexicas
A grandes rasgos, una funcion lexica es una dependencia o correspondencia
que asocia una unidad lexica argumento con un conjunto de unidades lexica valor.
Cada funcion lexica corresponde a un sentido muy general entre unidades lexicas
y a un rol sintactico profundo, y deben ser universales. Un ejemplo representativo
de funcion lexica (de entre las mas de 100 definidas originalmente en la Teorıa)
es Magn. Magn representa el sentido semantico abstracto “muy o mucho”, y puede
darse por ejemplo acompanando a ‘te’(indicando en ese caso “te cargado”), a
lluvia (“fuerte”), trafico (“denso”)...
Por ultimo, cabe destacar que el sistema de parafrasis desarrollado en el mar-
co de la Teorıa del Texto-Significado se orienta principalmente a la generacion de
la parafrasis, no a su reconocimiento (mas tarde veremos la diferencia).
51 Las listas de las 54 reglas lexicas y de las 29 reglas sintacticas pueden encontrarse en lassecciones V.3 y V.4 del artıculo [71]
Capıtulo 2. Estado del Arte 54
Figura 2.13: Tipos de parafrasis segun lo expuesto en [125].
2.2.3. Perspectiva computacional
2.2.3.1. Tipos de parafrasis
Existen numerosos estudios sobre los distintos tipos de parafrasis existentes
(una recopilacion de los mismos se puede encontrar en [125]); no obstante, la
mayorıa de ellos se realizan o bien desde un punto de vista no computacional
(puramente linguıstico y/o psicologico) o bien dentro de un campo de aplicacion
muy limitado. Ademas, estos analisis suelen centrarse exclusivamente en la defi-
nicion de los tipos y no en como decidir si se da dicho tipo, por lo que no podemos
considerar las tipologıas que plantean como optimas para el problema que nos
ocupa. En su artıculo [125], Vila propone su propia tipologıa, caracterizada por
intentar definir unos lımites entre que es una parafrasis, siendo estos la perdida de
informacion de una frase a su supuesta parafrasis, la presencia de conocimiento de
sentido comun (ya sea enciclopedico o situacional) o caracterısticas gramaticales
(cambios de persona, numero...). La tipologıa completa se puede ver en la Figura
2.13.
Capıtulo 2. Estado del Arte 55
2.2.3.2. Posibles enfoques
Los autores de [6] distinguen tres grandes enfoques o desafıos en lo concernien-
te a la parafrasis: por un lado estarıa la generacion de parafrasis a partir de una
expresion, por otro el reconocimiento de la parafrasis entre dos expresiones dis-
tintas (siendo la salida una cierta probabilidad sobre la certeza de la presencia de
parafrasis), y por ultimo tendrıamos la extraccion de parafrasis de un corpus (de
cara, por ejemplo, a la creacion de un recurso con posibles parafrasis ayude tanto
a la generacion como al reconocimiento). Aunque trataremos brevemente estos
tres enfoques, nos centraremos principalmente en el campo del reconocimiento.
Generacion
A la hora de abordar la generacion, un campo en el que se inspiran muchas
opciones es el de la Traduccion Automatica, ya sea tomando distintos artıculos
sobre la misma noticia (igual que se toman textos con sus respectivas traduccio-
nes en distintos idiomas) o usando una lengua pivote para traducir de un mismo
idioma a sı misma (obteniendo probablemente otra estructura distinta a la origi-
nal), entre otras opciones.
Otra posibilidad pasa por aplicar bootstrapping con respecto a ciertos elementos
clave (como pueden ser por ejemplo entidades relacionadas) y ver como se rela-
cionan en un gran corpus, obteniendo plantillas de los casos de aparicion. Estas
plantillas deben ser posteriormente filtradas (ya que pueden senalar parafrasis,
entailment o ser falsos positivos) y una vez verificadas pueden ayudar a buscar
nuevas plantillas.
Extraccion
En lo concerniente a la extraccion a nivel lexico, muchas tecnicas se basan en
el descubrimiento de sinonimos, hiperonimos... para parafrasis frasales u oracio-
nales, en cambio, son necesarias tecnicas algo mas complejas. Una posible opcion
es basarse en la Hipotesis Distribucional (ya vista en la Seccion 2.2.2.1), identi-
ficando n-gramas y sus contextos para ver casos de repeticion o fijandose en los
roles semanticos de las oraciones.
Capıtulo 2. Estado del Arte 56
En ausencia de plantillas semilla de partida como en el caso de la generacion
de parafrasis, se suele comenzar por vocabulario estandar del dominio, que puede
estar a su vez construido automaticamente a partir de un corpus. Otra opcion es
el uso iterativo de reglas en la busqueda de la parafrasis. Tambien es habitual el
uso de lenguas pivote y otras tecnicas de Traduccion Automatica, como ocurrıa
en el caso de la generacion.
Reconocimiento
De cara al reconocimiento de parafrasis, Androutsopoulos y Malakasiotis es-
tablecen en [6] las siguientes familias de metodos:
Metodos basados en logica Esta forma de abordar el reconocimiento de
parafrasis esta particularmente ligada al fenomeno del textual entailment, hacien-
do uso de distintos axiomas logicos para localizar las parafrasis. Un ejemplo serıa
el caso de “opera” y “obra’ ’, siendo el primero hiperonimo del segundo y pudiendo
por tanto reconocerse la parafrasis mediante axiomas del tipo:
∀x ∀y opera de(x; y)⇒ obra de(x; y)
En casos como:
Turandot es una obra de Puccini.
Turandot es una opera de Puccini.
Los axiomas pueden obtenerse de recursos como el ya mencionado FrameNet
(ver la Seccion 2.1.3.1), entre otros.
Uso de Vector Space Models Semanticos El metodo del Vector Spa-
ce Model (usado habitualmente en el campo de la Recuperacion de Informacion
para relacionar consultas o documentos con temas u otros documentos) consis-
te, a grandes rasgos, en usar vectores de pesos no binarios para representar las
palabras presentes en un recurso de cara a la comparacion de la similaridad de
dicho recurso con el vector de algun otro. La idea subyacente es representar cada
documento como un punto en un espacio, siendo la distancia en dicho espacio la
similaridad: cuanto mas cerca esten dos puntos, mayor similaridad habra entre
los documentos a los que representan. Ha sido ampliamente utilizado, siendo la
medida de similaridad predilecta la del coseno, descrita a continuacion [7]:
Capıtulo 2. Estado del Arte 57
sim(dj, q) =~dj•~q| ~dj |×|~q|
=∑t
i=1 wi,j×wi,q√∑ti=1 w
2i,j×√∑t
i=1 w2i,j
donde ~dj = (w1,j, w2,j, ..., wt,j) representa el vector asociado a un documento
y ~q = (w1,q, w2,q, ..., wt,q) es el vector consulta.
Esta tecnica ha trascendido al campo de la semantica con la siguiente idea: si
disponemos de un conjunto de vectores compuestos por palabras relacionadas en-
tre sı (dicho conjunto podrıamos obtenerlo, por ejemplo, a partir de un corpus),
podrıamos medir la distancia de las palabras de una expresion a dicho vector
usando distintas distancias de similaridad. En [118] los autores distinguen tres
tipos de representacion segun la matriz: la clasica matriz para los terminos en un
documento, una matriz para representar el contexto o una tercera matriz llamada
“pareja-patron” donde encontrarıamos parejas de conceptos relacionados en las
filas y los patrones que representan en las columnas. De cara a la parafrasis, los
dos ultimos tipos de matriz son los mas relevantes, siendo util la primera para la
deteccion de la similaridad atribucional (la que puede existir por ejemplo entre
terminos como lobo y perro) y la segunda para la similaridad relacional (es el caso
de la pareja madera-carpintero); en el proximo capıtulo hablaremos mas de este
tema.
Metodos basados en similaridad superficial de cadenas de caracteres
Otra manera de estudiar la relacion de parafrasis pasa por analizar las palabras y
buscar similaridad en su construccion mas alla del rol semantico o sintactico que
desempenen. Mas adelante, en el proximo y ultimo capıtulo del Estado del Arte,
abordaremos mas profundamente una pequena representacion de las distintas
medidas de similaridad existentes entre cadenas de caracteres.
Metodos basados en similaridad sintactica Una de las tecnicas mas ha-
bituales es la representacion sintactica de las expresiones a analizar, normalmente
en forma de arbol, y el procesado de las mismas en busca de ciertos patrones en
los nodos, arcos o subgrafos. Existen asimismo distintas distancias propias de las
representaciones en forma de arbol de dependencias y de grafos que permiten un
mejor analisis de dichas representaciones sintacticas (como veremos en el proximo
capıtulo).
Capıtulo 2. Estado del Arte 58
Medidas basadas en representaciones simbolicas del significado Tam-
bien puede ocurrir que en dos oraciones con absolutamente ninguna palabra en
comun se de la parafrasis. En estos casos se suele recurrir a recursos externos como
el ya mencionado WordNet, que cuentan con sus propias medidas de similaridad y
que permiten relacionar terminos cercanos aunque no se parezcan. Tambien pue-
den usarse las previamente expuestas relaciones semanticas para hallar puntos
comunes entre una oracion y otra.
Machine Learning y reglas Por ultimo, existen tambien metodos tomados
del Aprendizaje Automatico que han demostrado ser utiles en el reconocimiento
de la parafrasis, como pueden ser por ejemplo el SVM (Support Vector Machine)
y la combinacion de distintas tecnicas usadas para el entrenamiento, el aprendi-
zaje y la clasificacion de los vectores. Otro formato muy extendido pero mucho
mas costoso a nivel de implementacion es el uso de reglas.
Otra manera frecuente de organizar las tecnicas para el tratamiento de la parafra-
sis es segun el tipo de los datos: entre distintas traducciones, en un corpus mo-
nolingue o en corpus comparables. Una manera de entender la parafrasis pasa
precisamente por alinear corpus y ver como se relacionan las distintas oraciones
que a priori pueden expresar lo mismo. Ademas, en un mismo sistema es habitual
encontrar combinaciones de todas estas aproximaciones.
2.2.3.3. Campos de aplicacion
Al ser la parafrasis un fenomeno tan comun, han sido muchas las aplicacio-
nes de procesamiento de lenguaje natural que han incorporado tecnicas para su
tratamiento o han desarrollado versiones que “tocan” ligeramente este campo. A
continuacion haremos un repaso de los principales campos de aplicacion, con los
avances mas recientes en el area, y tambien de los campos relacionados con el
propio concepto de parafrasis a nivel de procesamiento.
Resumidores
En el caso de los resumidores, por ejemplo, encontramos que un resumen
es tambien una parafrasis, y de manera muy similar procesara el lenguaje para
adaptarlo. La idea principal es determinar lo mas relevante y representativo de
Capıtulo 2. Estado del Arte 59
un texto y reescribirlo de forma mas concisa, pudiendo abordarse esta tarea desde
un enfoque abstractivo (generando el resumen a partir de las ideas del texto) o
extractivo (eliminando las partes no deseadas y tomando las relevantes). Segun
la tesis doctoral de Cheung, que gira en torno a los resumidores automaticos
[19], este proceso se puede dividir en tres etapas principales: analisis/seleccion de
contenido, transformacion/refinamiento y sıntesis o realizacion. Aunque el aspecto
semantico es importante en todas ellas, destaca especialmente en las dos primeras.
Seleccion de contenido: En la fase de analisis se seleccionan las frases que
contienen la informacion del texto y que por tanto apareceran (modificadas
en mayor o menor medida) en la version final del resumen; es por ello que
la correcta deteccion de parafrasis ya existentes es primordial para evitar
repetir informacion ya presente en otras frases seleccionadas, alargando ası
innecesariamente el resumen o incluso dejando fuera otra informacion. Es
lo que se denomina el sentence extraction.
Transformacion: Una vez se tienen las frases mas representativas es el
momento de comprimirlas lo maximo posible (sentence compression), lo
que puede suponer de hecho una parafrasis de la frase original.
De cara a las distintas tecnicas, un buen estado del arte de resumidores au-
tomaticos atendiendo a los distintos niveles del procesamiento es el elaborado por
Lloret en [61], que incluye ademas una extensa comparativa de algunos sistemas
concretos. Si nos centramos en cambio en posibles contextos del resumen a rea-
lizar (resumen de emails, de artıculos, basados en queries o de webs), podemos
encontrar un survey bastante completo de las distintas tecnicas en [87], ası como
un analisis de las principales tecnicas de Aprendizaje Automatico aplicadas a los
resumidores.
Destacamos entre las tecnicas de resumenes automaticos las basadas en grafos,
donde cada nodo representa una frase y las relaciones entre ellas, representadas
por las aristas de distintas maneras segun el algoritmo, sirven para decidir su
importancia en el global del texto; un ejemplo reciente puede ser el propuesto
en [5]. Algunos de los algoritmos mas utilizados en este enfoque son TextRank
[76] y LexRank [31], metodos que sigues una idea similar a PageRank donde se
decide la importancia de una frase en base a una cierta nocion de centralidad y
“votacion democratica” entre los nodos. Existen tambien propuestas de tecnicas
Capıtulo 2. Estado del Arte 60
de resumenes basados en representaciones con grafos UNL (ver [69], [90], [106])
que aprovechan las caracterısticas de dicho sistema de representacion, tales como
las relaciones semanticas o los atributos, y proponen una serie de reglas propias
para el proceso de resumen.
2.2.3.4. Consultas expandidas, Q/A y Extraccion de Informacion
Dado que los sistemas de extraccion de informacion a menudo usan patrones
para localizar la informacion pertinente, una buena forma de definir dichos patro-
nes es el uso de patrones de parafrasis con respecto a una expresion estandar. Lo
mismo ocurre en los sistemas de pregunta/respuesta, donde la parafrasis a partir
de la consulta del usuario (consulta expandida) es una etapa indispensable en la
correcta localizacion de la informacion y en la elaboracion de la respuesta, como
podemos ver en el proceso propuesto en [132]. Un recurso ampliamente utilizado
desde los comienzos de la disciplina de la expansion de queries es WordNet, co-
mo podemos ver en [127], [132] y [133]; en esta ultima publicacion encontramos
ademas el concepto de “reduccion de query”, donde la parafrasis tambien juega
un papel importante a la hora de cambiar o eliminar de la consulta las partes que
o bien dificultan la obtencion de la respuesta o bien repiten informacion. Para
un Estado del Arte reciente y mas profundo en distintas tecnicas para la expan-
sion de consultas, se puede consultar [18], mientras que la evolucion del uso de
parafrasis para este fin a traves de distintas aplicaciones se desarrolla en [63]. En
el ambito de UNL, en [17] y [15] se describen frameworks completos para sistemas
de recuperacion de informacion basados en representacion UNL
2.2.3.5. Generacion de Lenguaje Natural y Traduccion Automatica
Obviamente, la Generacion de Lenguaje Natural es un campo en el que la
parafrasis (y muy especialmente su generacion) va a enriquecer notablemente la
produccion de texto, evitando repeticiones y posibilitando adaptar un mismo con-
tenido a distintos niveles, estilos y contextos (simplificando, por ejemplo, textos
para estudiantes o artıculos tecnicos para un publico mas general).
Esto evidentemente tendra aplicacion tambien en el ambito de la Traduccion
Automatica, tanto a la hora de generar la traduccion como en el momento de
evaluar si una traduccion es correcta en comparacion con traducciones de refe-
rencia realizadas por humanos. Es util ademas si disponiendo, por ejemplo, de
Capıtulo 2. Estado del Arte 61
un corpus bilingue, el sistema no encuentra informacion sobre la frase concreta
a traducir. En este caso, disponer de un sistema de reconocimiento de parafrasis
en la lengua de partida podrıa ayudarnos a localizar posibles candidatas en el
corpus de salida.
Otros usos
Al margen de los principales campos de aplicacion previamente citados, existen
multitud de aplicaciones en las que el procesamiento de la parafrasis puede aportar
grandes avances. Algunos ejemplos son la correccion de respuestas de estudiante
en base a respuestas correctas estandar (ya que pueden ser correctas aun estando
escritas de manera distinta), la expansion de recursos anotados manualmente por
humanos de cara a evaluacion o la deteccion de plagio ([6], [63]). Existen ademas
niveles incluso mas profundos de parafrasis/entailment que analizar, como por
ejemplo el uso de metaforas [80], donde la relacion semantica puede ser aun mas
difıcil de establecer. Cabe destacar que el propio UNL ha sido usado en ocasiones
(y en combinacion con otros recursos) como reconocedor de parafrasis y textual
entailment (ver [89]).
2.2.3.6. Recursos
Existen numerosos workshops (ver [6], [68]) y recursos disponibles como Word-
Net y FrameNet (para una lista mas completa consultar [68]) utilizados frecuente-
mente en el analisis de la parafrasis. Tambien hay publicadas multitud de metricas
y algoritmos52 tanto para la parafrasis como para la Traduccion Automatica que
suelen usarse para filtrar o validar la existencia de parafrasis entre dos frases can-
didatas (ver [64]).
Para la evaluacion existen numerosos corpus, entre los cuales destacamos para
el ingles el Microsoft Research Paraphrase Corpus53 (MRPC), paraphrase.org54
52 http://www.aclweb.org/aclwiki/index.php?title=Paraphrase_Identification_
(State_of_the_art)53 Descargable en: http://research.microsoft.com/en-us/downloads/
607D14D9-20CD-47E3-85BC-A2F65CD28042/default.aspx54 Las parafrasis inglesas se pueden descargar en: http://paraphrase.org/, pero otras,
como las espanolas, no estan disponibles.
Capıtulo 2. Estado del Arte 62
o el corpus PAN55 para evitar el plagio. Existen ademas numerosas versiones ex-
traıdas de dichos corpus (por ejemplo la creada por la Universidad de Barcelona a
partir de este ultimo 56) y otros tantos recursos para idiomas diferentes del ingles.
No obstante, cabe destacar que estos repositorios suelen preprocesarse antes de
ser utilizados, pues dado que cada investigador mantiene su propia definicion y
tipologıa de parafrasis, habitualmente es necesario cribar los repositorios para
seleccionar que casos se ajustan a su definicion o a sus objetivos y limitaciones y
cuales no.
2.2.3.7. Otras consideraciones
Antes de finalizar el capıtulo sobre la parafrasis es necesario matizar ciertos
aspectos sobre este fenomeno:
La parafrasis es un fenomeno en muchas ocasiones subjetivo: en la creacion
y evaluacion de los corpus, muchos de los evaluadores humanos no estan a
menudo de acuerdo sobre la presencia de la parafrasis.
La presencia de la parafrasis no es habitualmente clara, y por tanto no se
puede ver como algo binario: la aproximacion mas habitual consiste en dar
una probabilidad a la presencia de la parafrasis y considerar su existencia
cuando dicha probabilidad sobrepasa un determinado umbral.
Como ya hemos comentado, la parafrasis no solo es tan solo una forma
diferente de escribir una oracion: en ocasiones aporta informacion extra que
en caso de expresarse de otra manera no hubiese reflejado: contexto, puntos
de vista, riqueza lexica, enfasis en un una parte determinada de la frase... es
difıcil definir en que momento se puede considerar una parafrasis sin perder
esta informacion, dependera en gran medida del contexto de la frase.
55 Descargable en: http://www.uni-weimar.de/en/media/chairs/webis/corpora/
corpus-pan-pc-10/56 http://intime.dlsi.ua.es/textmess20/content/corpus-p4p-paraphrase-plagiarism
Capıtulo 2. Estado del Arte 63
2.3. Similaridad
2.3.1. Introduccion
En la seccion anterior hemos hablado los conceptos de similaridad y distancia,
mencionando de que no existe una medida estandar a la hora de definir la cercanıa
semantica entre elementos lexicos, ya sea a nivel de terminos o de oraciones. En
esta seccion intentaremos ver los esfuerzos que se han hecho en este sentido tanto
en cuanto a medidas de similitud estandar en los distintos niveles del texto (de
palabra, sintactico y semantico) como en la representacion en forma de grafo, el
modelo mas parecido al que sigue UNL.
2.3.2. Nivel de palabra
Dado que muchas de las medidas de similitud sintacticas y semanticas se
centran casi exclusivamente en el analisis de verbos y nombres, la combinacion de
dichas medidas con un analisis a nivel de las palabras que componen el texto puede
mejorar notablemente el desempeno de un sistema de parafrasis. Dividiremos este
apartado en metricas y distancias entre cadenas de caracteres (que nos ayudan
a encontrar por ejemplo palabras con distinta categorıa gramatical pero misma
familia lexica, como hablar y habladurıa) y metricas a nivel de evaluacion de
Traduccion Automatica, que han sido ampliamente usadas en distintos sistemas
de parafrasis para verificar la existencia de las mismas.
2.3.2.1. Cadenas de caracteres
De cara a la exposicion de los distintos metodos revisados en lo relativo a la
comparacion de cadenas de caracteres, seguiremos la organizacion propuesta por
Naumann en [85] (puede verse dicha organizacion en la representacion grafica de
la Figura 2.14).
Basadas en edicion
Distancia de Hamming En informatica, una de las distancias clasicas mas
usadas es la Distancia de Hamming, pensada para permitir la deteccion y correc-
cion de errores en transmisiones de cadenas binarias pero aplicable a cadenas de
Capıtulo 2. Estado del Arte 64
Figura 2.14: Organizacion de medidas de similaridad para caracteres propuestaen [85].
caracteres. Basicamente, mide los dıgitos diferentes entre dos cadenas de la mis-
ma longitud; planteada originalmente en [41], encontramos la siguiente definicion
formal en [101]:
simH(a, b) =
∑min{|a|,|b|}i=1 id(ai, bi)
max {|a| , |b|}
donde la funcion id(a, b) devuelve 1 en caso de coincidir los numeros y 0 en caso
contrario. Aunque la version original clasica solo compara elementos en la misma
posicion, es posible abarcar las coincidencias en ventanas de distinto tamano (para
mas informacion, ver [101]).
Distancia de Levenshtein Tambien denominada “edit distance” o “dis-
tancia de edicion”, comporta el numero de operaciones (insercion, eliminacion o
sustitucion de un caracter) necesarias para transformar una cadena de caracteres
en otra. Como veremos mas adelante, en la seccion de Nivel Sintactico, este con-
cepto de similaridad se ha extendido a representaciones distintas de las cadenas
de caracteres, tales como los grafos y los arboles, pudiendo anadirse otras opera-
Capıtulo 2. Estado del Arte 65
ciones dependientes del contexto de la comparacion. Una posible formulacion y
la correspondiente funcion de similitud derivada las encontramos recopiladas en
[101] en la siguiente formulacion:
distL(a, b) =min {n : b = op1 ◦ · · · ◦ opn(a)}
max {|a| , |b|}
simL(a, b) = 1− distL(a, b)
Otras medidas de edicion relacionadas57 son la de Damerau-Levenshtein (que
permite la transposicion de caracteres adyacentes), la LCS (Longest Common
Subsequence, o Cadena Comun de Mayor Longitud, que no permite la sustitucion)
o la ya mencionada distancia de Hamming, que solo permite la sustitucion y actua
exclusivamente sobre cadenas de la misma longitud.
Distancias de Jaro y Jaro-Winkler Otra distancia es la planteada por
Jaro en 198958, de la siguiente forma:
distJaro =
{0 si m(a, b) = 013(m(a,b)|a| + m(a,b)
|b| + m(a,b)−t(a,b)m(a,b)
) sino
donde m(a, b) simboliza las coincidencias y t(a, b) el numero de transposiciones
presentes entre dos cadenas. En algunas versiones se anaden pesos a cada uno
de los tres componentes de la suma (ver [128]). Posteriormente fue adaptada por
Winkler en [128], dando lugar a la distancia de Jaro-Winkler, que tiene en cuenta
una determinada longitud de prefijo l (de maximo 4 caracteres) y un factor de
escalado constante p (que normalmente toma 0,1 como valor estandar):
distJW = distJaro + (l · p(1− distJaro))
Basadas en tokens
Similaridad del coseno Una funcion del ambito matematico ampliamente
usada en el contexto de la Linguıstica es la funcion de similaridad del coseno,
empleada en algoritmos como TF-IDF:
57 https://en.wikipedia.org/wiki/Levenshtein_distance58 https://en.wikipedia.org/wiki/Jaro%E2%80%93Winkler_distance
Capıtulo 2. Estado del Arte 66
simcos(a, b) = cos(θ) =a · b‖a‖ ‖b‖
=
∑ni=1 aibi√∑n
i=1 a2i
√∑ni=1 b
2i
Para que entre en el rango estandar (0, 1), se suele adaptar de la siguiente
forma:
simcosV 2(a, b) = 1− arccos(simcos(a, b))
π
Q-gramas y N-gramas Los N-gramas son subsecuencias de N elementos
de una secuencia dada (en el caso de palabras, estos elementos son los caracteres
y suelen denominarse q-gramas, aunque la distincion entre q-gramas y n-gramas
no esta estandarizada; en caso de oraciones, seran los elementos seran cada una
de las palabras que la componen).
Coeficiente de Jaccard Planteado en 1901 y valido para la comparacion
de dos conjuntos cualesquiera, el coeficiente o ındice de Jaccard se puede aplicar
tambien a la medida de similaridad entre cadenas de caracteres; es una compa-
racion entre la union y la interseccion de dos conjuntos:
simJac(a, b) =|a| ∩ |b||a| ∪ |b|
Coeficiente de Dice Otra medida de conjuntos bastante similar a la de
Jaccard y con diversas aplicaciones (como veremos posteriormente en las medi-
das de comparacion de Grafos Conceptuales), el llamado coeficiente de Dice tiene
la siguiente formulacion:
simDice(a, b) = 2|a ∩ b||a|+ |b|
En ocasiones se considera que el numerador |a ∩ b| es una medida en sı misma,
llamada el Matching Coefficient. Entre las medidas derivadas de los coeficientes
de Dice y Jaccard encontramos el denominado Overlap Coefficiente (o coeficiente
de solapamiento), con la siguiente forma:
cOverlap(a, b) =|a ∩ b|
min(|a| , |b|)
Capıtulo 2. Estado del Arte 67
Otras medidas
Funcion de Tversky Uno de los analisis mas profundos realizados acerca
del concepto de similaridad desde distintos puntos de vista es sin duda el realizado
por Amos Tversky (ver [119]). De dicho estudio deriva la llamada funcion de
similaridad de Tversky, donde se da libertad a la hora de elegir la importancia
de los elementos no comunes en funcion de unos pesos w1 y w2:
simTv(a, b) =|a ∩ b|
|a ∩ b|+ w1 |a− b|+ w2 |b− a|′
Distancias Manhattan y Euclidea La distancia de Manhattan (tambien
denominada “City Block Distance” o “Takicab”59 ), desarrollada por Hermann
Minkowski, se usa habitualmente para vectores, pero puede aplicarse tambien a
la comparacion de cadenas de caracteres, al igual que la Euclidea (la distancia
usada por defecto en todos los campos). Se basa en la suma de las proyecciones
de un segmento en el espacio que recorre y tiene la siguiente forma:
dM(a, b) =n∑i=1
|ai − bi|
dE(a, b) =
√√√√ n∑i=1
(ai − bi)2
donde ai y bi con suelen representar el numero de apariciones de una palabra (o un
caracter) concreta. Otras distancias usadas habitualmente en la comparacion de
vectores en el entorno matematico se pueden adaptar igualmente a este contexto
(por ejemplo, las distancias de Chebyshev, Mahalanobis...).
Dependientes del dominio A la hora de comparar cadenas mas concre-
tas, como fechas, divisas, entidades o lugares, suelen usarse reglas concretas de
transformacion y similaridad o ayudarse de una base de conocimiento, software
implementado para tal fin (como el reconocedor de Stanford60) o usar busquedas
y URIs. Un estado del arte sobre como reconocer estos casos se puede encontrar
en [84].
59 https://en.wikipedia.org/wiki/Taxicab_geometry60 http://nlp.stanford.edu/ner/
Capıtulo 2. Estado del Arte 68
Otras medidas Otras medidas y algoritmos de diversas areas tambien apli-
cables a la comparacion de cadenas de caracteres y no revisadas previamente son
los algoritmos de Needleman–Wunsch61 (usado principalmente en bioinformatica
para comparacion de secuencias biologicas) y Smith-Waterman62 (posteriormente
mejorado por diversos autores, como Gotoh, Monger y Elkan o Atshchul y Erick-
son). Para una recopilacion mas extensa de medidas de comparacion entre conjun-
tos y colecciones, se puede consultar [101]. A la hora de reconocer entidades, un
planteamiento particularmente interesante pero alejado de los vistos previamente
es Soundex63, un algoritmo que indexa nombres por su sonido, referenciandolos a
representaciones estandar unicas (una suerte de interlingua numerica) que sigue
una idea similar a la de las URIs en las bases de conocimiento y la Web Semantica.
2.3.2.2. Metodos de evaluacion de Traduccion Automatica
Otra forma estandar de evaluar la existencia de parafrasis entre dos textos es
el uso de metodos de evaluacion propios de la Traduccion Automatica, ya que
estos sirven precisamente para intentar verificar que dos textos dicen lo mismo.
A continuacion se exponen brevemente algunas de las metricas mas usadas y
conocidas (para mas informacion sobre el tema, se recomienda consultar [34]).
BLEU
BLEU (BiLingual Evaluation Understudy) es sin duda la medida usada por
excelencia a la hora de identificar la parafrasis [93]. Se puede interpretar como
la media geometrica de la precision de los n-gramas, ya que va considerando
n-gramas con distintos valores de n:
evalBLEU = BP × exp
[N∑n=1
1
N× log(pn)
]
donde BP simboliza la penalizacion de brevedad (Brevity Penalty), que penaliza
si la traduccion es mas corta que el texto de referencia (en el caso de la parafrasis
suele tomar 1 como valor, puesto que la diferencia de longitud no es indicativo de
61 https://en.wikipedia.org/wiki/Needleman%E2%80%93Wunsch_algorithm62 https://en.wikipedia.org/wiki/Smith%E2%80%93Waterman_algorithm63 https://es.wikipedia.org/wiki/Soundex
Capıtulo 2. Estado del Arte 69
presencia o ausencia de la misma) y pn es la precision de los n-gramas, dada por:
pn =
∑i=1,...,I
∑n−gramas∈si counte(n− gramas)∑
i=1,...,I
∑n−gramas∈si count(n− gramas)
donde a su vez count(n − grama) es la cantidad de n-gramas en los dos textos
(referente, ri, y evaluado, si) y counte(n − gramas) considera la presencia solo
en el texto a evaluar.
NIST
Existen numerosas metricas derivadas de BLEU, como por ejemplo NIST64,
que esta basada en la informacion aportada por los distintos n-gramas y tiene la
siguiente forma:
evalNIST =N∑n=1
BP ×∑∀ n−gram co−occur info(n− gram)
cant(n− gramas)
donde la informacion viene dada por:
info(n− gram) = log2
[cant((n− 1)− gramas)cant(n− gramas)
]
METEOR
METEOR (Metric for Evaluation of Translation with Explicit ORdering) es
una extension de BLEU definida como sigue [25]:
evalMETEOR = Fmean · (1− pen)
donde la penalizacion (pen) se obtiene dividiendo en numero de chuncks (ch)
entre las correspondencias (matches, m) entre los textos y modificando por una
serie de parametros ajustables γ, β:
pen = γ · (chm
)β
METEOR intenta paliar algunos de los problemas presentes en BLEU y sus
64 https://en.wikipedia.org/wiki/NIST_(metric)
Capıtulo 2. Estado del Arte 70
derivados [8], tales como la falta de recall, de mapeo entre palabras o el uso de
n-gramas de un orden mayor
WER
WER (Word Error Rate) es una medida del numero de operaciones de edicion
requeridas para transformar una palabra en otra. Sigue la idea de la distancia
de Levenshtein vista en el apartado anterior, usando las mismas operaciones de
insercion (I(si, ri)), eliminacion (D(si, ri)) y sustitucion ((S(si, ri)):
evalWER =I(si, ri) +D(si, ri) + S(si, ri)
|ri|
a partir de WER se han creado versiones alternativas, como la de Hunt, que
proponıa dar menos peso a las eliminaciones y las inserciones65.
TER
Otra metrica similar a WER es TER (Translation Edit Rate) [107], que con-
siste en dividir el numero de ediciones (incluyendo operaciones como el desplaza-
miento de palabras) entre la media de palabras de referencia:
evalTER =cant(edits)
media(cant(ri))
PER
PER (Position-independent word Error Rate) sigue la idea de WER pero sin
tener en cuenta el orden de las palabras (es decir, que trata las oraciones como
meras bolsas de palabras), considerando las que estan en uno de los textos pero
no en el otro (dif(a, b)):
evalPER(si, ri) =max[dif(si, ri), dif(ri, si)]
|ri|
65 https://en.wikipedia.org/wiki/Word_error_rate
Capıtulo 2. Estado del Arte 71
Otras medidas
Otras posibles medidas son SSER (Subjective Sentence Error Rate), la F-
measure (usada en multitud de aplicaciones del Procesamiento del Lenguaje Na-
tural), CDer (basada en movimientos de bloques) y LEPOR. Existen ademas
diversos paquetes de medidas, como ROUGE (Recall-Oriented Understudy for
Gisting Evaluation), un conjunto que engloba e implementa algunas de las ya
vistas.
2.3.3. Nivel sintactico
Aunque la parafrasis y el textual entailment suelen considerarse desde un
punto de vista puramente semantico, Vanderwende y Dolan demostraron en [123]
que con un analisis sintactico y la ayuda de un recurso externo (en su caso, un
tesauro) se pueden testar exitosamente el 48 % de los casos de textual entailment
(sin este recurso linguıstico el porcentaje bajarıa al 34 %). Un analisis combinado
a nivel semantico y sintactico puede, ademas, ayudar a solventar problemas que
se dan al usar tan solo semantica o correspondencia entre cadenas de caracteres,
como puede ser el siguiente caso (extraıdo de [68]):
El Instituto Nacional de Psicologıa de Israel se creo en 1979.
Israel se creo en 1979.
Aun ası, la mayorıa de metodos se enfocan a la similitud semantica, como
veremos en la seccion inmediatamente posterior a esta. En el ambito sintacti-
co, la mayorıa de tecnicas actuan sobre dos tipos de representacion (arboles y
grafos), que veremos con mayor detalle. No obstante, cabe mencionar algunas
aproximaciones que no siguen esa idea, como los analisis sintacticos propuestos
en [89] o [55], donde simplemente se basan un etiquetado POS o en la busqueda
de similitud en “porciones” de dependencias, como es el caso de [23].
2.3.3.1. Arboles
A nivel sintactico, la similaridad entre oraciones se suele hacer usando arboles
de dependencia como representacion (los llamados parse trees, ver por ejemplo la
Figura 2.15). La manera mas habitual de medir la similaridad entre dos arboles
de dependencia pasa o bien por realizar un mapeo entre ambos arboles (como
Capıtulo 2. Estado del Arte 72
Figura 2.15: Ejemplo arbol de dependencias y posible parafrasis (fuente: [68]).
es el caso de [44]) o bien por usar la llamada Tree Edit Distance (TED o Dis-
tancia de Edicion de Arboles), que expresa el numero mınimo de operaciones o
cambios que habrıa que hacer entre un arbol y otro para que quedasen iguales
(siendo habitualmente estas operaciones de insercion, eliminacion o sustitucion
y teniendo distintos costes [52], pero pudiendo extenderse para el caso concre-
to de la parafrasis a mas, como proponen en [43]). Esta opcion se ha extendido
posteriormente (ver por ejemplo [2]), de manera que en vez de nodos se pueden
estudiar el numero de operaciones sobre subarboles completos de cara al textual
entailment.
2.3.3.2. Grafos
Otra opcion menos habitual es representar las dependencias sintacticas me-
diante grafos. En este caso, la opcion mayoritaria es buscar el maximal common
subsumer subgraph (MCSS), del que hablaremos mas adelante en la seccion re-
lativa a la similaridad entre grafos (ver la Seccion 2.3.4.4), en la que trataremos
ademas formas de similitud entre grafos no necesariamente linguısticos pero que
Capıtulo 2. Estado del Arte 73
tambien pueden contribuir en dicho campo.
En [92] encontramos una posible medida de similaridad orientada al textual en-
tailment (pero aplicable a la parafrasis) considerada precisamente sobre el MCSS.
Desarrollan ademas lo que denominan las “transformaciones invariantes del gra-
fo”, que engloban una serie de fenomenos en estructuras linguısticas comunes a
la hora de reformular un enunciado:
Nominalizacion: casos como La caıda de la Bolsa fue estrepitosa. y La
Bolsa cayo estrepitosamente.
Pasivizacion: como en Luis come patatas. y Las patatas son comidas por
Luis.
Negacion: puede expresarse de distintas maneras; en el caso del espanol
tenemos concretamente el caso de la doble negacion Jamas voy al parque.
y No voy jamas al parque.
Otros autores proponen medidas basadas en grafos que se apoyan tanto en la
semantica como en la sintaxis. Considerando de nuevo las transformaciones grafa-
les que pueden darse con fenomenos linguısticos como los previamente planteados
(nominalizacion y pasivizacion), en [91] usan esta aproximacion centrandose en
los “gobernadores” de cada parte de la frase, que pueden ser solo nombres o
verbos.
2.3.4. Nivel semantico
En el nivel semantico encontramos distintas maneras de medir la similaridad.
Por un lado tenemos la similaridad semantica entre conceptos, que podemos di-
vidir en dos grandes grupos [75]: por un lado, las medidas basadas en corpus
(donde encontramos medidas basadas en la co-ocurrencia de las palabras, como
en el Latent Semantic Analysis) y por otro la basadas en conocimiento (donde
la similaridad se mide de acuerdo a la informacion proporcionada por distintos
sistemas de representacion del conocimiento, tales como redes semanticas); de
cara al Estado del Arte nos centraremos principalmente en este ultimo grupo,
concretamente en las que actuan sobre redes semanticas (para medidas basadas
en otras representaciones linguısticas, como diccionarios y tesauros, se pueden
consultar [13] y [117]).
Capıtulo 2. Estado del Arte 74
Encontramos por otro lado la similaridad entre textos, de la que hablaremos
brevemente ya que, aunque esta directamente relacionada con la parafrasis, no
existe tanta bibliografıa disponible al respecto como en el caso de la similaridad
semantica entre conceptos. Finalizaremos la seccion con un repaso sobre la si-
milaridad entre grafos, forma habitual de representar oraciones y textos tanto a
nivel sintactico como semantico.
2.3.4.1. Co-ocurrencias o medidas basadas en corpus
Existen numerosas hipotesis sobre como la ubicacion de las palabras en un
texto pueden ayudar a determinar (o al menos dar indicios acerca de) la relacion
de similitud con las palabras de su entorno y con palabras que suelen aparecer
de manera similar, como la ya comentada Hipotesis Distribucional de Harris (ver
2.2.2.1). A continuacion exponemos brevemente otras hipotesis relacionadas con
esta idea tal y como aparecen en [118]:
Hipotesis Semantica Estadıstica (del ingles Statistical semantics hypot-
hesis): patrones estadısticos de como usan las palabras los seres humanos
pueden usarse para descubrir que quiere decir la gente (y esto puede estu-
diarse a partir de las frecuencias de aparicion y ubicacion).
Hipotesis Bag of Words: la frecuencia de palabras en un documento tien-
den a indicar la relevancia de dicho documento con respecto a una consulta.
Hipotesis Distribucional Extendida: los patrones que ocurren con pares
similares de conceptos tienden a tener significados similares.
Hipotesis de Relacion Latente (extension de el LSA, o Latent Seman-
tic Analysis): pares de palabras que tienden a darse en patrones similares
tienden a tener relacion de similaridad semantica (serıa justamente la idea
inversa a la expresada en la Hipotesis Distribucional Extendida).
Estas hipotesis son particularmente interesantes porque permiten descubrir
situaciones de similaridad relacional, mientras que las medidas basadas en taxo-
nomıas que veremos a continuacion suelen centrarse exclusivamente en relaciones
atribucionales.
Capıtulo 2. Estado del Arte 75
2.3.4.2. Medidas taxonomicas para conceptos
En las medidas taxonomicas en las que los arcos tienen determinados pesos
(como por ejemplo WordNet), existen cuatro factores a tener en cuenta a la hora
de asignar dichos pesos y medir las distancias [101]:
1. La densidad de la taxonomıa a nivel local: cuantos mas nodos haya en
una seccion de la taxonomıa, mas cercanos seran los conceptos a los que
representan.
2. La profundidad de la taxonomıa: relacionado con el concepto de granu-
laridad, cuanto mas profundicemos en la taxonomıa, mas sutiles seran las
diferencias entre los conceptos y mas cercanos seran entre sı.
3. El tipo de relacion: dependiendo de la taxonomıa en la que nos movamos,
encontraremos distintas conexiones entre los nodos (relaciones is-a, hiper-
onimia/hiponimia, meronimia...), y cada una tendra sus propios baremos
en lo respectivo al peso.
4. La fuerza de la conexion entre dos nodos: la distancia de un padre a cada
hijo no tiene porque tener el mismo peso. Uno de los factores que se suele
tener en cuenta en estos casos es el concepto de Contenido de Informacion
(IC), que veremos mas adelante y que se relaciona habitualmente con la
frecuencia de aparicion en un corpus.
Basadas en el camino entre conceptos
Como el propio nombre indica, la idea tras estas medidas radica en que la
similaridad entre dos conceptos se puede entender como la longitud del camino
(definida en base a los nodos o a los arcos) que une ambos conceptos y que
depende tambien la posicion de los mismos en la taxonomıa.
Rada et al La idea mas intuitiva es sin duda la introducida por Rada,
Mili, Bicknell y Blettner en 1987, que consiste en usar exclusivamente relaciones
is-a y en emplear como medida de similaridad la longitud del camino entre dos
conceptos [94].
simRal(a, b) = dist(a, b)
Capıtulo 2. Estado del Arte 76
Leacock y Chodorow Leacock y Chodorow [53] proponen como medida
“obvia” (expresion textual) medir la distancia mınima entre dos terminos, nor-
malizandola de alguna manera al tener en cuenta la profundidad maxima de la
taxonomıa en la que se esta estudiando la similaridad (ellos la proponen para
WordNet, pero podrıa aplicarse a otras). La funcion de similaridad entre dos
palabras a y b quedarıa por tanto como sigue:
simLCh(a, b) = max
(−log
(NP
2 ·D
))Donde NP representa el numero de nodos en un camino (el maximo implica
que se elegira el camino mınimo) y D simboliza la profundidad de la taxonomıa
en cuestion.
Lesk En los anos ochenta, Lesk propuso un algoritmo66 capaz de desambi-
guar terminos partiendo de la informacion de un diccionario. De dicho algoritmo
surgio la idea de que la similaridad entre dos conceptos se puede interpretar como
una funcion del solapamiento entre las definiciones de dichos conceptos [75].
Wu y Palmer Por su parte, Wu y Palmer propusieron en [130] una medida
de similaridad conceptual en el marco de la traduccion automatica entre ingles
y chino (mas concretamente, en la representacion semantica de los verbos), que
puede expresarse como sigue:
simWP (a, b) =2 · dist(R,LCS(a, b))
dist(R, a) + dist(R, b)=
2 ·D(LCS(a, b))
D(a) +D(b)
Donde dist(x, y) representa la distancia mınima entre dos nodos (en numero
de nodos), R simboliza el nodo raız de la taxonomıa, D(x) es la profundidad (de
nuevo, en numero de nodos) y LCS es el Least Common Superconcept (el padre
comun mas cercano en la jerarquıa) de los conceptos a y b.
Sussna Sussna propuso en [116] una metrica basada en el peso de las aristas
de la red, considerando que una arista equivale a dos relaciones inversas, y que
cada tipo de relacion tendra su propio rango de peso w(a −→r b) ∈ [minr,maxr].
Ademas introduce la idea de “reescalado relativo a la profundidad” (depth-relative
66 https://en.wikipedia.org/wiki/Lesk_algorithm
Capıtulo 2. Estado del Arte 77
scaling), que considera que dos conceptos hermanos a mayor profundidad en el
arbol taxonomico guardaran mayor relacion semantica que conceptos hermanos
presentes en la parte alta de la jerarquıa. La funcion de similitud queda de la
siguiente manera:
simS(a, b) =w(a −→r b) + w(b −→r′ a)
2 ·max(D(a), D(b))
con el calculo del peso efectuado de la siguiente manera:
w(a −→r b) = maxr −maxr −minr
Nr(a)
siendo Nr(a) el numero de relaciones del tipo r que salen del nodo a.
Maedche y Zacharias Por ultimo, destacamos la medida desarrollada por
Maedche y Zacharias en [65] en el marco de la Web Semantica, donde se distinguen
tres dimensiones a la hora de calcular la medida final:
Similaridad taxonomica (TS(a, b)): basada en la posicion de los concep-
tos dentro de la taxonomıa.
Similaridad relacional (RS(a, b)): basada en la relacion de los conceptos
con otros objetos.
Similaridad atributiva (AS(a, b)): basada en los atributos de los concep-
tos y sus correspondientes valores.
Cada una de estas funciones de similaridad tiene su propia definicion (para el
desglose completo, ver [65]), habitualmente basada en la media de la actuacion
de ciertas funciones sobre cada una de las relaciones y los atributos asociados a
los conceptos a comparar. Una vez se tiene esta informacion, se hace la media
aritmetica con cada una de las dimensiones, asignando pesos como se considere
necesario en cada caso:
simMZ(a, b) =wT × TS(a, b) + wR ×RS(a, b) + wA × AS(a, b)
wT + wR + wA
Li, Bandar y McLean Por otro lado, Li, Bandar y McLean desarrollaron
una metrica que considera tanto la densidad semantica como la distancia entre
los conceptos:
Capıtulo 2. Estado del Arte 78
simLBM(a, b) =eλ·wsim(a,b) − e−λ·wsim(a,b)
eλ·wsim(a,b) + e−λ·wsim(a,b)
con λ un parametro libre a determinar y wsim(a, b) siendo la maxima similari-
dad (determinada por por el antecesor comun con mayor cantidad de informacion)
entre los posibles significados que pueden tomar a y b.
Hirst y St-Onge Por ultimo, una medida menos conocida pero tambien
usada es la desarrollada por Hirst y St-Onge en [47], inicialmente pensada para
un entorno medico pero adaptada a redes semanticas como WordNet. Distinguen
entre tres tipos de posibles relaciones e imponen ciertas condiciones en los caminos
a recorrer, dando lugar a la siguiente funcion de asignacion de peso a la hora de
calcular un camino:
semHStO(a, b) = C − len(a, b)− k · cambiosd(a, b)
Donde C y k son constantes a definir dependiendo del contexto, mientras
que len(a, b) es la longitud del camino entre los conceptos y cambiosd(a, b) es el
numero de cambios de direccion en dicho camino.
Basadas en el Contenido de Informacion
Asumen la existencia de cierta informacion adicional, habitualmente suminis-
trada por un recurso externo tipo corpus.
Resnik Resnik por su parte propuso y evaluo en [97] tres posibles funcio-
nes para taxonomıas con relaciones is-a; a continuacion reproducimos la mas
utilizada, con la que introdujo el concepto de Contenido de Informacion (IC,
Information Content) entre dos conceptos:
simR(a, b) = IC(LCS)
donde
IC(x) = −log2P (x)
Capıtulo 2. Estado del Arte 79
y la probabilidad P (x) viene dada por la frecuencia de aparicion del concepto
en un recurso (habitualmente, un corpus) determinado.
Lin Otra medida de similaridad es la propuesta por Lin en [57] y [58], don-
de expone que la similaridad entre dos conceptos se mide por el ratio entre la
cantidad de informacion necesaria para determinar lo que tienen en comun (el
antecesor comun mas cercano) y la informacion necesaria para describir lo que
son, quedando la funcion:
simLin(a, b) =logP (common(a, b))
logP (describe(a, b))=
2× I(F (a)) ∩ I(F (b))
I(F (a)) + I(F (b))
donde F simboliza lo que Lin denomina las caracterısticas (las relaciones in-
dependientes entre sı) y P (X) es la probabilidad de una de estas caracterısticas
(basandose de nuevo en frecuencias de aparicion). Esta medida fue posteriormente
generaliza para ser usada en grafos en [66].
Jiang y Conrath En 1997, Jiang y Conrath proponen una metrica basada
en la presentada anteriormente por Resnik y que auna el estudio de los nodos y
de los arcos. Se considera una de las mas precisas y ha sido objeto de numerosos
estudios. A continuacion citamos solo la formula definitiva; el desarrollo completo
de dicha formula se puede encontrar en [49].
simJC(a, b) =1
IC(a) + IC(b)− 2× IC(LCS(a, b))
En [74] encontramos una comparativa (Figura 2.16) sobre algunas de las me-
didas previamente expuestas. Para otras medidas y mas informacion al respecto,
se pueden consultar [13], [117] o [74]; en la primera se realiza una experimento en
el que se determina que la medida de Jiang sobrepasa notablemente al resto de
medidas.
2.3.4.3. Medidas de similaridad para oraciones y textos
A la hora de comparar oraciones y textos, encontramos las aproximaciones
expuestas a continuacion.
Capıtulo 2. Estado del Arte 80
9
(2) parameter k needs to be adapted manually for good performance. If k=1, formula (20) is path-based; if k=0, formula (20) is IC-based measure. In the experiment in [21] k=0.5.
4. Comparison and Evaluation
Table1. Comparison of Different Semantic Similarity Measures category Principle measure features advantages disadvantages Path based
function of path length linking the concepts and the position of the concepts in the taxonomy
Shortest path
count of edges between concepts
simple two pairs with equal lengths of shortest path will have the same similarity
W&P path length to subsumer, scaled by subsumer path to root
simple two pairs with the same lso and equal lengths of shortest path will have the same similarity
L&C count of edges between and log smoothing
simple two pairs with equal lengths of shortest path will have the same similarity
Li non-linear function of the shortest path and depth of lso
simple two pairs with the same lso and equal lengths of shortest path will have the same similarity
IC based
The more common information two concepts share, the more similar the concepts are.
Resnik IC of lso simple two pairs with the same lso will have the same similarity
Lin IC of lso and the compared concepts
take the IC of compared concepts into considerate
two pairs with the same summation of IC(c1) and IC(c2) will have the same similarity
Jiang IC of lso and the compared concepts
take the IC of compared concepts into considerate
two pairs with the same summation of IC(c1) and IC(c2) will have the same similarity
Feature based
Concepts with more common features and less non-common features are more similar
Tversky compare concepts' feature, such as their definitions or glosses
take concept's feature into considerate
Computational works well when there is not a complete features set.
Hybrid method
combine multiple information sources
Zhou combines IC and shortest path
well distinguished different concepts pairs
parameter to be settled, turning is required. If turned well it may bring deviation.
4. Comparison and Evaluation
Figura 2.16: Comparativa de medidas de similaridad semantica. lso equivale ennuestra notacion a LCS (Least Common Superconcept), y representa el antecesormas cercano a ambos conceptos, el superconcepto mas especıfico; el camino mascorto (la primera medida) equivaldrıa asimismo al algoritmo de Rada et al (fuente:[74]).
Capıtulo 2. Estado del Arte 81
Semantica de las palabras
Una propuesta directamente enfocada a la identificacion tanto de textual en-
tailment como de parafrasis la encontramos en [59], con la funcion:
sim(O1, O2) =1
m
∑w1 ∈ O1 max
w2∈O2
(simw(w1, w2))
donde m es el numero de palabras en la oracion 1 (O1) y simw es una metrica
de similaridad entre palabras como las expuestas previamente.
Por su parte, Corley y Milhacea plantean en [20] las nociones de especifidad
y direccionalidad a la hora de medir la similaridad entre fragmentos de texto,
dando lugar a la siguiente funcion de similaridad direccional:
simDir(O1, O2)O1 =
∑pos(
∑wk ∈ Spos(maxSim(wk) · IDFwk
)∑wk ∈ TIposIDFwk
donde maxSim(x) representa a la palabra de O2 con mayor similaridad a
la tratada de O1 segun una medida de similaridad entre conceptos como las
ya revisadas, pos es la clase de palabra e IDF (Inverse Document Frequency)
representa una metrica clasica sobre la frecuencia de las palabras en un documento
(y que aporta una medida sobre la especifidad de las mismas). Para usar metrica
direccional para medir la similaridad a nivel de parafrasis, debemos usarla de
manera bidireccional y simetrica, resultando:
sim(O1, O2) =simDir(O1, O2)O1 + simDir(O1, O2)O2
2
Orden de las palabras
Otra idea interesante es la planteada en [56], donde la similaridad entre dos
oraciones se define como una combinacion de la similaridad semantica (Ss) y la
similaridad en el orden de las palabras (Sr), quedando la formula:
sim(O1, O2) = δSs + (1− δ)Sr = δs1 · s2‖s1‖ · ‖s2‖
+ (1− δ)‖s1‖ − ‖s2‖‖s1‖+ ‖s2‖
Capıtulo 2. Estado del Arte 82
donde δ ≤ 1 representa la importancia de la semantica frente a la sintaxis
(el orden de las palabras); dado que normalmente la segunda queda subordinada
a la primera, se recomienda elegir δ ∈ (0,5, 1]. sx representa una medida de
similaridad (en la propuesta se usa una basada en informacion, pero podrıan
usarse otras opciones) y rx es un vector que representa el orden de las palabras
(por ejemplo, los vectores de “Luis come patatas.” y “Patatas come Luis.” serıan
(1, 2, 3) y (3, 2, 1), respectivamente).
Diferencias
Otra idea interesante es combinar la habitual perspectiva de buscar la similari-
dad entre frases con la de buscar diferencias entre ambas. Este es el planteamiento
propuesto por Ho et al. en [48], donde la medida de similaridad viene dada por la
similaridad semantica Sim(O1, O2) y la distancia entre las oracionesDist(O1, O2):
sim(O1, O2) =α× Sim(O1, O2)
α× Sim(O1, O2) + β ×Dist(O1, O2)
con α y β factores de suavizado. La distancia viene a su vez de la propuesta
de buscar las diferencias entre palabras en textos cortos expuesta por Liu en [60].
Uso de Roles Semanticos
En caso de representar oracion a oracion, una posible medida de similaridad
la encontramos en [104], donde Shen y Lapata utilizan los Roles Semanticos para
realizar la division del grafo en subgrafos que comparan preguntas y sus posibles
respuestas para luego sumar sus similaridades de cara al global de la oracion,
como vemos en la siguiente formula:
simSubGs(SubG1, SubG2) =∑
ndSR1 ∈SubG1
ndSR2 ∈SubG2
ndSR1 =ndSR
2
1
|s (ndw, ndSR1 )− s (ndw, ndSR2 )|+ 1
donde ndSR1 y ndSR2 representan los nodos semanticamente conectados un nodo
ndw parte de un frame en su correspondiente subgrafo (SubG1 o SubG2, respecti-
vamente) y s(ndw, ndSRx
)es el peso de la arista que une dos nodos en su subgrafo.
Otra opcion reciente que involucra los Roles Semanticos para alinear dos frases
Capıtulo 2. Estado del Arte 83
candidatas a ser similares es TINE, la propuesta por Rıos et al. en [98] y [99];
usan distintos recursos externos que ayudan tanto en la identificacion de los ro-
les asociados a los verbos como en la identificacion de Entidades, otro punto
clave a la hora de comparar dos oraciones. Para una revision mas completa de
metodos clasicos de colecciones que tambien pueden usarse en oraciones, como el
coeficiente de Jaccard, ver [101] o [1].
2.3.4.4. Similaridad entre grafos
Existen muchas posibilidad distintas a la hora de medir la similaridad entre
grafos con atributos, destacando entre ellas la GED o Graph Edit Distance, si-
milar a la previamente vista TED. Asimismo, dentro de GED existen diversas
aproximaciones, como los algoritmos basados en SOM, los basados en kernel o en
probabilidad y los basados en grafos y supergrafos. Por su frecuente aplicacion al
campo de la similaridad semantica, nos centraremos solo en estos ultimos; para
mas informacion en las otras aproximaciones, ver [37].
Conceptos previos
Debemos comenzar por definir que es exactamente un grafo. Un grafo [14]
es una tripleta G = (V, α(x), β(x, y)) donde V representa los vertices del grafo,
α(x) : V −→ L son las etiquetas de los nodos y β(x, y) : V × V −→ L las
etiquetas de las aristas. Diremos que G1 = (V, α(x), β(x, y)) es supergrafo de
G2 = (V ′, α′(x), β′(x, y)) (yG2 es por tanto subgrafo deG1) si se dan las siguientes
condiciones:
V ′ ⊆ V ,
α(x)′ = α(x)∀x ∈ V ′,
β′(x, y) = β(x, y)∀x, y ∈ V ′ × V ′
Asimismo, un isomorfismo se define como la relacion biyectiva f(x, y) : V −→V ′ entre dos grafos G1 = (V, α(x), β(x, y)) y G2 = (V ′, α′(x), β′(x, y)) tal que:
α(x) = α′(f(x))∀x ∈ V ,
β(x, y) = β′(x, y)∀x, y ∈ V × V
Capıtulo 2. Estado del Arte 84
Figura 2.17: Ejemplo de overlap enGrafos Conceptuales. Fuente: [82]
Si para dos grafos existen dos subgra-
fos contenidos en ellos entre los cuales exis-
ta una funcion de isomorfismo, estos sub-
grafos se consideran subgrafo comun; si no
existe otro subgrafo comun con mas nodos,
se considerara el Subgrafo Comun Maximo
(en ingles, MCSS). Aunque muchos auto-
res se basan en este MCSS, existe tambien
se ha propuesto el concepto de Minimum
Common Supergraph a la hora de plantear
metricas de comparacion de grafos [33].
Por ultimo, una distancia de edicion entre grafos (GED) entre dos grafos es el
coste mınimo de realizar las operaciones de insercion, eliminacion y sustitucion
sobre los arcos y/o los vertices para alcanzar la isomorfıa.
Comparacion de Grafos Conceptuales
A la hora de comparar dos grafos conceptuales, la mayorıa de tecnicas se basan
en el mapeo directo entre conceptos. Esto implica la siguiente terminologıa, segun
[82] y [81]:
Una serie de grafos son compatibles si existen mapeos entre ellos tales que
dichas proyecciones no intersequen entre sı.
Si dos grafos conceptuales son solapados (overlap) si son compatibles y
maximales. Este concepto es fundamental a la hora de decidir la similaridad,
ya que cada overlap (pueden darse varios) definira una similaridad distinta
(los grafos pueden ser similares o no dependiendo tambien del punto de
vista desde el que se enfoque). La idea intuitiva del solapamiento queda
bien ilustrada en la Figura 2.17, tomada de [82].
La medida de similaridad usada por excelencia en Grafos Conceptuales es la
adaptacion del ya mencionado coeficiente de Dice, que segun lo propuesto por
Montes-y-Gomez et al. en [81] permite la distincion entre distintos tipos de con-
ceptos (dando distintos pesos w(c) a casos concretos, como entidades, atributos,
acciones...) y tiene la siguiente forma en su aplicacion a Grafos Conceptuales:
Capıtulo 2. Estado del Arte 85
simDice = 2 ·∑
c∈∪O(w(c)× β(πG1(c), πG2(c)))∑c∈G1
w(c) +∑
c∈G2w(c)
donde⋃O representa el conjunto de los nodos y arcos de los grafos de un
overlap entre G1 y G2, πGx(c) representa el concepto involucrado en el mapeo
en cada uno de los Grafos conceptuales y β(πG1(c), πG2(c)) denota por tanto la
relacion de similaridad entre los conceptos mapeados. En base a esta definicion,
los autores de [81] desarrollaron su propia definicion de la similaridad relacional,
expresada como sigue:
simrel = 2 ·∑
r∈O wO(r)∑r∈NO(G1)
wG1(r) +∑
r∈NO(G2)wG2(r)
donde NO(Gx) es el conjunto de las relaciones conectadas al grafo comun en (Gx)
y la importancia de una relacion viene dada por su peso wO(r), calculado en
funcion de los vecinos para normalizar.
A continuacion se combinan ambas similaridades (conceptual de Dice y rela-
cional), originando la siguiente funcion de similaridad:
simCG = simDice × (a+ b× simrel)
donde cabe resenar que a + b = 1 (los valores concretos dependeran de que
aspecto, conceptual o relacional, se desee enfatizar en mayor medida) y que el
hecho de no existir similaridad relacional no implica necesariamente que la simi-
laridad global sea 0.
Otro planeamiento interesante es el posteriormente realizado por Zhong en [131],
donde distingue tambien los niveles de similaridad relacional (simr) y conceptual
(simc) a la hora de comparar los conceptos entrada de cada subgrafo; concreta-
mente, en la formulacion original se comparan queries y recursos, pero es aplicable
a Grafos Conceptuales genericos. La definicion es recursiva (el concepto en el sub-
grafo asociado con la relacion sera la entrada del siguiente subgrafo a comparar,
y ası sucesivamente) y se puede enunciar como sigue:
simCG = w(c1, c) · simc(c1, c2)
+ max∀comb
(∑j w(c1, j) ·r
(rjG1
, rjG2
)·[simCG
(crrG1G1, crrG2G2
)])
Capıtulo 2. Estado del Arte 86
debiendo cumplirse
w(c1, c) +∑j
w(c1, j) = 1
donde w(c1, c) representa el peso de la entrada y w(c1, j) es el peso de la i-esi-
ma relacion asociada a la entrada.
Por ultimo, destacamos una de las primeras medidas de comparacion de Gra-
fos Conceptuales: la planteada por Maher en [67], que considera en un primer
momento la similaridad local entre conceptos para luego extenderla al total del
Grafo Conceptual. La medida toma en consideracion factores como el numero de
nodos o los referentes de la oracion. Otras opciones pasan por la busqueda directa
de patrones en dominios concretos [4], el uso de algoritmos genericos para hallar
dichos patrones o incluso usar la informacion mutua; para mas informacion sobre
estas aproximaciones, se puede consultar [36].
Un ejemplo de por que estas medidas no pueden usarse per se en el caso de
la identificacion de la parafrasis la encontramos en [81], donde la metrica de simi-
laridad de las frases toma valores muy altos pese a no expresar los mismo (pero
usar la misma estructura y las mismas palabras): las frases Bush critica a Gore y
Gore critica a Bush obtienen similaridades de entre el 0,84 y el 0,9 (dependiendo
de los parametros a y b). No obstante, la introduccion de ciertas modificaciones
en combinacion con la idea del overlap puede dar lugar a resultados mejores.
2.4. Conclusiones
A partir del Estado del Arte expuesto previamente podemos concluir que que-
da aun mucho trabajo por hacer en el ambito de la parafrasis, ya que los enfoques
actuales son claramente insuficientes tanto a nivel de representacion como de de-
terminacion de la similaridad y de deteccion la propia parafrasis, limitandose en
la mayorıa de los casos a la deteccion de una similaridad puramente semantica,
tematica, sin ahondar en ningun momento en el verdadero contenido del texto.
A continuacion se exponen de manera concisa algunos de los problemas que se
han detectado en los modelos planteados hasta ahora, derivados del estudio de la
seccion anterior.
Capıtulo 2. Estado del Arte 87
Uno de los problemas mas evidentes es la brecha existente entre los modelos
linguısticos y los computacionales; mientras que los primeros son difıciles de lle-
var a la practica y en la mayorıa de casos solo sirven como referencia meramente
teorica, los segundos presentan evidentes carencias a nivel de representacion y de
concepto, consistiendo en muchas ocasiones en repositorios de parafrasis estati-
cos. Los sistemas basados en estos repositorios son habitualmente incapaces de
detectar las nuevas formas de expresar contenido que surgen inevitablemente con
la evolucion del lenguaje y con los cambios de registro que encontramos en las
diferentes lenguas, culturas y ambitos sociales, ademas de funcionar exclusiva-
mente para un unico idioma. Otro factor relevante sera la representacion, pues la
que elijamos para los textos tambien jugara un papel fundamental, dado que los
modelos de deteccion y gestion de la parafrasis suelen actuar sobre sistemas de
representacion concretos (habitualmente, arboles). Respecto a los grafos, aunque
existen ideas interesantes a nivel de similaridad (como el comentado overlap o la
division en subgrafos), la deteccion de la parafrasis no es aun efectiva en este tipo
de representacion.; si nos centramos concretamente en el uso de grafos UNL para
la representacion, destacarıa como camino a seguir la propuesta de Zhong sobre
las entradas de los subgrafos y su tratamiento recursivo (ademas de la idea de
la similaridad relacional y conceptual), pero tampoco resultarıa suficiente por sı
misma para el tratamiento de la parafrasis.
Otro problema viene dado por el propio contexto en el que se desarrolla la situa-
cion descrita por un texto, que va a influir de manera determinante en la propia
definicion de la similaridad, tanto semantica como en lo concerniente a la correc-
ta identificacion de los marcos; esto se refleja tambien a la hora de verificar el
funcionamiento del modelo, dado que las pruebas y la validacion suelen necesitar
en algun momento de supervision directa de una o varias personas (recordemos
que la parafrasis no deja de ser un fenomeno subjetivo, difıcil de decretar in-
cluso para seres humanos e incurriendo en muchas ocasiones en desacuerdos al
respecto). Existen tambien, como ya hemos visto previamente, baterıas y corpus
de parafrasis, pero dadas la ambiguedad y el vasto rango de situaciones (y sus
respectivas posibles parafrasis), estos recursos no estan en posicion de asegurar
ni desestimar realmente ningun modelo.
Capıtulo 3
Definicion del Trabajo
3.1. Introduccion y motivacion
Para cubrir, paliar y dar solucion y respuesta a algunos de los problemas
expuestos en las conclusiones del Estado del Arte, en esta tesis presentaremos
un modelo de deteccion de la parafrasis basado en el sistema de representacion
UNL, que nos ofrece una representacion interlingual y sin ambiguedad. En el
plano teorico, se han desarrollado tambien una serie de hipotesis linguısticas cen-
tradas en el propio modelo, al tiempo que se han definido distintas tecnicas de
similaridad semantica y un algoritmo de comparacion de grafos.
Una de las conclusiones principales que obtenemos de la revision del capıtulo
anterior es que la parafrasis es un fenomeno extremadamente complejo que puede
entenderse y darse en muchas dimensiones, por lo que la propuesta de un modelo
general es un proyecto excesivamente ambicioso no ya para una Tesis de Fin de
Master, sino tambien para una Tesis Doctoral o incluso un proyecto de investi-
gacion a mas largo plazo y alto nivel. Es por ello que debemos necesariamente
delimitar los objetivos de la presente tesis, incluyendo al tiempo una serie de asun-
ciones y restricciones acordes al tiempo disponible y la profundidad alcanzable
en una Tesis de Fin de Master. A continuacion se listan las hipotesis, asunciones,
restricciones, limitaciones y objetivos a alcanzar en el presente trabajo, ası como
el metodo de validacion de los mismos. Posteriormente se procedera a exponer
los detalles del modelo; primero repasaremos brevemente ciertos puntos clave de
UNL a tener en cuenta, despues hablaremos de los componentes desarrollados pa-
88
Capıtulo 3. Definicion del Trabajo 89
ra el modelo y finalmente expondremos el procedimiento de comparacion, junto
con algunos ejemplos sencillos de aplicacion y su validacion en un texto completo.
3.2. Hipotesis de trabajo
Las hipotesis del modelo son las siguientes:
Trabajaremos sobre el sistema de representacion UNL.
El modelo verificara la existencia de parafrasis entre dos frases, la negara o
informara si no hay un resultado concluyente.
El modelo realizara la comparacion de los documentos oracion a oracion,
asumiendo que las oraciones estan por tanto en el mismo orden en ambos
textos y que no se dan casos de segmentacion.
No cubriremos fenomenos como la consecuencia logica o los marcos semanti-
cos (en este caso el modelo respondera que no existe la parafrasis o que no
se puede alcanzar un resultado concluyente).
Consideraremos que dentro de las cuatro categorıas ontologicas que puede
tener una palabra universal (sustantivo, verbo, adjetivo y adverbio), la car-
ga del significado, el nucleo de los grafos y los subgrafos en los que
dividiremos los grafos de cara a su mapeo, comparacion y contrastado, seran
los sustantivos y los verbos, mientras que se considera que los adverbios
y los adjetivos cumpliran fundamentalmente una funcion de modificacion
de dichos nucleos. Los sustantivos y los verbos pueden aparecer tambien
como modificadores, pero en dicho caso la relacion UNL correspondiente lo
definira como tal, por lo que estos casos no contradiran la hipotesis, ya que
seran el nucleo de otro subgrafo que realizara la modificacion (normalmente
introducida por conjunciones o preposiciones).
Los verbos sinonimos deben tener las mismas restricciones ontologicas (es
decir, que deben ser de la misma categorıa icl>do, icl>occur o icl>be), y
por tanto sus argumentos basicos (mas adelante matizaremos este termino)
deben corresponderse. Por supuesto, la misma informacion puede reescri-
birse con verbos de distinta categorıa, pero en este caso no seran verbos
Capıtulo 3. Definicion del Trabajo 90
sinonimos y por tanto la correspondencia debera buscarse en nodos y sub-
grafos apuntados por relaciones de distinto tipo (entrarıamos en los marcos
semanticos, que queda fuera de esta Tesis de Fin de Master).
3.3. Asunciones
Dado que, como hemos comentado ya, el alcance del problema es muy grande
y difıcil de abarcar, partiremos para la elaboracion del modelo de las siguientes
asunciones:
Al ser una representacion interlingual, asumiremos que se podrıa generali-
zar a comparaciones de grafos obtenidos a partir de cualquier lengua (los
ejemplos elegidos estan en ingles y en espanol).
Asumiremos que los grafos estan bien construidos, sin ningun tipo de am-
biguedad, y siguiendo siempre las reglas de las especificaciones del sistema
UNL. Careceran asimismo de errores ortograficos, tipograficos o sintacticos.
3.4. Restricciones y limitaciones
Dada la limitacion temporal y la complejidad del trabajo, se imponen tambien
las siguientes restricciones:
Los grafos se obtendran de textos en espanol e ingles codificados a mano
(como ya mencionamos en las asunciones, esto no supone que el modelo no
funcione para grafos obtenidos de cualquier lengua, se hace ası por cues-
tiones practicas y de disponibilidad, ya que tampoco existe un repositorio
publico de grafos UNL).
No contemplaremos dialogos, tan solo textos escritos (ya que los dialogos
pueden incluir muchos mas matices y quedan fuera del alcance de una Tesis
de Fin de Master).
Nos ceniremos al analisis de grafos sin hipernodos, con frases simples.
No cubriremos el fenomeno del textual entailment, ya que harıa necesario
el uso de bases de conocimiento.
Capıtulo 3. Definicion del Trabajo 91
Dado que, como ya mencionaba Javier Garcıa Sogo en su tesis [38], existen
ciertas carencias en los recursos de UNL (como que no existen ni la onto-
logıa ni una jerarquıa de palabras universales UNL), usaremos una medida
de similaridad basada en las rescticciones de las palabras universales. Las
palabras universales las codifican a mano distintos especialistas UNL de di-
versos paıses, por lo que aunque hay cierta estandarizacion, es posible que
en algunos casos no aporten suficiente informacion para determinar la simi-
laridad. En estos casos, asumiremos el uso de recursos externos por medio
de las headwords de las palabras universales.
3.5. Objetivos
En cuanto a los objetivos, se pueden extrapolar directamente de las hipotesis
mencionadas previamente:
Definicion de un modelo que permita asegurar que dos documentos tienen
el mismo significado.
Creacion de una jerarquıa de relaciones UNL (esto se ha intentado sin exi-
to previamente) y organizacion de los atributos, ası como establecimiento
formal de las relaciones entre ellos.
Creacion de una medida de similaridad sobre palabras universales.
Creacion de un repositorio de parafrasis para testar el modelo comparativo.
Automatizacion de la comparacion de grafos a nivel de la informacion que
contienen, y no solo a nivel semantico (pues esto ya se intento, ver la tesis
[38]).
3.6. Metodo de validacion
Para comprobar que se han cumplido las hipotesis planteadas en el modelo,
se buscara por un lado la aprobacion teorica de un equipo de linguistas y por
otro se realizara una implementacion parcial del modelo (dada la magnitud del
area en cuestion es imposible realizar una implementacion del total del modelo
en el tiempo concedido a la realizacion de un Trabajo de Fin de Master) de
Capıtulo 3. Definicion del Trabajo 92
cara a su aplicacion a un texto completo y a una version modificada del mismo,
buscando los puntos en los que dicho texto se ha modificado y comprobando si
estos cambios implican que el significado se mantiene o no. Cabe resaltar que
dada la complejidad del tema a tratar, el modelo parte de que si la parafrasis no
es clara, va a decir que puede que exista o directamente que no existe (ya que en
este contexto consideramos preferible un falso negativo que un falso positivo).
Capıtulo 4
Modelo propuesto
4.1. Bases teoricas del modelo
4.1.1. Perspectiva sintactica
A nivel sintactico, el modelo desarrollado se sustenta sobre el sistema UNL,
sobre sus atributos y sobre los roles semanticos representados en el mismo me-
diante relaciones. Estos elementos tienen a su vez una gran influencia de la Teorıa
del Texto-Significado de Igor Mel’cuck, ya que en UNL se ven realizadas algunas
de las ideas planteadas por el, como es el caso de las funciones lexicas.
Ya hemos comentado ampliamente las propiedades de UNL como sistema de
representacion del conocimiento interlingual (aunque antes de exponer el modelo
propuesto repasaremos los conceptos mas importantes sobre los que se sustenta
el mismo). No obstante, nunca se han intentado explotar estas propiedades en el
ambito de la parafrasis, orientandolo a una comprobacion de similitud de conteni-
dos (lo mas cercano que encontramos se da en una tesis de Fin de Master de anos
anteriores [38], desarrollada en el seno del mismo grupo de investigacion, donde
se intento llevar a cabo una medida de similitud entre grafos, pero exclusivamente
a nivel de similaridad semantica). Se ha intentado en numerosas ocasiones ([16])
realizar una jerarquıa de relaciones generica, pero dichos esfuerzos han sido in-
fructuosos, en parte debido a que (en opinion de la autora), esta jerarquizacion
debe basarse en el uso para el cual se esta desarrollando para poder resultar ver-
daderamente util. Es por ello que sera necesaria un estudio de dichas propiedades
(principalmente de las relaciones y los atributos UNL) de cara a la constitucion
93
Capıtulo 4. Modelo propuesto 94
del modelo desde el punto de vista sintactico y orientado concretamente a la tarea
de la parafrasis. Este estudio derivara, entre otros, en nuestra propia jerarquıa de
relaciones. Explicaremos en detalle este trabajo en la siguiente seccion.
Respecto al propio fenomeno de la parafrasis, intentaremos usar los distintos
elementos de UNL para gestionarla, ya que sus propiedades lo hacen idoneo como
sistema de representacion para intentar gestionar la parafrasis. No obstante, el
propio sistema impondra tambien ciertas limitaciones, entre las que destaca la
falta de una ontologıa o de una medida de deteccion de la similaridad semantica.
4.1.2. Perspectiva semantica
A nivel semantico, un elemento importante a tener en cuenta en la parafrasis es
sin duda la similitud semantica, dado que la sintactica vendra dada por el propio
sistema de representacion y las consideraciones anadidas al mismo en el modelo.
Como ya hemos comentado anteriormente, no existe una ontologıa de UNL en la
que poder aplicar las medidas vistas en el Estado del Arte, por lo que en trabajos
anteriores se ha recurrido a recursos externos como WordNet. En nuestro caso,
hemos considerado mas interesante para cubrir esta necesidad la creacion de una
nueva medida de similaridad basada exclusivamente en la representacion UNL,
evitando ası arrastrar los errores y limitaciones de dicho recurso. Expondremos
nuestra medida mas adelante.
4.1.3. Comparacion de grafos
Disponiendo de estas bases teoricas, lo que nos falta es un modelo que conjugue
todas ellas y permita comparar dos grafos UNL. Desarrollaremos para este fin
un algoritmo con el que poner en practica las ideas desarrolladas en el modelo
expuesto en las siguientes secciones.
4.2. Puntos claves de UNL sobre los que se asien-
ta el modelo
Antes de pasar al modelo, repasaremos los conceptos de UNL relevantes para
su constitucion, que nos llevaran intuitivamente al modelo plantado.
Capıtulo 4. Modelo propuesto 95
Figura 4.1: Un ejemplo de @entry verbal (senalado en rojo). La frase original es“Ella permanecio en silencio”.
4.2.1. Elementos de la oracion en UNL
4.2.1.1. @entry, el nucleo de la frase
A la hora de comparar dos grafos, debemos comenzar por algun punto deter-
minado. Para ello usaremos el concepto de @entry : en un grafo UNL, el @entry
es un atributo especial obligatorio que identifica “la entrada”, el punto mas rele-
vante de la frase, el nodo que tienen mas importancia. Suele ser un verbo (como
es el caso de la Figura 4.1), pero tambien puede ser un sustantivo, como en la
Figura 4.2; en casos muy concretos y poco frecuentes, los @entry tambien pueden
ser adverbios y adjetivos.
De este nodo @entry iran surgiendo distintas relaciones UNL, que apuntaran
a otros nodos que a su vez apuntaran a otros (creando ası subgrafos y dando
un orden de prioridad en el que mirar las relaciones a la hora de contrastar la
parafrasis, como podemos observar en la Figura 4.2).
4.2.1.2. Categorıas gramaticales
Para determinar la similaridad semantica entre palabras universales, debemos
fijarnos en sus dos componentes: la headword y el contenido de sus restriccio-
nes, que dependeran del tipo de palabra. Dentro de UNL encontrabamos cuatro
posibles categorıas, con distintas restricciones:
1. Verbos: que podıan ser de tres tipos (do o de accion, occcur o de proce-
so y be o de estado) y partiremos de la hipotesis de que verbos sinonimos
van a ser del mismo tipo de verbo. Ademas de esta tipologıa, las palabras
universales (o UWs) incluyen en su descripcion las relaciones argumentales
Capıtulo 4. Modelo propuesto 96
Figura 4.2: Un ejemplo de @entry sustantivo (senalado en rojo). La frase originales “Una galerıa de arte rica en pinturas de los artistas holandeses”. Podemosademas observar los distintos subgrafos que se van creando.
que le acompanan y de que tipo deben ser las mismas; opcionalmente tam-
bien puede tener otras restricciones. En definitiva, los indicios que pueden
ayudar a determinar la similaridad semantica entre dos verbos UNL son:
Headword: nos va a permitir identificar la palabra universal y, en caso
de que la jerarquıa UNL resulte insuficiente para la determinacion de
la similaridad, buscar la palabra en otros recursos (como tesauros o
redes semanticas).
Hiperonimos e hiponimos (expresados como icl, y que llegan a uno de
los tres tipos de verbos, pasando por otros), como es el caso del ejemplo
de la UW buy(icl>get>do, agt>thing), de donde extraemos que get
es un hiperonimo de buy.
Sinonimia (relacion equ) y antonimia (ant) con otros verbos (como en
sell(icl>transact>do, equ>deal, agt>thing, obj>thing)).
Las restricciones de dominio, meronimia y contexto (fld, pof y com)
no nos ayudar a determinar la sinonimia, pero pueden aportar pistas
sobre la palabra de cara a su ubicacion en un mapa semantico.
Capıtulo 4. Modelo propuesto 97
Las restricciones argumentales sobre que roles intervienen en la accion
del verbo. Si dos verbos son sinonimos en una misma situacion, deben
estar tambien relacionados con los mismos agentes de dicha relacion.
Encontramos un ejemplo de esto en los dos siguientes verbos:
demonstrate(icl>show>do,equ>exhibit,agt>thing,obj>uw,rec>thing)
expose(icl>show>do,equ>exhibit,agt>thing,obj>thing,rec>thing)
donde vemos que comparten el mismo sinonimo exhibit, la misma posicion
en la ontologıa (ambos son del tipo do e hiponimos de show), ademas de
tener las mismas relaciones; aunque en el caso de demonstrate el obj no
tiene por que ser de tipo thing, y puede ser cualquier palabra universal, la
sinonimia se conservara siempre que en las oraciones a comparar se cumplan
las restricciones de ambos (es decir, que el objeto sea thing). Podemos por
tanto concluir que en el caso de que el obj sea thing, los verbos pueden ser
sinonimos (es decir, cuando se cumpla que la interseccion de los requisitos
de los dos verbos no es vacıa).
2. Sustantivos: Ademas de los criterios anteriores (tambien aplicables a los
sustantivos), en los sustantivos UNL encontramos otra posible restriccion
ontologica: iof, o ’instancia de’. Esto se aplicara solo a las entidades, y sera
completamente discriminante (en nuestro modelo, una entidad solo puede
corresponderse consigo misma).
3. Adjetivos y adverbios: los adjetivos y los adverbios son muy parecidos
en UNL. Ambos comparten una jerarquıa muy similar:
Adjetivos: cualitativos, cardinales, ordinales, temporales y de lugar.
Adverbios: de tiempo, lugar, causa, cantidad, manera y modo.
Si pertenecen a otras subclases, simplemente se marca la clase gramatical
(adj o adv), como es por ejemplo el caso del adjetivo absent(icl>adj). Los
adjetivos y adverbios sinonimos deberan ser de la misma subclase, y pueden
tener tambien relaciones de tipo equ y ant que ayuden en la deteccion de
la similaridad.
Capıtulo 4. Modelo propuesto 98
4.2.1.3. Atributos
Por ultimo, otro punto relevante en los grafos UNL sera la presencia de los
atributos. Como ya mencionamos, los atributos son libres (hay una lista de ellos,
adjunta como Anexo B) pero cualquiera de los investigadores involucrados en el
proyecto puede crear uno y usarlo sin necesidad de consulta o consenso), por lo
que no es trivial analizarlos todos. No obstante, algunos han llegado a convertir-
se en estandar: el de negacion, el que determina el numero, el tiempo verbal...
aprovecharemos su presencia para descartar la parafrasis en algunos casos.
4.3. Modelo
Pasamos ahora a ver el modelo y los distintos elementos que lo componen. Pri-
mero, siguiendo con las caracterısticas de UNL explicadas en la seccion anterior,
veremos una jerarquıa con las equivalencias entre relaciones UNL desarro-
llada exclusivamente para el tratamiento de la parafrasis. Despues se expondran
una serie de correspondencias entre grafos con distintos tipos de verbos o
correspondencias especiales y una seleccion de atributos que pueden llevar a
descartar la parafrasis en ciertos casos. Finalmente se explicara la medida de
similaridad, creada tambien exclusivamente para la parafrasis.
4.3.1. Jerarquıa de relaciones
Como ya hemos comentado con anterioridad, un punto clave en el proceso
de corroborar la parafrasis entre dos oraciones se da a nivel sintactico. UNL re-
sulta de gran utilidad en este punto, ya que transforma y expresa las relaciones
sintacticas clasicas en una serie de relaciones clave limitadas (expuestas en detalle
en el Anexo A). No obstante, estas relaciones pueden corresponderse entre sı en
las distintas maneras de expresar la misma informacion. La pregunta, por tanto,
sera donde debemos buscar la informacion de cada parte de la frase. En el caso
por ejemplo de tener informacion de lugar, como “Ire de vacaciones a Roma”
y “Pasare mis vacaciones en Roma”, las dos frases expresan lo mismo, pero en
la primera Roma aparecerıa en UNL como la relacion PLT (place to), mientras
que en la segunda lo harıa como PLC (place), donde ocurre la accion. Debemos
por tanto establecer una organizacion de las relaciones UNL, un sistema de co-
rrespondencia que nos indique que relaciones debemos mirar en un grafo B para
Capıtulo 4. Modelo propuesto 99
Relaciones UNL
Básicas Argumentales
Modificadores
Grupo 1 OtrosGrupo 2bis Grupo 3Grupo 2 Mod1 ModSC ModS3ModS2
A nivel de subgrafo
Figura 4.3: La jerarquıa propuesta para el modelo de gestion de parafrasis sedivide en relaciones basicas argumentales y relaciones modificadoras, conteniendocada uno de estos tipos a su vez una serie de distintas clases de relaciones.
contrastar la informacion de una determinada relacion del grafo A.
Es por ello que de cara a la constitucion del modelo se ha realizado una ta-
rea de jerarquizacion de las relaciones UNL, que se expone detalladamente a
continuacion. Las relaciones se dividiran en dos grandes grupos: modificadores y
relaciones basicas argumentales, como podemos ver en la Figura 4.3.
4.3.1.1. Relaciones basicas
Por un lado tenemos las relaciones basicas de cada verbo, sus argumentos, que
describen las circunstancias y las partes que intervienen en el evento, propiedad o
accion que expresan. La informacion que representan estas relaciones aparecera,
por tanto, en cualquier otra expresion de la misma situacion; de otra manera, en-
tenderemos que no puede darse la parafrasis. Segun las guidelines de UNL, para
cada uno de los tipos de verbo en UNL existe una relacion basica obligatoria y una
serie de relaciones argumentales accesorias que pueden darse o no (pero en caso
de darse, deben tener correspondencia en un segundo grafo con parafrasis). Las
relaciones basicas y su nivel de importancia podemos encontrarlas en la Tabla 4.1.
Estas relaciones, por tanto, deben corresponderse exactamente entre una frase
y otra en caso de tener el mismo tipo de @entry. Imaginemos en este contexto las
frases “Luis (AGT) compra pan (OBJ) con Laura (PTN)” y “Luis (AGT) com-
pra pan (OBJ)”. El hecho de que en la segunda oracion no este la relacion PTN
Capıtulo 4. Modelo propuesto 100
Tipo Grupo 1 Grupo 2 Grupo 2bis Grupo 3 Otras
icl>do AGT OBJSRCGOL
COBREC
PTN
icl>occur OBJSRCGOL
COBREC
icl>be AOJ OBJSRCGOL
COBREC
Tabla 4.1: Relaciones basicas UNL para el modelo. En la primera columna encon-tramos el tipo de verbo segun las restricciones ontologicas de dicha categorıa. Lasegunda columna (Grupo 1) es la relacion argumental basica obligatoria para elcorrespondiente tipo de verbo. Las siguientes columnas son relaciones argumenta-les que pueden aparecer o no en la frase, por orden de importancia y de mencionen la forma tabular del grafo.
.
indica que es imposible que ambas puedan decir lo mismo, ya que es una relacion
argumental.
4.3.1.2. Modificadores
Dentro de los modificadores encontramos cuatro subgrupos o niveles, diferen-
ciados por el nivel de profundidad dentro del grafo en el cual los encontraremos y
por el tipo de nodo al que modifican (dentro de las categorıas gramaticales). Co-
mo veremos a continuacion, el primer grupo se distingue por ser un modificador
verbal, que actua normalmente a nivel oracional (a no ser que nos encontremos
ante una frase con varios verbos), mientras que los otros tres grupos modifican
dentro de un subgrafo, habitualmente con nucleo sustantivo.
Modificadores de primer nivel (Mod1)
Son los modificadores del verbo, actuan normalmente a nivel de la frase (o en
compuestas subordinadas o coordinadas). Intuitivamente podrıamos relacionarlos
con los complementos circunstanciales. Encontramos en este tipo de modificador
las siguientes subclases, indicando al lado de cada relacion sus posibles equivalen-
cias o mapeos en otro grafo:
Modificadores Semanticos: influyen semanticamente en la frase. Son los
siguientes.
Capıtulo 4. Modelo propuesto 101
RelacionPosibles
equivalenciasEjemplos
BEN PUR, RSN Lo compre para ti (BEN, beneficiario).PUR BEN, RSN Lo compre para regalartelo a ti (PUR, proposito).RSN PUR, BEN Lo compre por ti (RSN, razon).CON
Tabla 4.2: Correspondencias entre relaciones modificadoras semanticas, junto conalgunos ejemplos.
.
Modificadores de Lugar: indican informacion sobre el emplazamiento de
la accion. Cada relacion incluye un pequeno matiz en la informacion, y la
relacion suele depender del verbo que se use (como veıamos en el ejemplo
expuesto previamente con “pasar las vacaciones en” e “ir de vacaciones
a”).
• PLC: relacion generica de lugar. Puede implicar los siguientes matices:
◦ PLT: lugar final o destino de la accion.
◦ PLF: lugar inicial o del que surge la accion (puede equivaler tam-
bien con SRC, fuente, en algunos contextos).
◦ VIA: lugar o estado intermedio. Tambien puede indicar modo,
como veremos mas adelante.
• FRT: de-a (from-to), indica un recorrido o un transcurso.
Modificadores de Tiempo: indican la situacion temporal de la accion.
• TIM: el equivalente temporal a PLC, como en “Abre temprano” se puede
relacionar con:
◦ TMF: momento inicial (“Abre desde las 8”).
◦ TMT: momento final (“Abre hasta las 5”).
◦ DUR: duracion (“Abre durante 7 horas”).
TIM tambien puede mapearse en algunas ocasiones con las siguientes
relaciones:
• COO: coocurrencia de dos sucesos. La frase “Ver la tele mientras desa-
yuno” implica dos acciones simultaneas, pero tambien da informacion
Capıtulo 4. Modelo propuesto 102
temporal del suceso ver la tele, y podrıa considerarse equivalente a
“Ver la tele a la hora del desayuno” (que se representarıa como TIM).
El de COO es un caso controvertido, pues ademas de tiempo puede
expresar tambien modo (como en “Cruzar corriendo”).
• FMT (relacionado ademas con DUR y TMF y TMT): rango, no necesaria-
mente temporal (aunque suele serlo) (“Abre de 5 a 8”).
Modificadores de Modo: indican como se realiza la accion.
• MAN: la manera de hacer algo, se relaciona con elementos de otros gru-
pos, como PTN (companıa), OBJ (objeto, mas adelante veremos un caso
concreto de esta equivalencia), QUA (cantidad) o VAL (valor); esto se
debe a como se realice la traduccion a UNL, pues depende mucho de la
percepcion de quien codifique el proceso). Otras relaciones que tambien
pueden contener la misma informacion son las siguientes:
◦ MET: metodo (relacionado con INS): “Lo hizo a mano (MET)”.
◦ INS: instrumento (relacionado con MET): “Lo hizo con sus propias
manos (INS)”.
◦ VIA: tambien pertenecıa a los modificadores de lugar. “Llego pa-
sando por la cocina”.
◦ COO: coocurrencia; como mencionamos anteriormente, tambien pue-
de considerarse un modificador temporal.
• BAS: comparacion. La parafrasis mas evidente en este caso se da con la
doble negacion (“Es mas grande”, “Es menos pequeno” o “No es mas
pequeno”). La comprarcion es un caso con una estructura especıfica en
UNL, y se trata con mayor detalle en la Seccion 4.3.2.3.
En la Figura 4.4 podemos ver estos grupos y sus relaciones de manera mas
esquematica; podemos tambien apreciar como se relacionan dichas relaciones:
como ya hemos mencionado, algunas aparecen en mas de un grupo y otras incluso
pueden contener la misma informacion que relaciones de otros tipos.
Modificadores de subgrafos de segundo nivel (ModS2)
Dentro de los modificadores de subgrafos con nucleo sustantivo encontramos
en primer lugar los modificadores de sustantivos, que pueden ser de cantidad o
Capıtulo 4. Modelo propuesto 103
Mod1
Semántico
Lugar
Tiempo
Modo
BENPURRSNCON
FRTPLC
PLTPLFVIA
TIMTMFTMTDUR
COOFMT
BASMAN
METINSVIACOO
SRC
PTN, OBJ, QUA, VAL
Figura 4.4: Esquema de modificadores tipo Mod1.- Unidas en azul, las relaciones que pueden corresponderse entre sı dentro de ungrupo (tambien pueden corresponderse las que se desglosan de otra relacion conla misma).- En verde, correspondencias con relaciones de otro tipo en la jerarquıa.- Subrayadas, las relaciones que aparecen en dos clases distintas dentro de losmodificadores.A la hora de comparar, si por ejemplo en el grafo 1 nos encontrasemos con unarelacion PLC y en el grafo 2 no existiese, seguiendo el esquema tendrıamos quemirar tambien si existe alguna relacion tipo PLT, PLF, SRC o VIA. Para PLF,buscarıamos en SRC y PLC, para BEN en PUR y RSN, etc.
Capıtulo 4. Modelo propuesto 104
ModS
ModSC
ModS3
PERQUAVAL
MODCNTNAMPOS
OBJ, AGT, AOJPOF
ModS2
Cantidad
MAN
Otros
ANDORAPN
Figura 4.5: Tipos de modificadores de subgrafos y sus respectivas relaciones ycorrespondencias. En rojo encontramos las relaciones basicas que aparecen comomodificadores de un sustantivo en caso de norminalizar un verbo (si el verbo esicl>do, AGT, para icl>occur, OBJ, y para icl>be, AOJ).
Capıtulo 4. Modelo propuesto 105
de otro tipo, y que pueden englobar distintas descripciones del sustantivo al que
acompanan. Estas relaciones suelen venir desempenadas por adjetivos; algunos
casos podrıan ser por ejemplo “dos (QUA) patatas” o “rıo largo (MOD)”. En la
Figura 4.5 encontramos un esquema de los tres tipos de modificadores en este
nivel y las relaciones que pertenecen a cada uno de estos grupos.
Modificadores de cantidad. Pueden expresar lo mismo en distintos ti-
pos de medidas (“un (QUA) euro (VAL)” por ejemplo puede ser lo mismo
que “diez (QUA) coronas (VAL)”; aunque en esta tesis no entremos en ese
tipo de equivalencias, puede ser util en cierto tipo de documentos, como
contratos internacionales).
• PER: proporcion (Pago dos euros el kilo (PER)).
• QUA: cantidad (Pago dos (QUA) euros el kilo).
• VAL: valor (Pago dos euros (VAL) el kilo).
Otros modificadores (describen diversas caracterısticas del sustantivo al
que acompanan):
• MOD: modifica distintas caracterısticas (colores, altura...): “El nino
alto (MOD)”
◦ CNT: aposicion, introduce un grupo nominal, habitualmente entre
comas. Se relaciona con NAM: (“Rajoy, el presidente (CNT)” y “El
presidente Rajoy (NAM)”).
◦ NAM: el nombre de algo, relacionado con CNT en caso de aparecer
una entidad (como vemos en el ejemplo anterior).
◦ POS: posesivo (Mi (POS) casa).
• POF: parte de, puede aparecer rara vez como relacion en un grafo en
expresiones del tipo “tres de ellos”.
• OBJ, AOJ, AGT: son modificadores que aparecen al nominalizar un ver-
bo, como veremos mas adelante.
Modificadores de subgrafos coordinados (ModSC)
Tambien podemos tener dentro de un subgrafo relaciones que unan otros sub-
grafos a un mismo nivel; analizaremos las posibles parafrasis a las que dan lugar
en la Seccion4.3.2.3. Las relaciones que pertenecen a este grupo seran:
Capıtulo 4. Modelo propuesto 106
AND: representa la conjuncion “y”. Puede ser parafrasis reordenando la re-
lacion siempre y cuando no estemos enumerando algo (donde el orden es
relevante) o incluyamos restricciones de tiempo (“Me gustan el rojo y el
azul” es igual que “Me gustan el azul y el rojo”, pero “Fui a tu casa y me
gusto” implica cierto orden, no es lo mismo que “Me gusto y fui a tu casa”).
OR: representa “o”; el orden en este caso no es relevante, y sı se cumple la
parafrasis en la mayorıa de casos.
APN: es una concatenacion, representarıa comas y serıa equivalente a varios
AND seguidos.
Modificadores de subgrafos de tercer nivel (ModS3)
Por ultimo, tambien podemos encontrar modificadores de adverbios y de ad-
jetivos dentro de un subgrafo; esta funcion la desempenara siempre un adverbio y
vendra dada por una relacion que ya habıamos englobado dentro del grupo Mod1,
MAN. Podremos distinguir su categorıa dentro del modelo por el elemento al que
modifica en la oracion (sera Mod1 si es a un verbo y ModS3 si es otro tipo de
palabra). Un ejemplo de aparicion del modificador MAN como miembro de esta
categorıa se da en las comparaciones, con el adverbio mas (“Es mas (MAN) alto”)
.
4.3.2. Otros tipos de mapeos o correspondencias
Ademas de las posibles equivalencias entre relaciones expuestas anteriormen-
te, pueden existir otros posibles mapeos entre relaciones en ciertas situaciones
concretas que se exponen a continuacion.
4.3.2.1. Mapeo de relaciones entre verbos de distinta categorıa on-
tologica
Existe la posibilidad de que la misma informacion venga expresada por ver-
bos distintos. Este serıa por ejemplo el caso de las frases “Te recomiendo hacerlo
ası.” y “Mi recomendacion es hacerlo ası.”. Se han desarrollado por ello algunos
mapeos para los casos mas frecuentes, teniendo en cuenta para ello la siguiente
consideracion: dado que es poco habitual que los verbos icl>occur se puedan
Capıtulo 4. Modelo propuesto 107
expresar de otras maneras, y teniendo en cuenta ademas que son muy poco fre-
cuentes en UNL (tan solo 70 de 8670 palabras universales son verbos de tipo
icl>occur, ni el 1 % de ellas1), no contemplaremos mapeos desde o hasta las
relaciones de este tipo de verbos. Partiendo de esta base, se han desarrollado los
siguientes mapeos para los otros tipos de verbos:
En el caso de encontrar un verbo icl>do nominalizado como el del ejemplo
anterior en una frase con una @entry verbal icl>be, se testaran los siguien-
tes mapeos:
oracion con @entry icl>do oracion con @entry icl>be
AGT POS
MAN OBJ
verbo AOJ
atributos del verbo atributos del verbo
Tabla 4.3: Mapeos entre verbos de distintas categorıas ontologicas.
Un ejemplo de estos casos lo encontramos en frases como:
Tu (AGT) huiste rapidamente (MAN).
Tu (POS) huida (AOJ) fue rapida (OBJ).
Como ya vimos en la jerarquıa de relaciones, en muchos casos tras la nomi-
nalizacion se conservan algunas relaciones argumentales (AGT, AOJ y OBJ,
principalmente). Por ejemplo:
Los precios (AGT) subieron, lo que provoco la crisis.
La subida de los precios (AGT) (AGT) provoco la crisis.
Por ello, tambien buscaremos este tipo de correspondencias directas (dejan-
do a un margen la transformacion gramatical, salvable gracias a las medi-
das de similaridad y la comparacion cadenas de caracteres) en el modelo.
Ademas, debemos considerar que cuando nominalizamos un verbo, habitual-
mente sus modificadores (los del grupo Mod1, especialmente los de modo)
1 Informacion consultada en mayo de 2016
Capıtulo 4. Modelo propuesto 108
suelen pasar a modificar al sustantivo, transformandose en modificadores
del sustantivo (del grupo ModS2). En este caso mapearemos los adjetivos
y los adverbios segun su tipo (los adverbios de modo y manera correspon-
deran a los adjetivos cualificativos, los adverbios de tiempo y lugar con los
adjetivos temporales y de lugar, etc).
4.3.2.2. Mapeo de relaciones entre subgrafos con nucleo sustantivo-
verbo y sustantivo-sustantivo
El caso anterior se centraba en comparar dos grafos cuyos nucleos (@entry)
eran verbos, pero tambien es posible que uno o ambos sean sustantivos. En este
caso se realizara la comparacion como si se tratase de buscar la identidad entre
subgrafos (mas adelante, en la Seccion 4.3.5.3, comentaremos como ha de hacerse
esta comparacion), partiendo de que los @entry mantienen algun tipo de relacion
de sinonimia o de similaridad a nivel de caracteres. De nuevo, habitualmente el
contenido de las relaciones de tipo Mod1 se reflejara en el grafo nominalizado en
relaciones de tipo ModS2.
4.3.2.3. Casos especiales: la comparacion, los superlativos y la coor-
dinacion
En UNL encontramos algunos casos especiales de parafrasis que requieren un
mapeo especial. Algunos de ellos se exponen a continuacion:
La comparacion
La comparacion (expresada en UNL mediante la relacion BAS), implica el uso
de las UWs more, less y as as (a los que llamaremos comparativos). La estructura
sera la expuesta en la Figura 4.6.
Las posibles parafrasis se pueden dar de las siguientes maneras en el caso de
less y more:
Negar el verbo (atributo @not) e intercambiar los conceptos: “Luis corre
mas rapido que Juan” y “Juan no corre mas rapido que Luis”.
Intercambiar los conceptos y usar una caracterıstica antonima: “Luis corre
mas rapido que Juan” y “Juan corre mas despacio que Luis”.
Capıtulo 4. Modelo propuesto 109
Figura 4.6: Estructura de la comparacion. Las relaciones basicas aoj y obj puedenser otras (dependeran del tipo de verbo con el que tratemos). Ademas, en algunoscasos puede no mencionarse la caracterıstica (por ejemplo, en “10 es mas que 5”,aunque en ese caso ya no aparecerıa la relacion BAS y no entrarıa en este caso),y hay que tener en cuenta que tanto los conceptos como la caracterıstica puedenser nodos independientes o nucleos de subgrafos.
Intercambiar los conceptos y usar el comparativo opuesto: “Luis corre mas
rapido que Juan” y “Juan corre menos rapido que Luis”.
Mantener los conceptos y usar el comparativo opuesto y la caracterıstica
antonima: “Luis corre mas rapido que Juan” y “Luis corre menos despacio
que Juan”.
Otro posible caso de parafrasis vendrıa con la aparicion de @not y la negacion
de la caracterıstica o el comparador, pero son casos algo extremos y que suelen
implicar cierta intencion, por lo que no contemplaremos ese caso. Si encontramos
en cambio una comparacion de igualdad (con as as), la unica posibilidad de
parafrasis pasa por intercambiar los conceptos, pero dependera tambien de la
situacion, ası que no lo consideraremos tal. En los ejemplos de aplicacion del
modelo (Seccion 4.3.6) encontramos un caso practico de comparacion.
Capıtulo 4. Modelo propuesto 110
Los superlativos
En el caso de tratar con superlativos (least y most), estas UWs actuaran sobre
la caracterıstica mediante la relacion MAN. La unica parafrasis posible (ademas de
la sinonimia) es que se de el superlativo opuesto y un antonimo (“Luis es el mas
alto” y “Luis es el menos bajo”).
La coordinacion
Como ya hemos comentado al explicar los modificadores ModSC en la Seccion
4.3.1.2, en ocasiones se pueden intercambiar los subgrafos a los que unen las rela-
ciones de coordinacion; es lo mismo, por ejemplo “Comprar patatas y manzanas”
que “Comprar manzanas y patatas”. No obstante, hay casos en los que el orden
es relevante “Compro eso y voy a tu casa” no es lo mismo que “Voy a tu casa y
compro eso”, pues implica algun tipo de preferencia o informacion temporal. Es
por ello que en lo respectivo a la coordinacion (aplicable a las relaciones del grupo
ModSC: AND, OR y APN), consideraremos que un cambio en el orden puede producir
parafrasis, pero solo la verificaremos si lo que une no son verbos o subgrafos con
nucleo verbal. Ademas, consideramos que si se dan AND y APN, u OR y APN juntos
con sustantivos, pueden intercambiarse los conceptos, pues en una enumeracion
de sustantivos el orden no es relevante (“patatas, manzanas y peras” equivale a
“manzanas, peras y patatas”).
4.3.3. Seleccion de atributos
Como ya mencionamos previamente, los atributos en UNL son libres (los ex-
pertos UNL de cada lengua pueden introducir nuevos atributos cuando lo consi-
deren necesario) y en muchos casos subjetivos; esta falta de estandarizacion en
comparacion con las relaciones UNL provoca que el tratamiento de los atributos
solo pueda sistematizarse hasta cierto punto. La idea tras la seleccion realizada
es, por tanto, decidir que atributos deben coincidir necesariemente en caso de
darse; un ejemplo claro es el tiempo verbal: aunque tengamos exactamente el
mismo contenido en dos grafos, si tienen distinto tiempo verbal no puede exis-
tir la parafrasis (“Yo voy a comer patatas” y “Yo comı patatas”, por ejemplo).
Tras analizar los atributos mas habituales dentro de las guidelines, extraemos las
Capıtulo 4. Modelo propuesto 111
siguientes consideraciones en cuanto a atributos que deben coincidir obligatoria-
mente:
Numero (@pl): si en un nodo aparece el plural, en su correspondencia
con el grafo a comparar debe aparecer tambien. Existen ciertos matices
en esta afirmacion, pero dependeran de la propia relacion que mantengan
las palabras; por ejemplo, el equipo y los jugadores, o la poblacion y los
habitantes, dependiendo del contexto, pueden referirse a lo mismo, pero
consideramos esto parte del sentido comun, fuera por tanto de nuestro area
de actuacion (como indicamos en las hipotesis de trabajo).
Determinacion (@def, @indef y @generic): si en una oracion hablase-
mos de un concepto indefinido y en otra del mismo concepto pero determi-
nado, no hablarıamos de lo mismo (“Un nino juega” y “El nino juega”, por
ejemplo, no tienen por que referirse al mismo nino). Sin embargo, aquı tam-
bien entramos (al igual que en el caso de los plurales) en el tipo de relacion
que une dos conceptos: un perro y el animal en frases consecutivas pueden
referirse a lo mismo, ya que mantienen una relacion de hiperonimia. No
obstante, a nivel de comparacion frase a frase no necesitaremos mantener
el llamado “foco del discurso”2.
Negacion (@not): si una frase esta en negativo, debe estarlo tambien
la otra (o bien debe expresar lo contrario por medio de antonimia). Es el
caso de “Es alto” y “No es alto”, donde en el grafo UNL encontrarıamos
los mismos nodos con las mismas palabras universales pero en el segundo
caso vendrıa anadido el atributo @not. En los ejemplos de la Seccion 4.3.6
encontramos un caso donde la parafrasis no se da precisamente por esta
razon.
Atributos verbales y de tiempo: entendemos que si dos oraciones se
expresan en distinto tiempo o modo verbal no van a poder decir lo mismo,
ası como sucesos con distintos tempos. Por tanto, los siguientes atributos
deberan coincidir necesariamente:
• Tiempo: @present, @past, @progress, @begin, @end, @complete, @con-
tinue, @custom. Ademas, existen tiempos que pueden resultar sinoni-
2 Extraemos este termino de la tesis doctoral [24], refiriendonos a un termino para determinarel concepto aludido en caso de correferencia y anaforas.
Capıtulo 4. Modelo propuesto 112
mos en ciertos casos, como el futuro o el condicional, que puede ex-
presarse en presente o con @future (es decir, que si encontramos una
frase con @future y otra en presente, aun puede existir la parafrasis).
En estos casos, se marcara como posible parafrasis.
• Modo: @imperative, @ability, @may, @obligation, @obligation.not, @pos-
sibility, @probability, @should y las posibles correspondencias entre
ellas.
• Tempo: @just, @soon, @yet, @although, podrıan corresponderse tam-
bien con algunas relaciones UNL del tipo TIM.
4.3.4. Medida de similaridad
En el marco de la tesis, hemos observado que no existe ninguna medida de
similaridad semantica asociada a UNL. Es por ello que parte del trabajo se ha
destinado al estudio de las palabras universales y a la creacion de una medida que
se ajuste a sus caracterısticas pertinentes (repasadas anteriormente en 4.2.1.2).
Obviamente, esta medida devolvera para una misma UW el valor 1, que se con-
sidera el umbral a partir del cual los UWs son sinonimos (siendo -1 el umbral
inferior para la antonimia, pero no estando acotada por dichos valores). Esta fun-
cion de similaridad no cumplira por tanto las condiciones matematicas para ser
considerada distancia (pues puede tomar valores negativos, no toma valor 0 para
una misma UW y no tiene por que cumplir la desigualdad triangular).
La medida de similaridad entre dos verbos UW se dara por medio de pesos,
que dependen de la comparacion de las restricciones de las palabras universales
de la siguiente manera:
4.3.4.1. Verbos
1. El tipo de verbo debe ser igual; si no, se descarta la sinonimia (el resultado
es 0).
2. Si se da la condicion anterior, tambien puede ser que entre icl y el tipo de
verbo (do, be, occur) haya algun caso de hiperonimia o hiponimia (como
veıamos por ejemplo con show en expose(icl>show>do,equ>exhibit,agt>
thing,obj>thing,rec>thing)). Si se diese una coincidencia en ese nivel se
Capıtulo 4. Modelo propuesto 113
le darıa un peso extra entre 0 y 0,5 (cuanto mas a profunda se diese dicha
coincidencia, mayor peso, siendo mas profunda cuanto mas a la izquierda
este en la jerarquıa de flechas). Mas tarde veremos la funcion especıfica.
3. El siguiente punto a observar es la propia restriccion de sinonimia, equ.
Entre dos UW, esta sinonimia puede ser:
Bidireccional: ambos verbos tienen la misma UW en equ (como en
el caso de expose(icl>show>do,equ>exhibit,...) y demonstrate(
icl>show>do,equ>exhibit,...) ), o se tienen mutuamente entre sı.
Esto da un peso de 1 a la similaridad.
Unidireccional: uno de los verbos tiene como equ al otro, pero no
a la inversa. En este caso, podrıan ser necesarios modificadores para
que se diese la parafrasis. Pensemos por ejemplo en el caso “Para
cenar comı patatas” y “Cene patatas”: cenar es un caso concreto de
comer (serıa pues un hiponimo), pero la modificacion dada por para
cenar complementa al hiperonimo en la frase, provocando la parafrasis.
No obstante, este tipo de comprobaciones necesitarıan de una base
del conocimiento, una de las limitaciones que mencionabamos en el
planteamiento de la tesis. Dado que no entramos en ese terreno, en caso
de encontrar un equ unidireccional, daremos un 0,75 de similaridad,
pues no podemos asegurarla al no poder comprobar los modificadores
necesarios.
Las ideas anteriores se aplican igual para ant, la restriccion de
antonimia. Si un verbo fuese antonimo del otro, daremos valor negativo
a la medida (-1 en caso de ser bidireccional y -0,75 en caso de ser
unidireccional). Esto sera util si en caso de la comparacion encontramos
por ejemplo el atributo @not o la doble negacion.
Diferentes equ o ant: en este caso miraremos sucesivamente las res-
tricciones de las UWs relacionadas hasta encontrar relacion o hasta un
determinado nivel de profundidad. Puede que por ejemplo que morada
y hogar no aparezcan como sinonimos, pero que morada se considere
sinonimo de refugio, hogar de casa y que refugio y casa sı se relacionen
de alguna manera. En este caso sumaremos tan solo 0,25.
Ninguna relacion de equ o ant: si no encontramos ninguna rela-
cion de tipo sinonimia, no podemos descartar la existencia de la misma.
Capıtulo 4. Modelo propuesto 114
Una posible solucion es buscar la relacion entre las headwords en un
recurso externo, como un tesauro o una red semantica. Tambien po-
demos recurrir a lematizadores y distancia en cadenas de caracteres.
En este caso, las restricciones tipo fld y com pueden ayudar en la
desambiguacion.
4. Restricciones argumentales: dos verbos sinonimos deben tener las mis-
mas restricciones argumentales. Es posible que alguno cubra mas relaciones
o permita que dichas relaciones las desempenen UWs mas genericas en la
jerarquıa (siendo por ejemplo, thing mas generico que person y menos que
uw); bastara en este caso con que la interseccion de los argumentos cubiertos
en la frase no sea vacıa. Si tenemos por ejemplo que en un verbo el agt>uw
y en otro que agt>person, puede darse la parafrasis, pero entre agt>plant
y agt>person no es posible (pues asumimos que el contexto de aplicacion
no es el mismo, imposibilitando la parafrasis).
La funcion sim(UW1, UW2), siendo las UWs de la forma UWi = HWi(icl >
aiKi> ... > ai2 > ai1 > tipo, equ > bi, ant > ci, rel1 > uwi1, ..., relN > uwiNi
)
para verbos (y en general), quedara segun lo expuesto previamente de la siguiente
manera:
sim(UW1, UW2) = simicl(UW1, UW2)·(simequ(UW1, UW2) + simant(UW1, UW2)) · simrel(UW1, UW2)
con
simicl(UW1, UW2) =
{0 si UW1 y UW2 son verbos de distinto tipo.
1 + k2·K si son del mismo tipo.
siendo k = max(x, x′) el mayor ındice en el que coincidan las restricciones de
ambas UWs, es decir, a1x = a2x′ , y K = max(K1, K2).
Capıtulo 4. Modelo propuesto 115
simequ(UW1, UW2) =
1 si b1 = b2 o b1 = HW2, b2 = HW1
0,75 si b1 = HW2 o b2 = HW1
0,25 si ∃j ≤ J tal que con j concatenaciones
encontramos una equivalencia comun.
f(HW1, HW2) si no hay ningun equ ni ant
donde J es un parametro que indica a que profundidad queremos buscar
la similaridad (intuitivamente, el maximo de equ que concatenaremos buscando
iterativamente en los equ de cada UW hasta dar con algun punto comun) y f(x, y)
una funcion de similaridad aplicable en recursos externos o cadenas de caracteres,
normalizada a 1.
simant(UW1, UW2) =
−1 si c1 = c2 o c1 = HW2, c2 = HW1
−0,75 si c1 = HW2 o c2 = HW1
−0,25 si ∃j ≤ J tal que con j concatenaciones
encontramos una antonimia comun.
f(HW1, HW2) si no hay ningun equ ni ant
simrel(UW1, UW2) =
{1 si ∀relin tal que in ≤ Ni, rel1n ∩ rel2n 6= ∅0 si no
si alguno de los dos verbos tiene mas relaciones que otro, bastara con que no
aparezcan en el grafo en cuestion (dependera de la forma de aplicar el verbo).
4.3.4.2. Adjetivos, adverbios y sustantivos
Los adjetivos y los adverbios usaran la misma medida que la previamente ex-
puesta para los verbos (aunque en este caso las restricciones relacionales se podran
referir a que rol desempena la UW en un grafo). En el caso de los sustantivos,
encontramos la particularidad de las instancias, que en vez de icl contienen en
sus restricciones iof, que son unicos y solo son sinonimos de sı mismos. Por lo
demas, la medida de similaridad sera igual a la general expuesta previamente,
aunque dada la escasez de restricciones relacionales en comparacion con los ver-
bos, esta parte de la funcion aportara informacion en menos ocasiones:
Capıtulo 4. Modelo propuesto 116
La funcion sim(UW1, UW2)sust, con UWi = HWi(icl > aiKi> ... > ai2 > ai1 >
tipo, equ > bi, ant > ci, rel1 < uwi1, ..., relN < uwiNi) o UWi = HWi(iof > ai)
quedara de la siguiente manera:
simsust(UW1, UW2) =
0 si ambos son iof y HW1 6= HW2
1 si ambos son iof y HW1 = HW2
sim(UW1, UW2) en otro caso.
4.3.4.3. Similaridad entre palabras de distinta categorıa
Si en algun caso de mapeo debemos comparar la similaridad entre palabras
de distintas clase (por ejemplo en el caso de “huir” y “huida”), usaremos como
ayuda un lematizador de UWs y alguna de las distancias propuestas en el Estado
del Arte para cadenas de caracteres (no hay ninguna que prevalezca sobre las
demas en este contexto).
4.3.4.4. Ejemplos de aplicacion de la medida
A continuacion exponemos algunos ejemplos de como actua la medida desa-
rrollada:
UW1: green(icl>qual adj,val<color), UW2: red(icl>qual adj,val<color)
simicl(UW1, UW2) = 1, pues ambos son adjetivos cualificativos pero no contienen
ningun otro indicio intermedio comun en la jerarquıa.
simrel(UW1, UW2) = 1, ambos tienen la misma restriccion (desempenan la rela-
cion VAL, valor).
simequ(UW1, UW2) = simant(UW1, UW2) = f(HW1, HW2), en cualquier recurso
veremos que rojo y verde no son lo mismo, por lo que el resultado sera:
sim(UW1, UW2) = 1 · 0 · 1 = 0, luego no son ni sinonimos ni antonimos.
UW1: count(icl>do,equ>calculate,agt>thing,obj>thing),
UW2: calculate(icl>do,equ>count,agt>thing,obj>thing)
simicl(UW1, UW2) = 1, pues ambos son verbos tipo icl>do pero no contienen
ningun otro indicio intermedio.
Capıtulo 4. Modelo propuesto 117
simrel(UW1, UW2) = 1, ambos tienen las mismas restricciones en las relaciones
argumentales.
simequ(UW1, UW2) = 1, pues la equivalencia es bidireccional:
sim(UW1, UW2) = 1 · 1 · 1 = 1, luego son sinonimos.
UW1: demonstrate(icl>show>do,equ>exhibit,agt>thing,obj>uw,rec>thing)
UW2: exhibit(icl>show>do,equ>expose,agt>thing,obj>thing)
simicl(UW1, UW2) = 1,5, pues ambos son verbos tipo icl>do y tienen un ele-
mento intermedio comun.
simrel(UW1, UW2) = 1, pues no hay intersecciones vacıas entre sus relaciones
comunes.
simequ(UW1, UW2) = 0,75, pues la equivalencia es unidireccional;
sim(UW1, UW2) = 1,5 · 0,75 · 1 = 1,125, luego son sinonimos.
UW1: poor(icl>adj,ant>rich), UW2: rich(icl>adj,ant>poor)
simicl(UW1, UW2) = 1
simrel(UW1, UW2) = 1, pues no existen restricciones.
simant(UW1, UW2) = −1, pues la antonimia es bidireccional;
sim(UW1, UW2) = 1 · (−1) · 1 = −1, luego son antonimos.
UW1: poor(icl>adj,equ>bad), UW2: rich(icl>adj,ant>poor)
simicl(UW1, UW2) = 1
simrel(UW1, UW2) = 1, pues no existen restricciones.
simant(UW1, UW2) = −0,75, pues la antonimia es unidireccional;
sim(UW1, UW2) = 1·(−0,75)·1 = −0,75, luego son antonimos hasta cierto punto.
4.3.5. Algoritmo de comparacion de grafos
Veamos por ultimo el algoritmo disenado para la comparacion de grafos, que
utiliza los elementos expuestos hasta ahora.
Capıtulo 4. Modelo propuesto 118
4.3.5.1. Distincion de casos del modelo comparativo
En el modelo de comparacion dividiremos los casos en funcion de las @entry
de los grafos que estemos tratando, pudiendo ser ambos verbos, ambos sustan-
tivos, un verbo y un sustantivo, u otra categorıa gramatical. En la Figura 4.7
encontramos un diagrama con los cuatro casos contemplados, a saber:
Caso 1: el @entry de ambos grafos es un verbo; es el caso mas comun, en
el que nos centraremos principalmente.
Caso 2: un @entry es un sustantivo y el otro un verbo; para que se de la
parafrasis debe existir por tanto un cambio profundo en la estructura de
una frase con respecto a la otra, siguiendo alguna de las regla de mapeo
expuestas 4.3.2 para ver donde buscar las correspondencias en la frase. Un
ejemplo muy sencillo de este caso es la parafrasis entre “Gracias por tu
ayuda” y “Te agradezco tu ayuda”, donde la similaridad a nivel de cadena
de caracteres y de similaridad semantica (“agradecer” es igual que “dar
gracias”) permiten ver la equivalencia.
Caso 3: ambos @entry son sustantivos. La clave en estas oraciones suele
encontrarse en la sinonimia, las cadenas de caracteres y los modificadores
que acompanan al sustantivo (por ejemplo, en “Gracias por tu ayuda” y
“Mis agradecimientos por tu ayuda”).
Caso 4: caso en el que algun @entry no es ni sustantivo ni verbo. Suelen ser
casos concretos o frases muy cortas (como por ejemplo las frases “Encima
de la mesa” y “Sobre la mesa” o “Cordialmente,” y “Suyo,” en un correo).
4.3.5.2. Casos del modelo comparativo
A continuacion veremos en mayor detalle cada uno de los casos, poniendo
especial enfasis en el caso 1 (donde los dos verbos son @entry). Contemplamos
tres posibles resultados de la comparacion: o bien se corrobora la parafrasis, o
bien se descarta, o bien se considera que no hay suficientes indicios para afirmar o
negar su existencia (por ejemplo, en casos como la presencia de textual entailment
u otros fenomenos que no cubrimos en esta tesis).
Capıtulo 4. Modelo propuesto 119
g1.@entry
¾qué es?
grafo 1
(g1)
grafo 2
(g2)
caso 4g2.@entry
¾qué es?
g2.@entry
¾qué es?
caso 1 caso 3caso 2
verbo
sustantivo
verbo
otro
otro
sustantivo
otro
verbo sustantivo
Figura 4.7: Los cuatro casos que podemos encontrar dependiendo de los @entryde las frases a comparar. El caso 1 son dos @entry verbales, el caso 2 un @entryverbal y otro nominal, el caso 3 dos @entry nominales y el caso 4 se da cuandoalgun @entry no pertenece a ninguna de estas dos categorıas gramaticales.
Capıtulo 4. Modelo propuesto 120
g1.@entryvs
g2.@entry
grafo 1(g1)
grafo 2(g2)
¾caso demapeo enclases deverbos?
g1.@entry=
g2.@entry
¾mismomarco
semántico?
PUEDEEXISTIR
PARÁFRASIS
NO HAYPARÁFRASIS
1. Comprobación derelaciones básicas
¾coincideno es uncaso
especial?
2. Comprobaciónmodi�cado-res por orden
¾coinciden?
¾la infor-mación nomapeadano es
relevante?
HAYPARÁFRASIS
3. Comproba-ción de mapeoentre relaciones
distinto tipode verbo
mismo tipode verbo
no
no sinónimos
sinónimos
sí
no / no sepuede
determinar
sí
correspondenciainexacta
no
sícorrespondencia
exacta
no
no
sí
sí
Figura 4.8: Los pasos a seguir en el modelo de comparacion para el Caso 1 (ambos@entry son verbos).
Capıtulo 4. Modelo propuesto 121
Caso 1
Como hemos mencionado en el apartado anterior, el caso 1 (verbo-verbo) es
uno de los mas frecuentes, por lo que sera en el que mas profundicemos. El modelo
comparativo para esta situacion se puede encontrar en la Figura 4.8, y los pasos
de los que se compone se desglosan a continuacion:
1. En primer lugar, miramos si la categorıa ontologica de los verbos @entry
es la misma. Si lo es, miraremos si los verbos son sinonimos (segun nuestra
medida de similaridad, expuesta en 4.3.4); si no tienen la misma categorıa,
miraremos si se pueden mapear siguiendo las pautas explicadas previamente
en la Seccion 4.3.2 entre verbos icl>do y icl>be.
a) Si tienen la misma categorıa y son sinonimos, las relaciones basicas
argumentales deben corresponderse (paso 1). Si no lo hiciesen, y no se
debiese a alguna de los casos especiales expuestos en la previamente
en la Seccion 4.3.2.3 (comparacion o superlativo), no podrıa existir la
parafrasis. En caso de corresponderse, pasamos a mirar los modifica-
dores.
b) Si tienen la misma categorıa y no son sinonimos, la unica posi-
bilidad de parafrasis pasa por que los verbos pertenezcan al mismo
marco semantico. Para ver si es el caso, basta con mirar la medida
de similaridad: si los verbos tienen cierta relacion pero no llegan a
ser sinonimos o antonimos (es decir, que usamos como medida uni-
camente la componente simicl(UW1, UW2) esperando que sea mayor
que 1), existe la posibilidad del marco semantico. Si no, descartamos
la parafrasis (aunque es posible que exista pero las restricciones de
las UWs no sean suficientes para detectarla, siendo necesario algun
recurso externo tipo FrameNet).
c) Si son de distinta categorıa pero el mapeo icl>do y icl>be no se
cumple, aun queda la posibilidad de equivalencia dentro de un marco
semantico (volverıamos al punto anterior).
d) Por ultimo, si las pautas del mapeo sı se cumpliesen, pasarıamos
a comparar las relaciones de los grafos (paso 1) siguiendo las equiva-
lencias marcadas en la seccion de mapeos (Seccion 4.3.2).
Capıtulo 4. Modelo propuesto 122
2. Una vez llegamos al paso 1, comparamos las relaciones argumentales basi-
cas o las de mapeo, que deben cumplirse (si no, considerarıamos que no hay
parafrasis). Si lo hacen, pasamos al paso 2.
3. En el paso 2 compararemos los modificadores y los subgrafos en el or-
den explicado en la siguiente seccion (identificacion de subgrafos). Si se
cumpliesen todas las correspondencias, admitirıamos la parafrasis. Si no,
tendrıamos que ver si realizando cierto mapeo entre las relaciones (siguien-
do las equivalencias de la jerarquıa y teniendo en cuenta la peculiaridad
de las relaciones coordinadas del grupo ModSC) se solucionarıa este pro-
blema, o si la informacion no coincidente no es relevante o es imposible de
determinar (un ejemplo de relacion no relevante se da con NAM y CNT, pues
decir “Barack Obama, el presidente de EEUU” y “Barack Obama” es lo
mismo). En estos casos podrıa haber parafrasis; si no, rechazarıamos esta
posibilidad.
Casos 2, 3 y 4
En el caso de tener @entry sustantivos o de otras categorıas, como ya co-
mentamos anteriormente, usarıamos la medida de similaridad, los lemas y las
medidas de cadenas de caracteres partiendo de que, a priori, los @entry de-
berıan corresponderse aunque sean de distinta categorıa gramatical. Las rela-
ciones semanticas y argumentales se conservarıan en todos los casos, pero habrıa
que tener en cuenta que si el nucleo de un subgrafo es un sustantivo y ma-
pea con otro subgrafo cuyo nucleo es un verbo, los modificadores del primero
seran ModS y mapearan en el segundo grafo con modificadores Mod1; ocurre
igual con los adjetivos y los verbos (aunque en este caso las relaciones seran
siempre ModS3, MAN). Es el caso por ejemplo de “Agradecer” y “gracias”,
cuyas UWs son distintas (thank(icl>convey>do, agt>thing, obj>thing) y
thank you(icl>thanks>thing), respectivamente) pero para las cuales la aplica-
cion de medidas de cadenas de caracteres prueba la similaridad (obteniendo por
ejemplo, 0,5 en la medida derivada de la distancia de Levenshtein y 0,87 en la de
Jaro-Winkler con p = 0,1 y l = 4).
Capıtulo 4. Modelo propuesto 123
4.3.5.3. Identificacion de subgrafos
Cuando nos encontremos con un verbo, comprobaremos la similaridad entre
los subgrafos igual que en el Caso 1 (considerando el verbo nucleo como si fuese
el @entry). Para comprobar la correspondencia (que dos nodos o subgrafos dicen
lo mismo) entre otros tipos de palabra, seguiremos los siguientes pasos en la
comprobacion:
1. Named Entities Recognition: si existen entidades en un subgrafo (repre-
sentadas por medio de la restriccion iof) y no en el otro, va a ser imposible
que ambos subgrafos digan lo mismo (recordemos que trabajamos frase a
frase, en textos completos podrıa identificarse la entidad con un hiperoni-
mo, por ejemplo). Este sera por tanto un paso clave en la identificacion
de correspondencias entre dos grafos. Debemos considerar tambien que en
el caso de no existir una correlacion directa, es posible que sean la misma
entidad pero que debamos usar tecnicas de equivalencia como las usadas
por ejemplo en las busquedas extendidas, para lo cual serıa necesario te-
ner acceso a bases del concimiento y otros recursos similares (por ejemplo,
para establecer la relacion entre “UPM” y “Universidad Politecnica de Ma-
drid”). Ya hemos comentado que esto queda fuera del alcance de la tesis, y
se plantea como futura mejora del modelo.
2. Similitud entre nodos: usando la medida desarrollada previamente en la
Seccion 4.3.4. En este paso la similitud se buscara a su vez en el siguiente
orden:
a) Sinonimia semantica: medida de similaridad.
b) Antonimia semantica: si el resultado de aplicar la medida de simi-
laridad es negativo y menor de -1, se consideraran antonimo. En este
caso la similaridad estara relacionada con la presencia del atributo
@not (“No es mas alto que yo” y “Es mas bajo que yo” por ejem-
plo expresarıan lo mismo) o el orden de los conceptos involucrados en
una comparacion (“Es mas alto que yo” y “Yo soy mas bajo que el”).
En cualquier otro caso implicarıa que los subgrafos son diferentes y se
rechazarıa la equivalencia.
c) Correspondencia entre cadenas de caracteres y lemas: como
ya mencionamos en el apartado de similaridad semantica, en ocasiones
Capıtulo 4. Modelo propuesto 124
puede que comparemos UWs que no sean de la misma categorıa (recor-
demos el ejemplo de “gracias” y “agradecer”). En este caso, podemos
recurrir a las distancias de cadenas de caracteres o a la comparacion
de lemas para ver si las palabras expresan lo mismo.
3. Presencia de modificadores en el subgrafo que puedan aportar matices
relevantes a la frase (por ejemplo, si decimos “el coche rojo” y “el coche
azul”, los subgrafos seran similares pero no es una parafrasis, no hay equi-
valencia).
4. Revision de atributos: Si se ha comprobado la existencia de una rela-
cion de similaridad, quedara por verificar la presencia de ciertos atributos.
Encontramos dos casos posibles de atributo:
Obligatorios: como por ejemplo @past o @not ; en el caso de existir
la negacion en uno de los grafos, debe darse en el otro o existir cierta
diferencia que lo compense (por ejemplo, en el caso de la comparacion
puede ser la presencia de un antonimo).
Dependientes del contexto: la correspondencia sera en este caso
mas difıcil de establecer. Un ejemplo muy comun, por ejemplo, se da
en la correspondencia entre grupos y el plural de sus individuos: “El
equipo se alegro de la victoria” y “Los jugadores del equipo se alegraron
de la victoria”, donde en el segundo caso encontramos el atributo @pl.
No obstante, tambien puede haber quien opine que no se da la parafra-
sis, pues un equipo puede involucrar, por ejemplo, al entrenador, por
lo que generalmente estos casos devolveran en el modelo ausencia o
posibilidad de parafrasis como resultado. En el presente modelo solo
nos preocupamos por los atributos obligatorios.
4.3.6. Ejemplos de aplicacion del modelo
A continuacion se exponen unos ejemplos del funcionamiento del modelo, cada
uno con una particularidad. Uno de ellos contiene entidades, otro muestra la
importancia de los atributos en la deteccion de la parafrasis y el ultimo implica
una comparacion (un caso con una estructura UNL particular). Comentamos
ademas en algunos de los ejemplos como la introduccion de algunas pequenas
modificaciones podrıa cambiar el resultado de la aplicacion del modelo.
Capıtulo 4. Modelo propuesto 125
4.3.6.1. Presencia de entidades
En este ejemplo usaremos dos frases extraıdas de [35]. En ella encontramos
entidades (nombres de personas y una marca de coches) y un caso de sinonimia:
Figura 4.9: Grafo de la frase: “Tom bought a Honda from John.”
Figura 4.10: Grafo de la frase: “Tom purchased a Honda from John.”
1. Lo primero que vemos es que ambas @entry son verbos, por lo que esta
comparacion seguira los pasos del Caso 1 (ver Figura 4.8).
2. El siguiente paso es ver si ambos @entry son el mismo tipo de verbo. Tanto
buy como purchase son icl>do, por lo que solo quedarıa ver si dicen lo
mismo.
3. Para ver si ambos verbos dicen lo mismo aplicamos la medida de similaridad
desarrollada para el modelo:
UW1: purchase(icl>get>do, equ>buy, agt>thing),
UW2: buy(icl>get>do, agt>thing)
simicl(UW1, UW2) = 1,5, pues ambos tienen get en su jerarquıa.
simrel(UW1, UW2) = 1
simequ(UW1, UW2) = 0,75, pues la sinonimia es unidireccional;
sim(UW1, UW2) = 1,5 · (0,75) · 1 = 1,125, luego son sinonimos.
Capıtulo 4. Modelo propuesto 126
4. Ahora que sabemos que son sinonimos, falta ver si existen atributos obli-
gatorios y, en tal caso, si los comparten. Ambos tienen el mismo atributo
temporal (@past), por lo que ambos expresan exactamente lo mismo.
5. En el siguiente paso del modelo debemos comprobar las relaciones basicas.
En el caso de verbos tipo icl>do, son las siguientes:
a) agt: ¿el contenido del subgrafo al que apunta la relacion agt es el
mismo? Para comprobarlo seguimos los pasos expuestos en la Seccion
4.3.5.3 para la identificacion de subgrafos. Lo primero es ver la presen-
cia de entidades; en caso de darse, deben ser exactamente las mismas.
Vemos que este es el caso, pues en ambos encontramos la misma en-
tidad (Tom(iof>person)). No existen modificadores, ni atributos, ni
nada mas aparte de la entidad, por lo que significan lo mismo.
b) obj: repetimos el proceso anterior y vemos que ambos verbos tienen
como obj la entidad Honda(iof>car) con el atributo @indef, por lo
que se verifica tambien esta relacion.
c) src: ocurre lo mismo con John(iof>person).
6. El siguiente paso serıa ver si se cumplen los modificadores. Al no haber,
confirmamos la existencia de la parafrasis.
Posibles variaciones
Imaginemos que en uno de los grafos hubiese existido algun modificador, por
ejemplo “Tom bought a Honda from John today” (lo que anadirıa una relacion
TIM entre el verbo y today), y en el otro no. En ese caso, al no haber ninguna
correspondencia en el otro grafo con dicha informacion, y sin saber si esa informa-
cion es relevante (igual el contexto de la situacion hace que sea obvio), el modelo
arrojarıa como resultado que la parafrasis puede existir.
Si en cambio ambas frases tuviesen modificadores, la parafrasis podrıa depen-
der de ellas:
Pongamos por ejemplo que una frase tiene informacion temporal “Tom
bought a Honda from John today” y otra espacial “Tom purchased a Honda
from John here” (relacion PLC). En la jerarquıa de relaciones del modelo,
Capıtulo 4. Modelo propuesto 127
PLC y TIM no estan juntas, es decir, que no pueden nunca expresar la misma
informacion. Por ello, la parafrasis no puede existir.
Ahora imaginemos que ambas tienen la relacion TIM, pero con distinto con-
tenido: “Tom bought a Honda from John today” y “Tom purchased a Honda
from John tomorrow”. La medida de similaridad entre today y tomorrow
es 0, por lo que no podemos determinar que sean sinonimos ni antonimos
(aunque podemos recurrir a recursos externos para verificarlo) y rechazamos
por tanto la existencia de la parafrasis.
Pensemos en relaciones del mismo tipo (en este caso, modales): “Tom bought
a Honda from John with cash payment” (INS, instrumento) y “Tom purcha-
sed a Honda from John paying with cash” (podrıa considerarse MAN o COO).
Una vez verificado que el contenido del modificador es el mismo (dado que
tanto por cadenas de caracteres como por lema se corroborarıa la simila-
ridad entre payment y pay, los nucleos de los subgrafos, y que ambos son
modificados por cash), veremos que no tienen los mismos modificadores,
pero que segun nuestra jerarquıa puede existir un mapeo entre INS, MAN y
COO (esto se verıa en el paso 3 del Caso 1, ver la Figura 4.8), dandose la
correspondencia exacta y concluyendo por tanto el modelo que la parafrasis
existe.
Por ultimo, veamos que ocurrirıa si cambiasemos el verbo dentro del mar-
co semantico de la frase. Como seres humanos, sabemos que “Tom bought
a Honda from John” es lo mismo que “John sold a Honda to Tom”. Sin
embargo, a nivel maquina y sin recursos externos, no podrıamos recono-
cer esta situacion, y el modelo decidirıa que los verbos no son sinonimos.
Ddado que las UWs sell(icl>exchange>do, agt>thing, obj>thing) y
buy(icl>get>do, agt>thing) no se relacionarıan segun la medida de simi-
laridad semantica, determinarıa que no hay parafrasis (en caso de consultar
a un recurso de marcos semanticos, dirıa que puede existir). Una manera
de solucionar esto serıa transcribir marcos semanticos ya testados a estruc-
turas UNL (por ejemplo, ser capaces de mapear que el agt de buy sera el
rec de buy, y que src pasara a ser agt, debiendo mantenerse el contenido
de obj igual en ambos grafos), pero se deja planteado como trabajo futuro.
Capıtulo 4. Modelo propuesto 128
4.3.6.2. Similaridad semantica con varios verbos
El siguiente (extraıdo de [9]) es un ejemplo con frases que incluyen varios
verbos (y por tanto varios subgrafos).
Figura 4.11: Grafo de la frase: “Me comento que no pensaba participar en elconcurso.”
Figura 4.12: Grafo de la frase: “Me dijo que pensaba participar en el concurso.”
1. De nuevo, ambas @entry son verbos, por lo que esta comparacion seguira
los pasos del Caso 1.
2. Los dos @entry, say y tell, son icl>do, pasamos pues al siguiente punto.
3. Es el momento de aplicar la medida de similaridad desarrollada para el
modelo:
UW1: say(icl>express>do, equ>state, agt>thing, obj>thing),
UW2: tell(icl>express>do, equ>state, agt>thing, obj>thing)
simicl(UW1, UW2) = 1,5, pues ambos tienen express en su jerarquıa.
Capıtulo 4. Modelo propuesto 129
simrel(UW1, UW2) = 1
simequ(UW1, UW2) = 1, pues la sinonimia es bidireccional.
sim(UW1, UW2) = 1,5 · (1) · 1 = 1,5, luego son sinonimos.
4. Ahora que sabemos que son sinonimos, falta ver si existen atributos obli-
gatorios y, en tal caso, si los comparten. Ambos tienen el mismo atributo
temporal (@past), por lo que expresan exactamente lo mismo.
5. En el siguiente paso del modelo debemos comprobar las relaciones basicas.
La primera sera agt, que vemos que en ambos casos es la misma UW.
Despues miramos obj, que es un verbo (es decir, que estamos ante una
oracion subordinada), nucleo de su propio subgrafo (en las Figura 4.13 se
ilustran los subgrafos de la oracion para facilitar el seguimiento del proceso).
Volvemos a iniciar por tanto el proceso de comparacion del Caso 1 tratando
al verbo como si fuese la @entry del subgrafo (el 1 segun la nomenclatura
en la Figura 4.13):
a) Lo primero sera ver si los verbos son del mismo tipo y si son sinoni-
mos. Dado que son la misma UW (intend(icl>will>do, agt>thing,
obj>thing)), es evidente que sı. Miramos ahora los atributos. Ambos
tienen el mismo atributo temporal (@past), pero uno de ellos tiene
@not y el otro no, por lo que no expresan lo mismo. No obstante, no
podemos descartar la parafrasis, pues puede que alguna de las relacio-
nes de este verbo contengan la antonimia que compense la negacion
(podrıamos encontrar por ejemplo una relacion de comparacion BAS).
b) Miremos ahora las relaciones: en ambos grafos el verbo comparte el
mismo agt (he(icl>thing)) y el mismo obj, que de nuevo es un
verbo, por lo que comenzamos otra vez el proceso de comparacion
entre subgrafos con nucleos verbales, tomando participate(icl>do,
equ>enter, agt>thing) como @entry.
1) Dado que son la misma UW y que tienen los mismos atributos,
participate(icl>do, equ>enter, agt>thing) quieren decir lo
mismo. Miramos a continuacion las relaciones.
2) Tambien coincide el obj (contest(icl>competition>thing)),
siendo la misma UW con los mismos atributos (@def ).
Capıtulo 4. Modelo propuesto 130
3) El siguiente paso es mirar los modificadores. Existe en ambos un
modificador del verbo de lugar (PLC), con el mismo contenido.
Concluimos por tanto que este subgrafo (el 2 en la Figura 4.13)
dice exactamente lo mismo.
Una vez comprobadas ambas relaciones y visto que contienen exacta-
mente la misma informacion pero no contiene la relacion BAS, no existe
nada que pueda compensar el atributo @not que encontrabamos en el
verbo. Por tanto, en el subgrafo 1 negamos la parafrasis.
Aunque la equivalencia en la relacion rec que nos quedaba por mirar se
cumple (en ambos casos es la UW i(icl>thing)), dado que la relacion obj
(el subgrafo 1) de ambos @entry no se corresponde, negamos la existencia
de la parafrasis.
Figura 4.13: Subgrafos en el proceso de comparacion entre dos oraciones. Conside-raremos el subgrafo 1 el mayor y de color mas claro, siendo por tanto el subgrafo2 el menor y de tonalidad mas oscura.
Capıtulo 4. Modelo propuesto 131
4.3.6.3. Caso de comparacion
Por ultimo, veamos uno de los casos especiales expuesto en la Seccion 4.3.2.3,
la comparacion, con un ejemplo parecido al expuesto en [9].
Figura 4.14: Grafo de la frase: “Las ciudades del norte son mas ricas que lasciudades del sur.”. Las expresiones tipo :01 y :02 responden a notacion internade UNL y sirven para distinguir la aparicion repetida de una misma UW endistintas partes del grafo, ya que pueden tener distintos atributos, por ejemplo(no afectara para la comparacion).
Figura 4.15: Grafo de la frase: “Las ciudades del sur son mas pobres que lasciudades del norte.”
Comenzamos como siempre por el @entry de las oraciones. Ambos son del
mismo tipo y son de hecho la misma UW, be(icl>be,aoj>thing,obj>thing),
por lo que son sinonimos. Faltarıa solo mirar los atributos; en ambos grafos tie-
nen @present como unico atributo obligatorio, con lo que pasamos a mirar las
relaciones.
Capıtulo 4. Modelo propuesto 132
Las relaciones basicas argumentales de los verbos tipo icl>be son aoj y obj,
ası que pasamos a examinarlas. Lo primero que nos encontramos con dos aoj.
Esto solo puede significar que nos encontramos ante un caso de comparacion, por
lo que pasamos a enfocarlo como tal, siguiendo lo explicado en la Seccion 4.3.2.3.
Recordemos que tenıamos varios posibles casos de parafrasis y una estructura
(expuesta en la Figura 4.6). Miraremos uno por uno si se cumple alguno de ellos:
1. Negacion del verbo e intercambio de conceptos: en ambas oraciones el verbo
estaba sin negar, ası que no puede ser este caso.
2. Intercambio de conceptos y usar una caracterıstica antonima. Este caso sı es
posible en nuestro ejemplo, ası que comenzamos la comprobacion. Primero
miramos el obj. Son distintas palabras universales, ası que procedemos a
aplicar la medida de similaridad.
UW1: rich(icl>adj, ant>poor),
UW2: poor(icl>adj, ant>rich)
simicl(UW1, UW2) = 1
simrel(UW1, UW2) = 1, pues no tienen restricciones en este aspecto.
simant(UW1, UW2) = 1, pues la antonimia es bidireccional.
sim(UW1, UW2) = 1 · (1) · 1 = 1, luego son antonimos.
Miramos ahora la correspondencia entre los atributos obligatorios (en am-
bas @pl) y las relaciones que salen de nuestra caracterıstica (pues podrıa
ser tambien un subgrafo, por ejemplo “descaradamente rico”, y serıa nece-
sario comprobar que no modifican la antonimia y que se corresponden en
ambos). Visto que la unica relacion saliente es la del comparativo (que es
la misma UW), se cumple la antonimia, y solo nos queda por ver si los con-
ceptos se intercambian. Siguiendo la relacion saliente BAS del comparativo
encontramos el concepto 2, unido tambien al @entry por la relacion aoj.
Comparemos entonces el concepto 2 del grafo 1 con el concepto 1 del grafo
2, y viceversa:
concepto 2 - grafo 1 VS concepto 1 - grafo 2 : segun el proceso de identi-
ficacion de subgrafos, miramos si el nucleo del subgrafo es una entidad.
No lo es, ası que pasamos a ver si hay una relacion de similaridad segun
nuestra medida. Vemos que es la misma UW city(icl>administrati
ve district>thing,equ>town, y con los mismos atributos obligato-
rios, @def y @pl. Debemos ahora si tambien se corresponden los modifi-
Capıtulo 4. Modelo propuesto 133
cadores; el unico que encontramos en cada grafo es un MOD con la misma
UW y mismos atributos, south(icl>cardinal compass point>thing)
y @def, sin modificadores propios, ası que podemos concluir que el
nucleo es el mismo y con los mismos modificadores, por lo que conclui-
mos que ambos subgrafos expresan lo mismo.
concepto 1 - grafo 2 VS concepto 2 - grafo 1: seguimos el mismo proceso
y vemos que tambien se corresponden.
Se da por tanto el caso de comparacion de antonimia e intercambio de
conceptos, por lo que pasamos al siguiente punto del algoritmo para el Caso
1, la comprobacion de modificadores. Al no haberla, el modelo concluye que
hay parafrasis.
Posibles variaciones
Algunas posibles variantes sobre el mismo grafo:
Modificadores dentro de subgrafos: si por ejemplo en una de las frases
hubiesemos encontrado “ciudades del este”, o simplemente “ciudades”, no
se hubiese dado la parafrasis.
Modificadores oracionales: si hubiesemos anadido informacion del tipo
“Las ciudades del sur son habitualmente mas pobres que las ciudades del
norte.”, tendrıamos que haber seguido comparando despues de establecer
la correspondencia.
Sinonimos: el concepto no tiene por que ser igual, tambien se hubiese
dado la parafrasis en el caso de que en un grafo el concepto fuese “ciudad
del norte” y en el otro “poblacion del norte”.
4.4. Resumen final sobre el modelo
En el presente capıtulo hemos presentado el modelo desarrollado para la tesis,
desglosando los distintos componentes que lo conforman por separado. A conti-
nuacion se expone un breve repaso de estos elementos:
Capıtulo 4. Modelo propuesto 134
La jerarquıa de relaciones, donde se agrupan las relaciones UNL por el
tipo de informacion que expresan y se relacionan entre sı respondiendo a
cuales de ellas pueden contener la misma informacion en caso de parafrasis.
Mapeos y correspondencias entre distintos tipos de verbos, grafos no
verbales y algunos casos especiales de relaciones en UNL (comparacion,
superlatividad y coordinacion).
Una seleccion de los atributos que deben coincidir para que se de la
parafrasis.
Una medida de similaridad creada para estudiar la sinonimia y la an-
tonimia entre UWs.
El algoritmo de comparacion entre grafos, junto con los pasos para la
identificacion de los subgrafos con nucleo no verbal.
Finalmente, se han expuesto algunos ejemplos de como actuarıa en frases
sencillas, semanticamente muy parecidas, con y sin parafrasis. En el siguiente
capıtulo veremos un caso de aplicacion practica a un documento completo, con
oraciones mucho mas complejas.
Capıtulo 5
Experimentacion y resultados
5.1. Implementacion
Para la validacion formal del modelo se ha implementado una version parcial
del mismo (que no incluye los casos en los que se usan recursos externos al modelo
ni la base de datos de las todas las UWs existentes o la comparacion de cadenas de
caracteres) en Java. Esta implementacion, al no depender de recursos externos,
funciona de manera independiente y requiere solo los grafos UNL a comparar,
ya que unicamente usa la informacion contenida en los mismos. Esta implemen-
tacion permite procesar los grafos UNL y efectuar la deteccion de la parafrasis,
devolviendo paso a paso las distintas etapas del algoritmo y el resultado final. A
grandes rasgos, esta implementacion se compone de cuatro clases:
Una para las UWs, que incorpora la medida de similaridad desarrollada
y el tratamiento de los atributos (si son obligatorios o no, si una UW es
@entry, etc).
Otra para el procesamiento de las relaciones dentro del grafo.
Una tercera clase para la lectura de los grafos.
Una ultima clase, mas compleja, para el modelo, que incluye la identifi-
cacion del caso, el algoritmo (implementado de forma recursiva a traves de
los distintos nucleos de los subgrafos) y el proceso de comparacion de los
distintos subgrafos.
135
Capıtulo 5. Experimentacion y resultados 136
5.2. Validacion
Como ya se comento en el apartado correspondiente de la definicion del trabajo
(Seccion 3.6), para la validacion se ha usado un documento ajeno elegido por un
linguista, a quien tambien se le ha solicitado que introduzca cambios (distintas
palabras, negaciones...) para modificar el significado del mismo. El texto original
y su version modificada se muestran a continuacion:
Texto original
Los espanoles no confıan en que los Gobiernos esten usando bien sus datos
Los ciudadanos afirman que no saben ni quien, ni donde, esta capturando y alma-
cenando sus datos. Es decir, solo el 33 % de los espanoles cree que los Gobiernos
respetan la privacidad y el 22 % sostiene que confıan en que lo esten haciendo
las empresas. Ademas, cuando aumenta la edad y baja el nivel de instruccion
disminuye drasticamente las ventajas percibidas sobre el Big Data.
Texto modificado
Los espanoles no confıan en que los Gobiernos no esten usando bien sus datos
Los ciudadanos niegan que no saben ni quien, ni donde, esta capturando y alma-
cenando sus datos. Es decir, solo el 33 % de los espanoles cree que los Gobiernos
respetan la privacidad y el 22 % sostiene que confıan en que no lo esten haciendo
las empresas. Ademas, cuando disminuye la edad y aumenta el nivel de instruccion
aumenta drasticamente las ventajas percibidas sobre el Big Data.
Aplicaremos ahora la implementacion realizada del modelo de comparacion
desarrollado sobre las cuatro frases del texto original y sus correspondientes en
la version modificada para ver si ambos textos dicen lo mismo. Por cuestiones de
legibilidad, los resultados del algoritmo se muestran en el Anexo C.
Aunque para validar el funcionamiento del modelo vamos a mirar todas las frases
por orden, cabe destacar que no es necesario hacerlo ası, pues hallar una diferencia
ya implicarıa que ambos textos son distintos, por lo que a la primera discrepancia
podrıamos parar la comparacion sin necesidad de revisar mas oraciones. Ademas,
Capıtulo 5. Experimentacion y resultados 137
el orden no es relevante, y una posible opcion para intentar tardar el mınimo
tiempo posible en la comprobacion serıa por ejemplo buscar primero entidades
y corroborar si las frases en las que aparecen se corresponden; si no lo hacen, se
descartarıa la parafrasis.
5.2.1. Tıtulo
Las frases a comparar son las siguientes, expuestas tambien en forma de grafo
UNL:
Figura 5.1: Verificacion: Grafo del tıtulo del texto original. “Los espanoles noconfıan en que los Gobiernos esten usando bien sus datos”
Figura 5.2: Verificacion: Grafo del tıtulo del texto modificado. “Los espanoles noconfıan en que los Gobiernos no esten usando bien sus datos”
Es evidente que estas dos frases no expresan lo mismo. El cambio viene dado
por una negacion en la relacion obj, el nucleo del primer subgrafo, por lo que
sera en ese punto en el que el algoritmo decidira que no hay parafrasis (despues
de detectar internamente que no se trata de un caso especial, como podrıa ser
por ejemplo la comparacion). El resultado arrojado por la implementacion del
Capıtulo 5. Experimentacion y resultados 138
modelo es por tanto que no hay parafrasis, pues como podemos ver en la Figura
C.1, el algoritmo detecta la negacion y niega en consecuencia la existencia de la
parafrasis.
5.2.2. Oracion 1
Los grafos de la primera oracion del texto y su version modificada son los
siguientes:
Figura 5.3: Verificacion: Grafo de la oracion 1 del texto original. “Los ciudadanosafirman que no saben ni quien, ni donde, esta capturando y almacenando susdatos”
Figura 5.4: Verificacion: Grafo de la oracion 1 del texto modificado. “Los ciuda-danos niegan que no saben ni quien, ni donde, esta capturando y almacenandosus datos”
Estas dos oraciones tampoco dicen lo mismo. El modelo devuelve el como re-
Capıtulo 5. Experimentacion y resultados 139
sultado que no hay parafrasis al no encontrar similaridad entre los verbos de las
oraciones (es un caso que requerirıa de marcos semanticos, pues “afirmar A(obj)”
equivale a nivel logico a “negarA.@not(obj)”), como podemos ver en la Figura
C.2.
Aunque el resultado es correcto (pues no hay parafrasis), vemos que ha sido
propiciado por la limitacion impuesta sobre los marcos semanticos. No obstan-
te, como ya hemos comentado, es preferible que no detecte los marcos y rechace
la parafrasis a que la diese por valida no existiendo, por lo que dentro de las
limitacion prefijadas del modelo el resultado es correcto.
5.2.3. Oracion 2
Dado que la siguiente oracion y su correspondiente modificacion son particu-
larmente complejas en lo referente a cantidad de verbos, los grafos son excesiva-
mente extensos, por lo que no los adjuntamos como imagen:
Es decir, solo el 33 % de los espanoles cree que los Gobiernos respetan la pri-
vacidad y el 22 % sostiene que confıan en que lo esten haciendo las empresas.
Es decir, solo el 33 % de los espanoles cree que los Gobiernos respetan la pri-
vacidad y el 22 % sostiene que confıan en que no lo esten haciendo las empresas.
Como vemos en el resultado (ver la Figura C.3), tampoco estas dos frases di-
cen lo mismo, pues se ha introducido un no que cambia el final de la frase. Este
es un buen ejemplo de como el algoritmo se va introduciendo recursivamente
en los distintos subgrafos, comprobando la similaridad hasta que descubre algun
punto conflictivo, momento en el que va devolviendo este descubrimiento a los
subgrafos que contienen esta la discrepancia y que han ido llamandole.
5.2.4. Oracion 3
Por ultimo, las terceras oraciones (cuyos grafos se muestran a continuacion)
sı mantienen una relacion de parafrasis, ya que el hecho de que al darse ciertas
condiciones en una funcion estadıstica aumente un resultado implica que de darse
Capıtulo 5. Experimentacion y resultados 140
las contrarias bajara. No obstante, esto pertenece a la logica y nuestro modelo no
tiene por que detectarlo.
Figura 5.5: Verificacion: Grafo de la oracion 3 del texto original. “Ademas, cuan-do aumenta la edad y baja el nivel de instruccion disminuye drasticamente lasventajas percibidas sobre el Big Data.”
Figura 5.6: Verificacion: Grafo de la oracion 3 del texto modificado. “Ademas,cuando disminuye la edad y aumenta el nivel de instruccion aumenta drastica-mente las ventajas percibidas sobre el Big Data”
En el resultado (Figura C.4) vemos como la medida de similitud identifica
cierta relacion en las restricciones de los verbos aumentar y disminuir, por lo que
considera que pertenecen al mismo marco semantico y devuelve que puede existir
parafrasis (como es efectivamente el caso).
Capıtulo 5. Experimentacion y resultados 141
5.3. Conclusiones sobre la validacion
En el proceso de comparacion de los textos hemos comprobado como el mo-
delo es capaz de detectar cambios en el contenido, ya sea por falta de sinonimia o
por la introduccion de diferentes modificadores. Ademas, podemos observar que
en los casos en que la posible parafrasis viene dada por fenomenos no contem-
plados en esta tesis (como los marcos semanticos), el modelo devolvera que la
parafrasis puede existir si es capaz de detectar cierto marco semantico comun
(como es el caso de la ultima oracion), o que no existe si no encuentra dicha
relacion (como ocurre en la primera oracion), lo que se corresponde con lo desea-
do: si no se puede verificar, mejor negar o decir que puede existir la parafrasis.
Concluimos por tanto que el modelo funciona correctamente en el texto analizado.
Por ultimo, para testar el correcto comportamiento del modelo en otros casos
de posible parafrasis no presentes en el texto, se adjuntan otros casos de prueba
usados para la validacion de la implementacion en el Anexo D.
Capıtulo 6
Conclusiones y futuros caminos
El modelo presentado en esta tesis ofrece una solucion al problema de la
parafrasis linguıstica. En el Estado del Arte hemos visto como algo tan basico
como la propia definicion del concepto de parafrasis no esta completamente es-
tandarizado, y distintos autores ofrecen diferentes tolerancias a lo que es o no el
mismo significado; ademas, existen multitud de maneras de expresar la misma
informacion en cada lengua, por lo que la parafrasis en un idioma no tiene por
que serlo en otro. Es por ello que hemos limitado el alcance de nuestro modelo
a los casos mas comunes e independientes de la lengua. Cabe destacar, ademas,
que las propuestas existentes suelen ser funcionar solo para una lengua, y aun-
que el procedimiento sea en ocasiones aplicable a corpus de distintos idiomas o
se use alguna lengua pivote intermedia en el proceso, estos modelos no podran
comparar frases en cualquier idioma, caso que sı contempla nuestro modelo. Pre-
sentamos por tanto el que es que hasta la fecha (y hasta donde sabemos) el primer
modelo de deteccion de parafrasis interlingual existente, si bien este modelo su-
fre aun de ciertas limitaciones que se espera eliminar en una futura tesis doctoral.
Pasamos a continuacion a enumerar las contribuciones del trabajo realizado, ası
como las lıneas futuras de investigacion a las que da pie (y que se planea abordar
en la tesis doctoral derivada de esta tesis de master).
6.1. Contribuciones
Las principales contribuciones de la presente tesis de cara a investigacion
futura en el ambito de la parafrasis son las siguientes:
142
Capıtulo 6. Conclusiones y futuros caminos 143
La redaccion de un extenso Estado del Arte relativo tanto a la parafrasis
como a dos areas fundamentales relacionadas con la misma: los sistemas de
representacion del conocimiento y el concepto de similaridad.
Definicion de un modelo de comparacion y deteccion de parafrasis
entre dos oraciones expresadas como grafos UNL, tarea que ha llevado a
la creacion de una jerarquıa de relaciones UNL organizadas en funcion
de la informacion que contienen y a la seleccion de los atributos UNL
imprescindibles para que se de la parafrasis entre dos oraciones. Este mo-
delo ha sido tambien parcialmente implementado para verificar el correcto
funcionamiento del algoritmo que propone, en combinacion con los distintos
elementos desarrollados que lo componen.
Definicion de una distancia semantica sobre palabras universales de
UNL, la primera de la que se tiene conocimiento, para suplir la carencia
de una ontologıa UNL.
Construccion de un repositorio de casos de parafrasis (tanto originales
como recopilados de distintos artıculos sobre la parafrasis) de cara a la
continuacion de la investigacion en una futura tesis doctoral, para la cual se
han esbozado ademas los principales obstaculos a superar y algunos posibles
caminos a seguir, que se exponen en la siguiente seccion.
6.2. Futuras lıneas a seguir
De cara a la continuacion del tema presentado, estos son algunos de los posibles
caminos que se plantean:
Creacion de un corpus mayor de oraciones con y sin parafrasis en formato
de grafo UNL para una mayor y mas exhaustiva verificacion del modelo y
su implementacion.
Ampliacion del funcionamiento del modelo. Algunas ideas que se barajan
son:
• Buscar mas casos de parafrasis y otros posibles vınculos entre las re-
laciones y los atributos.
Capıtulo 6. Conclusiones y futuros caminos 144
• Reforzar las equivalencias entre las relaciones por medio de pesos cuan-
titativos y patrones concretos, como por ejemplo el uso de palabras
clave, como ciertos verbos (la relacion INS y MOD puede verse reforzada
en caso de aparecer verbos como emplear, utilizar o usar).
• Subordinar la similaridad entre ciertas palabras a la presencia de cier-
tos modificadores que complementen (positiva o negativamente) dicha
similaridad (como ocurre en tomar o comer algo de cena, que equivale
a cenar), creando patrones para las distintas expresiones.
• Ampliar el alcance de las entidades: actualmente solo contemplamos
nombres propios o numeros ya clasificados como tal en UNL gracias a
la restriccion iof; no obstante, podemos encontrar entidades no clasi-
ficadas, como serıa el caso de “la Universidad Politecnica de Madrid”.
Podrıan usarse para identificar estos casos los patrones linguısticos
sobre grafos UNL desarrollados en una tesis doctoral de este mismo
ano [24], ideados para el Ontology Learning pero aplicables tambien
en este contexto, o alguna tecnica de expansion de consultas como las
expuestas en el Estado del Arte adaptandola a UNL.
Profundizacion e incorporacion de algunos de los fenomenos relacionados,
como el ya mencionado textual entailment y la logica (para lo que necesi-
tarıamos adaptar recursos externos a UNL o crear algunos nuevos). Otro
fenomeno importante a nivel de documentos completos es el tratamiento de
la correferencia, ya tratado en UNL en [24] y cuyo enfoque podrıa adaptarse
tambien al tratamiento de la parafrasis en UNL.
El tratamiento de los marcos semanticos tambien ofrece una interesante
lınea de investigacion a seguir. La creacion de marcos en forma de plan-
tillas del tipo “A(agt) buy B(obj) C(src) = C(agt) sell B(obj) A(rec)”
nos permitirıa tratar algunas de las parafrasis que en nuestro caso no se
corroboran (ver el ultimo caso de los ejemplos de validacion del Anexo D).
Otra limitacion que serıa interesante eliminar es la de la correspondencia
frase a frase, permitiendo por ejemplo la segmentacion de una oracion en
dos (para este caso serıa imprescindible abordar el tratamiento de la corre-
ferencia comentado en lıneas anteriores).
Una de las principales carencias que hemos sufrido en este trabajo es la
Capıtulo 6. Conclusiones y futuros caminos 145
falta de una ontologıa UNL. Aunque no se ha llevado a cabo por la falta de
tiempo, se considera que podrıa crearse una automaticamente teniendo en
cuenta las mismas consideraciones contempladas en la medida de similari-
dad, permitiendo ademas que esta fuese mas rapida (pues no serıa necesario
ir concatenando equivalencias y antonimias). La necesidad de una posterior
revision manual del resultado ha impedido realizarla en el plazo de esta
Tesis de Fin de Master, pero se perfila como una de las primeras tareas a
abordar en el futuro.
Por ultimo, dada la magnitud del trabajo a llevar a cabo, se plantea para
la continuacion del trabajo la limitacion del modelo a un area determinada (se
esta considerando concretamente la validacion de contratos), lo que permitirıa
una correcta y exhaustiva creacion de todos los recursos necesarios (plantillas,
marcos...) dentro de un ambito controlado (serıa inabordable crear todos estos
recursos de cero para absolutamente cualquier contexto). Esto, en combinacion
con la consecucion de las lıneas anteriores, darıa lugar a un modelo completo de
deteccion de la parafrasis a nivel interlingual, con todas las ventajas y posibili-
dades que esto implica y con el rigor que permitirıa la independencia de recursos
externos.
Anexo A
Relaciones UNL
Relacion UNL Descripcion
agt agent a thing which initiates an action
and conjunction a conjunctive relation between concepts
aojthing with attribu-
tea thing which is in a state or has an attribute
apn concatenation
bas basisa thing used as the basis(standard) for expres-
sing degree
ben beneficiarya not directly related beneficiary or victim of an
event or state
cnt content an equivalent concept
cob affected co-thing
a thing which is directly affected by an implicit
event done in parallel or an implicit state in
parallel
con conditiona non-focused event or state which conditioned
a focused event or state
coo co-occurrencea co-occurred event or state for a focused event
or state
dur durationa period of time during an event occurs or a
state exists
fmt range a range between two things
frm origin an origin of a thing
146
Anexo A. Relaciones UNL 147
gol goal/final statethe final state of object or the thing finally as-
sociated with object of an event
ins instrument the instrument to carry out an event
man mannerthe way to carry out event or characteristics of
a state
met method a means to carry out an event
mod modification a thing which restrict a focused thing
nam name a name of a thing
obj affected thinga thing in focus which is directly affected by an
event or state
or disjunction disjunctive relation between two concepts
perproportion, rate or
distributiona basis or unit of proportion, rate or distribution
plc placethe place an event occurs or a state is true or a
thing exists
plf initial placethe place an event begins or a state becomes
true
plt final place the place an event ends or a state becomes false
pof part-of a concept of which a focused thing is a part
pos possessor the possessor of a thing
ptn partneran indispensable non-focused initiator of an ac-
tion
purpurpose or objecti-
ve
the purpose or an objective of an agent of an
event or a purpose of a thing which exist
qua quantity a quantity of a thing or unit
rec recipient a participant that recieves something
rsn reason a reason that an event or a state happens
scn scenea virtual world where an event occurs or state
is true or a thing exists
seq sequence a prior event or state of a focused event or state
src source/initial statethe initial state of an object or thing initially
associated with the object of an event
tim time the time an event occurs or a state is true
Anexo A. Relaciones UNL 148
tmf initial time the time an event starts or a state becomes true
tmt final time the time an event ends or a state becomes false
val value describes the value of a parameter
viaintermediate place
or statean intermediate place or state of an event
Tabla A.1: Atributos de UNL, version actualizada de los originales de [121].
Anexo B
Atributos UNL
Time
@past happened in the past
ex) He went there yesterday.
ex) It was snowing yesterday
@present happening at present
ex) It’s raining hard.
@future will happen in future
ex) He will arrive tomorrow
Speaker’s view of Aspect
@begin beginning of an event or a state
ex) It began to work again.
@complete finishing/completion of a (whole) event.
ex) I’ve looked through the script
@continue continuation of an event
ex) He went on talking.
@custom customary or repetitious action
ex) I used to visit [I would often go] there when I was a
boy
@end end/termination of an event or a state
ex) I have done it.
@experience Experience
ex) Have you ever visited Japan?
ex) I have been there.
149
Anexo B. Atributos UNL 150
@experience Experience
ex) Have you ever visited Japan?
ex) I have been there.
@progress an event is in progress
ex) I am working now.
@repeat repetition of an event
ex) He is jumping.
@state final state or the existence of the object on which an
action has been taken
ex) It is broken.
@just ex) He has just come.
@soon ex) The train is about to leave.
@yet feeling of not yet begin or end/complete
ex) I have not yet done it.
Speaker’s view of Reference
@generic generic concept
@def already referred
@indef non-specific class
@not complement set
@ordinal ordinal number
Speaker’s Focus
@emphasis Emphasis
ex) “I do like it”
@entry Entry point or main UW of whole UNL expressions or
in a hyper (scope) node
@qfocus The focused UW of a question
@theme Instantiates an object from different class
@title Title
@topic The topic UW of a sentence
Speaker’s attitudes
@confirmation Confirmation
ex) “You won’t say that, will you?”
ex) “sou desu ne?” (In Japanese)
Anexo B. Atributos UNL 151
@exclamation Feeling of exclamation
ex) “kirei na!”(“How beautiful (it is)!”In Japanese)
ex) “Oh!, look out!”, “Ow!”
@imperative Imperative
ex) “Get up!”
ex) “You will please leave the room.”
@interrogative Interrogation
ex) “Who is it?”
@invitation Inducement to do something
ex) “Will / Won’t you have some tea?”
ex) “Let’s go, shall we?”
@polite Polite feeling
ex) “Could you (please)...”
ex) “If you could . . . I would . . . ”
@request Request
ex) “ please don’t forget (@request)
@respect Respectful feeling
ex) “o taku(@respect)”(“(your) house” in Japanese)
ex) “Good morning(@respect), sir.”
@vocative Vocative
ex) “Boys(@vocative), be ambitious!”
Speaker’s view point
@ability ability, capability of doing things
ex) He can speak English but he can’t write it very well.
@admire express speaker’s admiration
@although ex) Quit smoking but he still smoke
@apodosis-real apodosis: reality in the first person
ex) We should (would) love to go abroad if we had the
chance
@apodosis-unreal apodosis: A supposed result from a supposition contrary
to reality
ex) If we had more money, we could buy a car.
@apodosis-cond apodosis: A supposed result from an assumed condition
ex) He would smoke too much if I did not stop him
Anexo B. Atributos UNL 152
@ask-back ask back
@conclusion ex) He is her husband ; she is his wife.
@doubt have doubt
@expectation expectation to other’s
ex) He’ll help you if you ask him. Will you have another
cup of coffee? Will you (please, kindly, etc.) open the
window? Would you excuse me ?
@grant to give consent to do
ex) Can I smoke in here? Could I smoke in here ? You
may borrow my car if you like.
@grant-not to not give consent to ex ) You mustn’t/are not allowed
to/may not borrow my car.
@induce induce to do
@inevitability supposition that something is inevitable
ex) They should be home by now. The game will (must
/ should) be finished by now. Oil will float (floats) on
water. He’ll (always) talk for hours if you give him the
chance. There must be a mistake. Mustn’t there be anot-
her reason for his behavior? They ought to be here by
now.
@insistence strong will to do
ex) You shall do as I say. He shall be punished. It’s your
own fault; you would take the baby with you.
@intention will, intention to do
ex) He shall get this money. You shall do exactly as you
wish. I’ll write as soon I as can.. We won’t stay longer
than two hours. He will do it, whatever you say. He will
keep interrupting me.
@may supposition of actual possibility
ex ) We could go to the concert. The road may be bloc-
ked. We might go to the concert. What you say might
be true.
Anexo B. Atributos UNL 153
@obligation to oblige someone
ex) The vendor shall maintain the equipment in good
repair.
@obligation-not forbid to do
ex) You must be back by 10 o’clock. Yesterday you had
to be back by 10 o’clock. Yesterday you said you must
had to be back by 10 o’clock. You needn’t/don’t have
to/are not obliged to be back by 10 o’clock.
@possibility assume reasonable possibility
ex ) Anybody can make mistakes. The road can be bloc-
ked. The road could be blocked.
@probability assume probability
ex) That would be his mother.
@regret feel sorry
@should to feel duty
ex) You should do as he says.
@unexpected-
presumption
presumption contrary to a wish or expectation
ex) It is odd that you should say this to me. I am sorry
that this should have happened.
@unexpected-
consequence
consequence contrary to a wish or expectation
ex) I made a draft, but it still needs another work.
@will will to do
ex) I shall not be long. We shall let you know our deci-
sion. We shall overcome.
UNL Convention
@pl Plural
@angle bracket <> is used
@double parenthesis (( )) is used
@double quotation “ ” is used
@parenthesis ( ) is used
@single quotation ‘ ’ is used
@square bracket [ ] is used
Tabla B.1: Relaciones conceptuales de UNL segun [121].
Anexo C
Validacion del documento
Los resultados de la validacion del texto devueltos por la implementacion se
exponen a continuacion:
Texto original
Los espanoles no confıan en que los Gobiernos esten usando bien sus datos
Los ciudadanos afirman que no saben ni quien, ni donde, esta capturando y alma-
cenando sus datos. Es decir, solo el 33 % de los espanoles cree que los Gobiernos
respetan la privacidad y el 22 % sostiene que confıan en que lo esten haciendo
las empresas. Ademas, cuando aumenta la edad y baja el nivel de instruccion
disminuye drasticamente las ventajas percibidas sobre el Big Data.
Texto modificado
Los espanoles no confıan en que los Gobiernos no esten usando bien sus datos
Los ciudadanos niegan que no saben ni quien, ni donde, esta capturando y alma-
cenando sus datos. Es decir, solo el 33 % de los espanoles cree que los Gobiernos
respetan la privacidad y el 22 % sostiene que confıan en que no lo esten haciendo
las empresas. Ademas, cuando disminuye la edad y aumenta el nivel de instruccion
aumenta drasticamente las ventajas percibidas sobre el Big Data.
154
An
exoC
.V
alidaciondel
docum
ento
155
run:
Caso 1: (dos @entry verbales)
---------------------------------------
Comparación de subgrafo verbal con núcleos: trust[@present, @not, @entry] y trust[@present, @not, @entry]
---------------------------------------
Sinonimia correcta entre: trust[@present, @not, @entry] y trust[@present, @not, @entry]
PASO 1: comparación de relaciones básicas de: trust[@present, @not, @entry] y trust[@present, @not, @entry]
Comprobación de la relación obj:
---------------------------------------
Comparación de subgrafo verbal con núcleos: use[@progress, @present] y use[@not, @progress, @present]
---------------------------------------
Sinonimia correcta entre: use[@progress, @present] y use[@not, @progress, @present]
Detectada negación unilateral entre use[@progress, @present] y use[@not, @progress, @present]
No se cumple una relación obligatoria: obj
-----------------------------
RESULTADO: NO HAY PARÁFRASIS
-----------------------------
Figura C.1: Resultado de la verificacion del tıtulo del texto: NO HAY PARAFRASIS
An
exoC
.V
alidaciondel
docum
ento
156
run: Caso 1: (dos @entry verbales) --------------------------------------- Comparación de subgrafo verbal con núcleos: affirm[@present, @entry] y deny[@present, @entry] --------------------------------------- Miramos los marcos Según los marcos, NO HAY PARÁFRASIS ----------------------------- RESULTADO: NO HAY PARÁFRASIS -----------------------------
Figura C.2: Resultado de la verificacion de la primera oracion del texto: NO HAY PARAFRASIS
An
exoC
.V
alidaciondel
docum
ento
157
run:
Caso 1: (dos @entry verbales)
---------------------------------------
Comparación de subgrafo verbal con núcleos: hold[@present, @entry] y hold[@present, @entry]
---------------------------------------
Sinonimia correcta entre: hold[@present, @entry] y hold[@present, @entry]
PASO 1: comparación de relaciones básicas de: hold[@present, @entry] y hold[@present, @entry]
Comprobación de la relación aoj:
---------------------------------------
Comparación de subgrafo nominal con núcleos: spanish:02[@pl, @def] y spanish:02[@pl, @def]
---------------------------------------
---------------------------------------
Comparación de subgrafo nominal con núcleos: percent:20[] y percent:20[]
---------------------------------------
---------------------------------------
Comparación de subgrafo nominal con núcleos: 22[] y 22[]
---------------------------------------
Todos los modificadores se corresponden en el subgrafo con núcleos: 22[] y 22[]
Todos los modificadores se corresponden en el subgrafo con núcleos: percent:20[] y percent:20[]
Todos los modificadores se corresponden en el subgrafo con núcleos: spanish:02[@pl, @def] y spanish:02[@pl, @def]
Comprobación de aoj OK
Comprobación de la relación obj:
---------------------------------------
Comparación de subgrafo verbal con núcleos: trust[@present] y trust[@present]
---------------------------------------
Sinonimia correcta entre: trust[@present] y trust[@present]
PASO 1: comparación de relaciones básicas de: trust[@present] y trust[@present]
Comprobación de la relación obj:
---------------------------------------
Comparación de subgrafo verbal con núcleos: do[@progress, @present] y do[@progress, @present, @not]
---------------------------------------
Sinonimia correcta entre: do[@progress, @present] y do[@progress, @present, @not]
Detectada negación unilateral entre do[@progress, @present] y do[@progress, @present, @not]
No se cumple una relación obligatoria: obj
No se cumple una relación obligatoria: obj
-----------------------------
RESULTADO: NO HAY PARÁFRASIS
-----------------------------
Figura C.3: Resultado de la verificacion de la segunda oracion del texto: NO HAY PARAFRASIS
An
exoC
.V
alidaciondel
docum
ento
158
run: Caso 1: (dos @entry verbales) --------------------------------------- Comparación de subgrafo verbal con núcleos: decrease[@present, @entry] y increase[@present, @entry] --------------------------------------- Miramos los marcos Según los marcos, PUEDE EXISTIR LA PARÁFRASIS ----------------------------- RESULTADO: PUEDE EXISTIR PARÁFRASIS -----------------------------
Figura C.4: Resultado de la verificacion de la tercera oracion del texto: PUEDE EXISTIR LA PARAFRASIS
Anexo D
Otros ejemplos de validacion
A continuacion se exponen algunas de las frases que se han usado para validar
la implementacion del modelo, incluidos casos que no respetan las limitaciones
impuestas para el modelo, junto con el resultado arrojado por la implementacion:
Frases Resultado
¿Cual es la ciudad mas grande de la India?
¿Cual es la ciudad menos pequena de la India?SI (SI)
¿Cual es la ciudad mas grande de la India?
¿Cual es la ciudad mas grande de Japon?NO (NO)
¿Cual es la ciudad mas grande de la India?
¿Cual es la ciudad menos grande de la India?NO (NO)
¿Cual es la ciudad mas grande de la India?
¿Cual es la ciudad mas pequena de la India?NO (NO)
¿Cual es la ciudad menos pequena de la India?
¿Cual es la ciudad menos grande de la India?NO (NO)
¿Cual es la ciudad menos pequena de la India?
¿Cual es la ciudad mas pequena de la India?NO (NO)
Honda abre en 1980.
Honda abre desde 1980.SI (SI)
Honda abre en 1980.
Honda abre en Japon.NO (NO)
Tom compro el Toyota y un Honda a John.
Tom compro un Honda y el Toyota a John.SI (SI)
159
Anexo D. Otros ejemplos de validacion 160
Tom compro el Toyota y un Honda a John.
Tom compro un Toyota y el Toyota a John.NO (NO)
Las ciudades del norte son mas ricas que las ciudades del sur.
Las ciudades del norte son menos ricas que las ciudades del sur.NO (NO)
Las ciudades del norte son mas ricas que las ciudades del sur.
Las ciudades del sur son menos ricas que las ciudades del norte.SI (SI)
Las ciudades del norte son mas ricas que las ciudades del sur.
Las ciudades del norte son menos pobres que las ciudades del sur.SI (SI)
Las ciudades del norte son mas ricas que las ciudades del sur.
Las ciudades del sur son menos pobres que las ciudades del norte.NO (NO)
Las ciudades del norte son mas ricas que las ciudades del sur.
Las ciudades del norte no son mas ricas que las ciudades del sur.NO (NO)
Las ciudades del norte son mas ricas que las ciudades del sur.
Las ciudades del norte no son mas pobres que las ciudades del sur.NO (SI)
Las ciudades del norte son tan ricas como las ciudades del sur.
Las ciudades del norte son tan rica como las ciudades del sur.NO (NO)
Tom compro un Honda a John.
Tom no compro un Honda a John.NO (NO)
Me dijo que pensaba participar en el concurso.
Me comento que pensaba participar en el concurso.SI (SI)
Me comento que pensaba participar en el concurso.
Me comento que no pensaba participar en el concurso.NO (NO)
Me dijo que pensaba participar en el concurso.
Me comento que no pensaba participar en el concurso.NO (NO)
La casa azul y blanca.
La casa blanca y azul.SI (SI)
Tom compro un Honda a John.
John vendio un Honda a Tom.NO (SI)
Tabla D.1: Algunos de las oraciones usadas para validar el modelo. En la primeracolumna encontramos las oraciones comparadas y en la segunda el resultado arro-jado por la implementacion, junto con el resultado considerado correcto (entreparentesis).
.
Bibliografıa
[1] Palakorn Achananuparp, Xiaohua Hu, y Xiajiong Shen. The Evaluation of
Sentence Similarity Measures. En Data warehousing and knowledge disco-
very, pags. 305–316. Springer, 2008.
[2] Maytham Alabbas y Allan Ramsay. Dependency Tree Matching with Exten-
ded Tree Edit Distance with Subtrees for Textual Entailment. En 2012 Fe-
derated Conference on Computer Science and Information Systems (FedC-
SIS), pags. 11–18. 2012.
[3] Sameh Alansary. Interlingua-based Machine Translation Systems : UNL
versus Other Interlinguas. 11th International Conference on Language En-
gineering, Ain Shams University, 2011.
[4] Boanerges Aleman-meza, Christian Halaschek-wiener, Satya Sanket Sahoo,
Amit Sheth, y I. Budak Arpinar. Template Based Semantic Similarity for
Security Applications. En Intelligence and Security Informatics, pags. 621–
622. 2005.
[5] Saif AlZahir, Qandeel Fatima, y Martin Cenek. New Graph-Based Text
Summarization Method. En 2015 IEEE Pacific Rim Conference on Com-
munications, Computers and Signal Processing (PACRIM), pags. 396–401.
2015.
[6] Ion Androutsopoulos y Prodromos Malakasiotis. A survey of paraphrasing
and textual entailment methods. Journal of Artificial Intelligence Research,
38:135–187, 2010.
[7] Ricardo Baeza-Yates y Berthier Ribeiro-Neto. Modern information retrie-
val. ACM press New York, 1999.
161
Bibliografıa 162
[8] Satanjeev Banerjee y Alon Lavie. METEOR: an automatic metric for MT
evaluation with improved correlation with human judgments. En Procee-
dings of Workshop on Intrinsic and Extrinsic Evaluation Measures for MT
and/or Summarization at the 43rd Annual Meeting of the Association of
Computational Linguistics (ACL-2005), June, pags. 65–72. 2005.
[9] Alberto Barron-Cedeno, Marta Vila, y Paolo Rosso. Deteccion automatica
de plagio : de la copia exacta a la parafrasis. (2007):1–19, 2010.
[10] Stephen Beale, Sergei Nirenburg, y Kavi Mahesh. Semantic analysis in
the Mikrokosmos machine translation project. En Proceedings of the 2nd
Symposium on Natural Language Processing, pags. 297–307. 1995.
[11] Ronald Brachman y Hector Levesque. Knowledge Representation and
Reasoning. Morgan Kaufmann Publishers Inc., 2004.
[12] Ronald J. Brachman. What’s in a concept: structural foundations for se-
mantic networks. International Journal of Man-Machine Studies, 9(2):127–
152, 1977.
[13] Alexander Budanitsky y Graeme Hirst. Evaluating WordNet-based Measu-
res of Lexical Semantic Relatedness. Computational Linguistics, 32(1):13–
47, 2006.
[14] Horst Bunke. On a relation between graph edit distance and maximum
common subgraph. Pattern Recognition Letters, 18(8):689–694, 1997.
[15] Jesus Cardenosa, Carolina Gallardo, y Miguel Angel de la Villa. Interlingual
information extraction as a solution for multilingual QA systems. En Pro-
ceedings of the 8th international conference on Flexible Query Answering
Systems, pags. 500–511. Springer-Verlag, 2009.
[16] Jesus Cardenosa, Carolina Gallardo, y Luis Iraola. Interlinguas : A classical
Approach for the Semantic Web. A Practical Case. En Mexican Interna-
tional Conference on Artificial Intelligence, pags. 932–942. Springer, 2006.
[17] Jesus Cardenosa, Carolina Gallardo, y Luis Iraola. UNL as a Text Content
Representation language for Information Extraction. En Proceedings of the
7th international conference on Flexible Query Answering Systems, pags.
507–518. Springer Berlin Heidelberg, 2006.
Bibliografıa 163
[18] Claudio Carpineto y Giovanni Romano. A Survey of Automatic Query
Expansion in Information Retrieval. ACM Computing Surveys, 44(1):1–50,
2012.
[19] Jackie Chi Kit Cheung. Distributional Semantics for Robust Automatic
Summarization. Tesis Doctoral, University of Toronto, 2014.
[20] Courtney Corley y Rada Mihalcea. Measuring the semantic similarity of
texts. Proceedings of the Association for Computational Linguistics Works-
hop on Empirical Modeling of Semantic Equivalence and Entailment, pags.
13–18, 2005.
[21] Madalina Croitoru, Sebastien Ferre, y Dickson Lukose. Conceptual Structu-
res: From Information to Intelligence, tomo 9 de Lecture Notes in Computer
Science. Springer Berlin Heidelberg, 2010.
[22] Krzysztof Czuba, Teruko Mitamura, y Eric Nyberg. Can Practical Interlin-
guas Be Used for Difficult Analysis Problems? En Proceedings of AMTA-98
Workshop on Interlinguas. 1998.
[23] Stefanescu Dan, Rajendra Banjade, y Vasile Rus. A Sentence Similarity
Method Based on Chunking and Information Content. En International
Conference on Intelligent Text Processing and Computational Linguistics,
pags. 442–453. Springer, 2014.
[24] Miguel Angel de la Villa. Metodo para la construccion automatica de on-
tologıas basado en patrones linguısticos. Tesis Doctoral, Universidad Po-
litecnica de Madrid, 2016.
[25] Michael Denkowski y Alon Lavie. Meteor Universal: Language Specific
Translation Evaluation for Any Target Language. En Proceedings of the
Ninth Workshop on Statistical Machine Translation, pags. 376–380. 2014.
[26] Mike Dillinger. Semantic Roles & Interlinguas. 2005.
[27] Bonnie J. Dorr. UNITRAN: An Interlingual Approach to Machine Trans-
lation. En AAAI-87 Proceedings, pags. 534–539. 1987.
[28] David Dowty. On the Semantic Content of the Notion of Thematic Role.
En Properties Types and Meaning, tomo 39, pags. 69–130. 1989.
Bibliografıa 164
[29] David Dowty. Thematic proto-roles and argument selection. Language,
67(3):547–619, 1991.
[30] Philip Edmonds y Graeme Hirst. Near-Synonymy and Lexical Choice.
Computational Linguistics, 28(2):105–144, 2002.
[31] Gunes Erkan y Dragomir R. Radev. LexRank: Graph-based lexical cen-
trality as salience in text summarization. Journal of Artificial Intelligence
Research, 22:457–479, 2004.
[32] David Farwell, Stephen Helmreich, Bonnie J. Dorr, et al. Interlingual an-
notation of multilingual text corpora. Proceedings of The North Ameri-
can Chapter of the Association for Computational Linguistics Workshop
on Frontiers in Corpus Annotation, pags. 55–62, 2004.
[33] Mirtha Lina Fernandez y Gabriel Valiente. A graph distance metric com-
bining maximum common subgraph and minimum common supergraph.
Pattern Recognition Letters, 22(6-7):753–758, 2001.
[34] Andrew Finch, Young-Sook Hwang, y Eiichiro Sumita. Using Machine
Translation Evaluation Techniques to Determine Sentence-level Semantic
Equivalence. En Proceedings of the Third International Workshop on Pa-
raphrasing (IWP 2005), pags. 17–24. 2005.
[35] Atsushi Fujita. Automatic Generation of Syntactically Well-formed and
Semantically Appropriate Paraphrases. Tesis Doctoral, Nara Institute of
Science and Technology (NAIST), 2005.
[36] Brian Gallagher. Matching Structure and Semantics : A Survey on Graph-
Based Pattern Matching. Technical Report FS-06-02, pags. 45–53, 2006.
[37] Xinbo Gao, Bing Xiao, Dacheng Tao, y Xuelong Li. A survey of graph edit
distance. Pattern Analysis and Applications, 13(1):113–129, 2010.
[38] Javier Garcıa Sogo. Medida de distancia semantica en grafos UNL. Tesis
de Master. Universidad Politecnica de Madrid. 2015.
[39] Alexander F. Gelbukh y Igor A. Bolshakov. The Meaning - Text Model :
Thirty Years After. En International Forum on Information and Documen-
tation, tomo 1, pags. 10–16. 2000.
Bibliografıa 165
[40] Asuncion Gomez-Perez, Mariano Fernandez-Lopez, y Oscar Corcho. On-
tological Engeenering: with examples from the areas of knowledge manage-
ment, e-commerce and the Semantic Web. 2004.
[41] Richard Wesley Hamming. Error Detecting and Error Correcting Codes.
Bell System Technical Journal, 29(2):147–160, 1950.
[42] Zellig Sabbettai Harris. Distributional Structure. Word, 10(2-3):146–162,
1954.
[43] Michael Heilman y Noah A. Smith. Tree edit models for recognizing textual
entailments, paraphrases, and answers to questions. En The 2010 Annual
Conference of the North American Chapter of the ACL, pags. 1011–1019.
2010.
[44] Jesus Herrera, Anselmo Penas, y Felisa Verdejo. Textual Entailment Recog-
nision Based on Dependency Analysis and WordNet. En Machine Learning
Challenges. Evaluating Predictive Uncertainty, Visual Object Classification,
and Recognising Tectual Entailment, pags. 231–239. 2006.
[45] Djoerd Hiemstra, Nicholas Kushmerick, Carlotta Domeniconi, et al. Light-
weight Ontologies. En Encyclopedia of Database Systems, pags. 1613–1619.
Springer US, Boston, MA, 2009.
[46] Graeme Hirst. Paraphrasing paraphrased. Invited talk at the Second In-
ternational Workshop on Paraphrasing. En 41st Annual Meeting of the
Association for Computational Linguistics. 2003.
[47] Graeme Hirst y David St-Onge. Lexical chains as representations of con-
text for the detection and correction of malapropisms. En WordNet - An
Electronic Lexical Database, pags. 305–332. 1998.
[48] ChukFong Ho, Masrah Azrifah Azmi Murad, Shyamala C. Doraisamy, y
Rabiah Abdul Kadir. Measuring sentence similarity from both the perspec-
tives of commonalities and differences. En Proceedings of the International
Conference on Tools with Artificial Intelligence, ICTAI, tomo 1, pags. 318–
322. 2010.
Bibliografıa 166
[49] Jay J. Jiang y David W. Conrath. Semantic Similarity Based on Corpus
Statistics and Lexical Taxonomy. Proceedings of International Conference
Research on Computational Linguistics, pags. 19–33, 1997.
[50] Simon Kasper. A comparison of thematic role theories. Tesis Doctoral,
2008.
[51] Kevin Knight y Steve K Luk. Building a Large-Scale Knowledge Base
for Machine Translation. En AAAI 94 Proceedings of the twelfth national
conference on Artificial Intelligence, tomo 94, pags. 773–778. 1994.
[52] Milen Kouylekov y Bernardo Magnini. Tree edit distance for recognizing
textual entailment: Estimating the cost of insertion. En Proceedings of the
PASCAL RTE-2 Challenge, pags. 68–73. 2006.
[53] Claudia Leacock y Martin Chodorow. Combining Local Context and Word-
Net Similarity for Word Sense Identification. WordNet: An electronic lexical
database., 49(2):265–283, 1998.
[54] Fritz Lehmann. Semantic networks. Computers & Mathematics with Ap-
plications, 23(2-5):1–50, 1992.
[55] Xiao Li y Qingsheng Li. Calculation of Sentence Semantic Similarity Based
on Syntactic Structure. Mathematical Problems in Engineering, 2015.
[56] Yuhua Li, David McLean, Zuhair A. Bandar, James D. O’Shea, y Keeley
Crockett. Sentence similarity based on semantic nets and corpus statistics.
IEEE Transactions on Knowledge and Data Engineering, 18(8):1138–1150,
2006.
[57] Dekang Lin. Using syntactic dependency as local context to resolve word
sense ambiguity. En Proceedings of the 35th annual meeting on Association
for Computational Linguistics, pags. 64–71. 1997.
[58] Dekang Lin. Automatic retrieval and clustering of similar words. En Pro-
ceedings of the 17th international conference on Computational linguistics,
pags. 768–774. 1998.
[59] Xiaoying Liu y Chuan-Lun Ren. Similarity measures based on sentence se-
mantic structure for recognizing paraphrase and entailment. En Proceedings
Bibliografıa 167
of the 2013 International Conference on Machine Learning and Cybernetics,
tomo 4, pags. 1601–1607. 2013.
[60] Xiaoying Liu, Yiming Zhou, y Ruoshi Zheng. Sentence Similarity based on
Dynamic Time Warping. International Conference on Semantic Computing
(ICSC 2007), pags. 250–256, 2007.
[61] Elena Lloret. Text summarization: an overview. 2008.
[62] Steven L. Lytinen. Conceptual dependency and its descendants. Computers
& Mathematics with Applications, 23(2):51–73, 1992.
[63] Nitin Madnani y Bonnie J. Dorr. Generating Phrasal and Sentential Pa-
raphrases: A Survey of Data-Driven Methods. Computational Linguistics,
36(3):341–387, 2010.
[64] Nitin Madnani, Joel Tetreault, y Martin Chodorow. Re-examining Machine
Translation Metrics for Paraphrase Identification. En Proceedings of the
2012 Conference of the North American Chapter of the Association for
Computational Linguistics: Human Language Technologies (NAACL HLT
’12), pags. 182–190. 2012.
[65] Alexander Maedche y Valentin Zacharias. Clustering Ontology-Based Me-
tadata in the Semantic Web. Principles of Data Mining and Knowledge
Discovery, 2431:383–408, 2002.
[66] Ana G. Maguitman, Filippo Menczer, Heather Roinestad, y Alessandro
Vespignani. Algorithmic detection of semantic similarity. En Proceedings
of the 14th international conference on World Wide Web, pags. 107–116.
2005.
[67] P. Maher. A similarity measure for conceptual graphs. Journal of Intelligent
Systems, 8:819–819, 1993.
[68] Prodromos Malakasiotis. Paraphrase and Textual Entailment. Tesis Doc-
toral, 2011.
[69] S. Mangairkarasi y S. Gunasundari. Semantic based Text Summarization
using Universal Networking Language. International Journal of Applied
Information Systems, 3(8):18–23, 2012.
Bibliografıa 168
[70] Igor A. Mel’cuk. Meaning-Text Models: A Recent Trend in Soviet Linguis-
tics. En Annual Review of Anthropology, pags. 27–62. 1981.
[71] Igor A. Mel’cuk. Paraphrase et lexique: la theorie Sens-Texte et le Diction-
naire explicatif et combinatoire. 1992.
[72] Igor A. Mel’cuk. The Meaning-Text Approach to the Study of Natural
Language and Linguistic Functional Models. En LACUS Forum, tomo 24,
pags. 3–20. 1998.
[73] Igor A. Mel’cuk y A. K. Zholkovskij. Towards a Functioning “Meaning-
Text” Model of Language. Linguistics, 8(57):10–47, 1970.
[74] Lingling Meng, Runqing Huang, y Junzhong Gu. A Review of Semantic
Similarity Measures in WordNet. International Journal of Hybrid Informa-
tion Technology, 6(1):1–12, 2013.
[75] Rada Mihalcea, Courtney Corley, y Carlo Strapparava. Corpus-based and
knowledge-based measures of text semantic similarity. En Proceedings of the
21st national conference on Artificial Intelligence, tomo 1, pags. 775–780.
2006.
[76] Rada Mihalcea y Paul Tarau. TextRank: Bringing order into texts. Pro-
ceedings of EMNLP, 4(4):404–411, 2004.
[77] George A. Miller. WordNet : A Lexical Database for English. Communi-
cations of the ACM, 38(11):39–41, 1995.
[78] Marvin Minsky. A framework for representing knowledge. 1974.
[79] Teruko Mitamura, Eric Nyberg, Enrique Torrejon, et al. Pronominal anap-
hora resolution in KANTOO English-to-Spanish machine translation sys-
tem. En Proceedings of MT Summit, pags. 235–239. 2001.
[80] Michael Mohler, Marc Tomlinson, y David Bracewell. Applying textual
entailment to the interpretation of metaphor. En Proceedings - 2013 IEEE
7th International Conference on Semantic Computing, ICSC 2013, pags.
118–125. 2013.
Bibliografıa 169
[81] Manuel Montes y Gomez, Alexander Gelbukh, Aurelio Lopez-Lopez, y Ri-
cardo Baeza-Yates. Flexible Comparison of Conceptual Graphs. Database
and Expert Systems Applications, pags. 102–111, 2001.
[82] Manuel Montes y Gomez, Alexander F. Gelbukh, y Aurelio Lopez-Lopez.
Comparison of conceptual graphs. En MICAI 2000: Advances in Artificial
Intelligence, pags. 548–556. Springer, 2000.
[83] Kazunori Muraki. PIVOT: Two-Phase Machine Translation System. En
Machine Translation Summit, pags. 81–83. 1989.
[84] David Nadeau y Satoshi Sekine. A survey of named entity recognition and
classification. Lingvisticae Investigationes, 1(30):3–26., 2007.
[85] Felix Naumann. Similarity measures. 2013.
[86] Roberto Navigli y Simone Paolo Ponzetto. BabelNet : The automatic cons-
truction, evaluation and application of a wide-coverage multilingual seman-
tic network. Artificial Intelligence, 193:217–250, 2012.
[87] Ani Nenkova y Kathleen McKeown. A survey of text summarization tech-
niques. En Mining Text Data, pags. 43–76. Springer, 2012.
[88] Akitoshi Okumura, Kazunori Muraki, y Susumu Akamine. Multi-lingual
sentence generation from the PIVOT interlingua. En Proceedings of the
MT Summit ’91, July, pags. 67–71. 1991.
[89] Partha Pakray, Soujanya Poria, y Sivaji Bandyopadhyay. Semantic Textual
Entailment Recognition using UNL. Polibots. Research journal on Com-
puter science and computer engineering with applications, 43(Ml):23–27,
2011.
[90] S. Lakshmana Pandian y S. Kalpana. UNL based document summarization
based on level of users. International Journal of Computer Applications,
66(24):28–36, 2013.
[91] Maria Teresa Pazienza, Marco Pennacchiotti, y Fabio Massimo Zanzotto.
Textual Entailment as Syntactic Graph Distance: a rule based and a SVM
based approach. Recognizing Textual Entailment, 2005.
Bibliografıa 170
[92] Maria Teresa Pazienza, Marco Pennacchiotti, y Fabio Massimo Zanzotto.
Learning textual entailment on a distance feature space. En Machine Lear-
ning Challenges. Evaluating Predictive Uncertainty, Visual Object Classifi-
cation, and Recognising Textual Entailment, pags. 240–260. Springer Berlin
Heidelberg, 2006.
[93] Diana Perez y Enrique Alfonseca. Application of the Bleu algorithm for re-
cognising textual entailments. En Proceedings of the First Challenge Works-
hop Recognising Textual Entailment, pags. 9–12. 2005.
[94] Roy Rada, Hafedh Mili, Ellen Bicknell, y Maria Blettner. Development and
applications of a metric on semantic nets. Transactions on Systems, Man
and Cybernetics, 19(1):17–30, 1989.
[95] Marta Recasens y Marta Vila. On Paraphrase and Coreference. Compu-
tational Linguistics, 36(4):639–647, 2010.
[96] Florence Reeder, Bonnie J. Dorr, David Farwell, et al. Interlingual an-
notation for MT development. Machine Translation: From Real Users to
Research. 6th Conference of the Association for Machine Translation in the
Americas, AMTA 2004. Proceedings (Lecture Notes in Artificial Intelligence
Vol.3265), pags. 236–245, 2004.
[97] Philip Resnik. Using Information Content to Evaluate Semantic Similarity
in a Taxonomy. En Proceedings of the 14th international joint conference
on Artificial intelligence - IJCAI’95, tomo 1, pag. 6. 1995.
[98] Miguel Rios, Wilker Aziz, y Lucia Specia. TINE: A Metric to Assess MT
Adequacy. En Proceedings of the Sixth Workshop on Statistical Machine
Translation (WMT 2011), pags. 116–122. 2011.
[99] Miguel Rios, Wilker Aziz, y Lucia Specia. UOW: Semantically Informed
Text Similarity. En Proceedings of the First Joint Conference on Lexical
and Computational Semantics (*SEM), pags. 673–678. 2012.
[100] Josef Ruppenhofer, Michael Ellsworth, y Mrl Petruck. FrameNet II: Exten-
ded theory and practice. pag. 118, 2010.
[101] Alfredo Sanchez Alberca. Modelado y Comparacion de Colecciones en la
Web Semantica. Tesis Doctoral, Universidad Politecnica de Madrid, 2015.
Bibliografıa 171
[102] Roger C. Schank y Robert P. Abelson. Scripts, Plans, and Knowledge. En
Proceedings of the 4th International Joint Conference on Artificial Intelli-
gence, pags. 151–157. 1975.
[103] Roger C. Schank y Lawrence G. Tesler. A conceptual parser for natural lan-
guage. En Proceedings of the 1st international joint conference on Artificial
intelligence, pags. 569–578. Morgan Kaufmann Publishers Inc., 1969.
[104] D. Shen y M. Lapata. Using semantic roles to improve question answering.
En Proceedings of EMNLP, pags. 12–21. 2007.
[105] Andre Shenk. Idioms in the Rosetta Machine Translation System. En
Proceedings of the 11th Conference on Computational Linguistics, 16, pags.
319–324. 1986.
[106] Sherry y Parteek Bhatia. Multilingual text summarization with UNL. En
In Computer Engineering and Applications (ICACEA), 2015 International
Conference on Advances in, pags. 740–745. 2015.
[107] Matthew Snover, Bonnie Dorr, Richard Schwartz, Linnea Micciulla, y John
Makhoul. A Study of Translation Edit Rate with Targeted Human An-
notation. En Proceedings of Association for Machine Translation in the
Americas, pags. 223–231. 2006.
[108] John F. Sowa. Conceptual Graphs for a Data Base Interface. IBM Journal
of Research and Development, 20(4):336–357, 1976.
[109] John F. Sowa. Principles of Semantic Networks: Explorations in the Re-
presentation of Knowledge, tomo 8. Morgan Kaufmann Publishers Inc.,
1991.
[110] John F. Sowa. Conceptual graphs as a universal knowledge representation.
Computers and Mathematics with Applications, 23(2-5):75–93, 1992.
[111] John F. Sowa. Knowledge representation: logical, philosophical, and compu-
tational foundations. 2000.
[112] John F. Sowa. Conceptual Graphs. En Handbook of Knowledge Represen-
tation, tomo Volume 3, cap. 5, pags. 213–237. 2008.
Bibliografıa 172
[113] John F. Sowa y Eileen C. Way. Implementing a semantic interpreter using
conceptual graphs. IBM Journal of Research and Development, 30(1):57–
69, 1986.
[114] Robert Speer y Catherine Havasi. ConceptNet 5: A Large Semantic Network
for Relational Knowlwdge. En Oliver Ferschke, Johannes Daxenberger, y
Iryna Gurevych, eds., The People’s Web Meets NLP: Theory and Applica-
tions of Natural Language Processing., pags. 121–160. 2013.
[115] Maja Stanojevic. Cognitive synonymy: A general overview. Linguistics and
Literature, 7:193–200, 2009.
[116] Michael Sussna. Word Sense Disambiguation for Free-text Indexing Using
a Massive Semantic Network. Proceedings of the Second International Con-
ference on Information and Knowledge Management, pags. 67–74, 1993.
[117] George Tsatsaronis, Iraklis Varlamis, y Michalis Vazirgiannis. Text related-
ness based on aword thesaurus. Journal of Artificial Intelligence Research,
37:1–39, 2010.
[118] Peter D. Turney y Patrick Pantel. From frequency to meaning: Vector space
models of semantics. Journal of Artificial Intelligence Research, 37:141–188,
2010.
[119] Amos Tversky y Eldar Shafir. Preference, Belief, and Similarity: selected
writings. MIT Press, 2004.
[120] Hiroshi Uchida. ATLAS II: A Machine Translation System Using Con-
ceptual Structure as an Interlingua. Second International Conference on
Theoretical and Methodological Issues in Machine Translation of Natural
Languages, 1988.
[121] Hiroshi Uchida y Meiying Zhu. The universal networking language beyond
machine translation. En International Symposium on Language in Cybers-
pace. Seul, 2001.
[122] Hiroshi Uchida, Meiying Zhu, y Tarcisio Della Senta. A Gift for a Millen-
nium. JANUARY. 1999.
Bibliografıa 173
[123] Lucy Vanderwende y William B Dolan. What Syntax can Contribute in
the Entailment Task. En Machine Learning Challenges. Evaluating Pre-
dictive Uncertainty, Visual Object Classification, and Recognising Textual
Entailment, pags. 205–216. Springer Berlin Heidelberg, 2006.
[124] Bernard Vauquois y Christian Boitet. Automated translation at Grenoble
University. Computational Linguistics, 11(1):28–36, 1985.
[125] Marta Vila, M. Antonia Martı, y Horacio Rodrıguez. Is This a Paraphra-
se? What Kind? Paraphrase Boundaries and Typology. Open Journal of
Modern Linguistics, pags. 205–218, 2014.
[126] Marta Vila Rigat. Paraphrase Scope and Typology . A Data-Driven Ap-
proach from Computational Linguistics A Data-Driven Approach from
Computational Linguistics. Tesis Doctoral, Univesitat de Barcelona, 2013.
[127] Ellen M. Voorhees. Query Expansion using Lexical-Semantic Relations. En
Proceedings of the 17th Annual International ACM SIGIR Conference on
Research and Development in Information Retrieval, pags. 61–69. Springer-
Verlag New York, Inc., 1994.
[128] William E. Winkler. String Comparator Metrics and Enhanced Decision
Rules in the Fellegi-Sunter Model of Record Linkage. En Proceedings of the
Section on Survey Research, pags. 354–359. 1990.
[129] Toon Witkam. DLT: an industrial R & D project for multilingual MT.
En Association for Computational Linguistics, ed., Journal of Chemical
Information and Modeling, pags. 756–759. 1988.
[130] Zhibiao Wu y Martha Palmer. Verb semantics and lexical selection. 32nd
annual meeting on Association for Computational Linguistics, pags. 133–
138, 1994.
[131] J. W. Zhong, H. P. Zhu, J. M. Li, y Y. Yu. Conceptual graph matching for
semantic search. Conceptual Structures: Integration and Interfaces, Procee-
dings, 2393:92–106, 2002.
[132] Ingrid Zukerman y Bhavani Raskutti. Lexical query paraphrasing for do-
cument retrieval. En Proceedings of the 19th international conference on
Computational linguistics -Volume 1, pags. 1–7. 2002.
Bibliografıa 174
[133] Ingrid Zukerman, Bhavani Raskutti, y Yingying Wen Yingying Wen. Query
expansion and query reduction in document retrieval. En Proceedings of the
15th IEEE International Conference on Tools with Artificial Intelligence.
2003.