MODELO DE PARAFRASIS SEM ANTICA - Archivo Digital …oa.upm.es/43048/1/TFM_MARIA_NAVAS_LORO.pdf · MODELO DE PARAFRASIS SEM ANTICA ... La mayor a de esfuerzos relacionados se han

Universidad Politecnica de Madrid

Escuela Tecnica Superior de Ingenieros Informaticos

Tesis de Fin de Master

MODELO DE PARAFRASIS SEMANTICA

DE SIMILITUD DE DOCUMENTOS

MASTER UNIVERSITARIO EN INTELIGENCIAARTIFICIAL

Departamento de Inteligencia Artificial

Madrid, Julio 2016

Autora

Marıa Navas LoroSupervisor

Jesus Cardenosa Lera

Grupo de Validacion y Aplicaciones Industriales

What else would be given without explanation?

How far could he rely, then, on the knowledge he was gaining? He would have

to ask questions constantly, take nothing for granted.

There would be so many opportunities to miss the obvious, so many chances to

misunderstand, so many ways of taking the wrong path.

The Robots of Dawn, Isaac Asimov

The difficult is what takes a little time;

the impossible is what takes a little longer.

Fridtjof Nansen

ii

Dedicado a ...

Ojala existiese una metrica de agradecimientos

que diese a cada uno de los que me aguantan

acompanan el peso justo que merece. No obstante,

y pese a lo que digan Riemann y Lebesgue,

hay cosas que no se pueden medir.

iii

Abstract

Treatment of paraphrasing is an understudied area of Natural Language Proces-

sing. Most related efforts have focused on the study of purely semantic similarity,

oriented to tasks such as text categorization, leaving aside the study of the content

of the text, of what it does really mean. The fact that the main approaches to the

treatment of paraphrasing are limited either to related areas such as logic or to

purely theoretical linguistic models with difficult and costly practical application

make this phenomenon not to be properly covered nowadays, being still impos-

sible to tell whether two texts say exactly the same despite being expressed in

different ways. Existing approaches also tend to be oriented to a unique language,

so their scope is even more limited, preventing them for instance from certifying if

a translation is correct or not. This thesis aims to remove this obstacle by approa-

ching paraphrasing from a multilingual point of view, basing the presented model

on an interlingual representation that allows it to study paraphrased texts that

can come from any language. This representation will also help to avoid other

common obstacles in Natural Language Understanding, such as the ambiguity

problem. Therefore we introduce a model based on a novel approach, language

independent, along with an extensive State of the Art on the areas involved in

the treatment of paraphrasing.

Resumen

El tratamiento de la parafrasis es un area poco estudiada del Procesamiento del

Lenguaje Natural. La mayorıa de esfuerzos relacionados se han centrado en el

estudio de la similaridad puramente semantica, orientada a tareas como la ca-

tegorizacion de textos, dejando a un lado el estudio del contenido del texto, de

que quiere decir realmente. El hecho ademas de que los principales enfoques del

tratamiento de la parafrasis se limiten o bien a areas relacionadas como la logica

o bien a modelos linguısticos puramente teoricos de difıcil y costosa aplicacion

practica hacen que este fenomeno no este a dıa de hoy debidamente cubierto,

siendo imposible asegurar si dos textos dicen lo mismo pese a estar expresados de

diferente manera. Las aproximaciones existentes suelen ademas estar orientadas

a una unica lengua, por lo que su alcance es aun mas limitado, impidiendo por

ejemplo certificar si una traduccion es correcta o no. En esta tesis se pretende

eliminar esta traba abordando la parafrasis desde un punto de vista multilingue,

basandose en una representacion interlingual que permitira al modelo presentado

estudiar la parafrasis en textos que pueden proceder de cualquier idioma. Es-

ta representacion servira tambien para evitar otros obstaculos habituales en la

Comprension del Lenguaje Natural, como es el problema de la ambiguedad. Pre-

sentaremos por tanto un modelo basado en un enfoque novedoso, independiente

de la lengua, acompanado ademas de un extenso Estado del Arte sobre las areas

involucradas en el tratamiento de la parafrasis.

Indice general

Dedicatoria III

Abstract IV

Resumen V

1. Introduccion 1

1.1. Representacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2. Similitud entre textos . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3. Parafrasis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.4. Objetivos y utilidad de la propuesta . . . . . . . . . . . . . . . . . 6

1.5. Outline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2. Estado del Arte 9

2.1. Representacion del conocimiento . . . . . . . . . . . . . . . . . . . 9

2.1.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.1.2. Teorıa de la Dependencia Conceptual . . . . . . . . . . . . 10

2.1.3. Roles Semanticos . . . . . . . . . . . . . . . . . . . . . . . 12

2.1.3.1. Marcos semanticos . . . . . . . . . . . . . . . . . 14

2.1.4. Redes Semanticas . . . . . . . . . . . . . . . . . . . . . . . 15

2.1.4.1. Tipos de Redes Semanticas . . . . . . . . . . . . 16

2.1.4.2. Ejemplos de Redes Semanticas . . . . . . . . . . 17

ConceptNet . . . . . . . . . . . . . . . . . . . . . . 17

WordNet . . . . . . . . . . . . . . . . . . . . . . . . 17

BabelNet . . . . . . . . . . . . . . . . . . . . . . . . 20

2.1.5. Ontologıas . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.1.5.1. Posibles definiciones . . . . . . . . . . . . . . . . 20

2.1.5.2. Tipos de ontologıas . . . . . . . . . . . . . . . . . 21

vi

Indice general vii

2.1.5.3. Componentes y ejemplos de Ontologıas . . . . . . 22

2.1.6. Grafos conceptuales . . . . . . . . . . . . . . . . . . . . . . 23

2.1.6.1. Estructura . . . . . . . . . . . . . . . . . . . . . 24

2.1.6.2. Roles Semanticos . . . . . . . . . . . . . . . . . . 24

2.1.6.3. Evolucion y aplicaciones . . . . . . . . . . . . . . 26

2.1.7. Teorıa del Texto-Significado . . . . . . . . . . . . . . . . . 27

2.1.8. Interlinguas . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.1.8.1. La Traduccion Automatica . . . . . . . . . . . . 29

2.1.8.2. Caracterısticas de una interlingua . . . . . . . . . 32

2.1.8.3. Ejemplos de interlinguas . . . . . . . . . . . . . . 33

PIVOT . . . . . . . . . . . . . . . . . . . . . . . . . 33

ATLAS II . . . . . . . . . . . . . . . . . . . . . . . 33

KANT . . . . . . . . . . . . . . . . . . . . . . . . . 34

UNITRAN . . . . . . . . . . . . . . . . . . . . . . . 35

DLT . . . . . . . . . . . . . . . . . . . . . . . . . . 36

Mikrokosmos . . . . . . . . . . . . . . . . . . . . . . 36

Interlingua IAMTC . . . . . . . . . . . . . . . . . . 37

Otras interlinguas . . . . . . . . . . . . . . . . . . . 38

2.1.9. UNL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.1.9.1. Palabras Universales . . . . . . . . . . . . . . . . 39

2.1.9.2. Relaciones . . . . . . . . . . . . . . . . . . . . . . 41

2.1.9.3. Atributos . . . . . . . . . . . . . . . . . . . . . . 42

2.1.9.4. Grafos UNL . . . . . . . . . . . . . . . . . . . . . 43

2.1.9.5. Situacion actual . . . . . . . . . . . . . . . . . . 45

2.2. Parafrasis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

2.2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . 46

2.2.2. Perspectiva linguıstica . . . . . . . . . . . . . . . . . . . . 47

2.2.2.1. Conceptos linguısticos relacionados . . . . . . . . 47

Textual entailment . . . . . . . . . . . . . . . . . . 47

Polisemia . . . . . . . . . . . . . . . . . . . . . . . . 48

Anafora y Correferencia . . . . . . . . . . . . . . . 48

Sinonimia . . . . . . . . . . . . . . . . . . . . . . . 49

Semantica Distribucional . . . . . . . . . . . . . . . 50

2.2.2.2. Modelo del Texto-Significado . . . . . . . . . . . 52

Concepto de parafrasis . . . . . . . . . . . . . . . . 52

Indice general viii

Tipos de parafrasis . . . . . . . . . . . . . . . . . . 53

Funciones lexicas . . . . . . . . . . . . . . . . . . . 53

2.2.3. Perspectiva computacional . . . . . . . . . . . . . . . . . . 54

2.2.3.1. Tipos de parafrasis . . . . . . . . . . . . . . . . . 54

2.2.3.2. Posibles enfoques . . . . . . . . . . . . . . . . . . 55

Generacion . . . . . . . . . . . . . . . . . . . . . . . 55

Extraccion . . . . . . . . . . . . . . . . . . . . . . . 55

Reconocimiento . . . . . . . . . . . . . . . . . . . . 56

2.2.3.3. Campos de aplicacion . . . . . . . . . . . . . . . 58

Resumidores . . . . . . . . . . . . . . . . . . . . . . 58

2.2.3.4. Consultas expandidas, Q/A y EI . . . . . . . . . 60

2.2.3.5. Generacion de LN y TA . . . . . . . . . . . . . . 60

Otros usos . . . . . . . . . . . . . . . . . . . . . . . 61

2.2.3.6. Recursos . . . . . . . . . . . . . . . . . . . . . . . 61

2.2.3.7. Otras consideraciones . . . . . . . . . . . . . . . 62

2.3. Similaridad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

2.3.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . 63

2.3.2. Nivel de palabra . . . . . . . . . . . . . . . . . . . . . . . 63

2.3.2.1. Cadenas de caracteres . . . . . . . . . . . . . . . 63

Basadas en edicion . . . . . . . . . . . . . . . . . . 63

Basadas en tokens . . . . . . . . . . . . . . . . . . . 65

Otras medidas . . . . . . . . . . . . . . . . . . . . . 67

2.3.2.2. Metodos de evaluacion de Traduccion Automatica 68

BLEU . . . . . . . . . . . . . . . . . . . . . . . . . 68

NIST . . . . . . . . . . . . . . . . . . . . . . . . . . 69

METEOR . . . . . . . . . . . . . . . . . . . . . . . 69

WER . . . . . . . . . . . . . . . . . . . . . . . . . . 70

TER . . . . . . . . . . . . . . . . . . . . . . . . . . 70

PER . . . . . . . . . . . . . . . . . . . . . . . . . . 70

Otras medidas . . . . . . . . . . . . . . . . . . . . . 71

2.3.3. Nivel sintactico . . . . . . . . . . . . . . . . . . . . . . . . 71

2.3.3.1. Arboles . . . . . . . . . . . . . . . . . . . . . . . 71

2.3.3.2. Grafos . . . . . . . . . . . . . . . . . . . . . . . . 72

2.3.4. Nivel semantico . . . . . . . . . . . . . . . . . . . . . . . . 73

2.3.4.1. Co-ocurrencias o medidas basadas en corpus . . . 74

Indice general ix

2.3.4.2. Medidas taxonomicas para conceptos . . . . . . . 75

Basadas en el camino entre conceptos . . . . . . . . 75

Basadas en el Contenido de Informacion . . . . . . 78

2.3.4.3. Medidas de similaridad para oraciones y textos . 79

Semantica de las palabras . . . . . . . . . . . . . . 81

Orden de las palabras . . . . . . . . . . . . . . . . . 81

Diferencias . . . . . . . . . . . . . . . . . . . . . . . 82

Uso de Roles Semanticos . . . . . . . . . . . . . . . 82

2.3.4.4. Similaridad entre grafos . . . . . . . . . . . . . . 83

Conceptos previos . . . . . . . . . . . . . . . . . . . 83

Comparacion de Grafos Conceptuales . . . . . . . . 84

2.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

3. Definicion del Trabajo 88

3.1. Introduccion y motivacion . . . . . . . . . . . . . . . . . . . . . . 88

3.2. Hipotesis de trabajo . . . . . . . . . . . . . . . . . . . . . . . . . 89

3.3. Asunciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

3.4. Restricciones y limitaciones . . . . . . . . . . . . . . . . . . . . . 90

3.5. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

3.6. Metodo de validacion . . . . . . . . . . . . . . . . . . . . . . . . . 91

4. Modelo propuesto 93

4.1. Bases teoricas del modelo . . . . . . . . . . . . . . . . . . . . . . 93

4.1.1. Perspectiva sintactica . . . . . . . . . . . . . . . . . . . . . 93

4.1.2. Perspectiva semantica . . . . . . . . . . . . . . . . . . . . 94

4.1.3. Comparacion de grafos . . . . . . . . . . . . . . . . . . . . 94

4.2. Puntos claves de UNL sobre los que se asienta el modelo . . . . . 94

4.2.1. Elementos de la oracion en UNL . . . . . . . . . . . . . . . 95

4.2.1.1. @entry, el nucleo de la frase . . . . . . . . . . . . 95

4.2.1.2. Categorıas gramaticales . . . . . . . . . . . . . . 95

4.2.1.3. Atributos . . . . . . . . . . . . . . . . . . . . . . 98

4.3. Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

4.3.1. Jerarquıa de relaciones . . . . . . . . . . . . . . . . . . . . 98

4.3.1.1. Relaciones basicas . . . . . . . . . . . . . . . . . 99

4.3.1.2. Modificadores . . . . . . . . . . . . . . . . . . . . 100

Modificadores de primer nivel (Mod1) . . . . . . . . 100

Indice general x

Modificadores de subgrafos de segundo nivel (ModS2) 102

Modificadores de subgrafos coordinados (ModSC) . . 105

Modificadores de subgrafos de tercer nivel (ModS3) . 106

4.3.2. Otros tipos de mapeos o correspondencias . . . . . . . . . 106

4.3.2.1. Mapeo de relaciones entre verbos de distinta ca-

tegorıa ontologica . . . . . . . . . . . . . . . . . . 106

4.3.2.2. Mapeo de relaciones entre subgrafos con nucleo

sustantivo-verbo y sustantivo-sustantivo . . . . . 108

4.3.2.3. Casos especiales: la comparacion, los superlativos

y la coordinacion . . . . . . . . . . . . . . . . . . 108

La comparacion . . . . . . . . . . . . . . . . . . . . 108

Los superlativos . . . . . . . . . . . . . . . . . . . . 110

La coordinacion . . . . . . . . . . . . . . . . . . . . 110

4.3.3. Seleccion de atributos . . . . . . . . . . . . . . . . . . . . 110

4.3.4. Medida de similaridad . . . . . . . . . . . . . . . . . . . . 112

4.3.4.1. Verbos . . . . . . . . . . . . . . . . . . . . . . . . 112

4.3.4.2. Adjetivos, adverbios y sustantivos . . . . . . . . . 115

4.3.4.3. Similaridad entre palabras de distinta categorıa . 116

4.3.4.4. Ejemplos de aplicacion de la medida . . . . . . . 116

4.3.5. Algoritmo de comparacion de grafos . . . . . . . . . . . . . 117

4.3.5.1. Distincion de casos del modelo comparativo . . . 118

4.3.5.2. Casos del modelo comparativo . . . . . . . . . . . 118

Caso 1 . . . . . . . . . . . . . . . . . . . . . . . . . 121

Casos 2, 3 y 4 . . . . . . . . . . . . . . . . . . . . . 122

4.3.5.3. Identificacion de subgrafos . . . . . . . . . . . . . 123

4.3.6. Ejemplos de aplicacion del modelo . . . . . . . . . . . . . . 124

4.3.6.1. Presencia de entidades . . . . . . . . . . . . . . . 125

Posibles variaciones . . . . . . . . . . . . . . . . . . 126

4.3.6.2. Similaridad semantica con varios verbos . . . . . 128

4.3.6.3. Caso de comparacion . . . . . . . . . . . . . . . . 131

Posibles variaciones . . . . . . . . . . . . . . . . . . 133

4.4. Resumen final sobre el modelo . . . . . . . . . . . . . . . . . . . . 133

5. Experimentacion y resultados 135

5.1. Implementacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

5.2. Validacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

Indice general xi

5.2.1. Tıtulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

5.2.2. Oracion 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

5.2.3. Oracion 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

5.2.4. Oracion 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

5.3. Conclusiones sobre la validacion . . . . . . . . . . . . . . . . . . . 141

6. Conclusiones y futuros caminos 142

6.1. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

6.2. Futuras lıneas a seguir . . . . . . . . . . . . . . . . . . . . . . . . 143

A. Relaciones UNL 146

B. Atributos UNL 149

C. Validacion del documento 154

D. Otros ejemplos de validacion 159

Bibliografıa 161

Indice de figuras

2.1. Representacion cronologica de Teorıas y Sistemas de Representacion 10

2.2. Relaciones mas habituales en ConceptNet . . . . . . . . . . . . . 18

2.3. Recursos principales de BabelNet . . . . . . . . . . . . . . . . . . 19

2.4. Tipos de ontologıas . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.5. Ejemplo de Grafo Conceptual . . . . . . . . . . . . . . . . . . . . 25

2.6. Representaciones de MTT . . . . . . . . . . . . . . . . . . . . . . 29

2.7. Triangulo de Vauquois . . . . . . . . . . . . . . . . . . . . . . . . 30

2.8. Traduccion entre pares vs Traduccion basada en interlinguas . . . 31

2.9. Ejemplo clasico de grafo UNL. . . . . . . . . . . . . . . . . . . . . 43

2.10. Ejemplo de representacion UNL . . . . . . . . . . . . . . . . . . . 45

2.11. Escala de sinonimia . . . . . . . . . . . . . . . . . . . . . . . . . . 49

2.12. Arquitectura de parafrasis segun la Distribucion Estructural . . . 51

2.13. Tipos de parafrasis . . . . . . . . . . . . . . . . . . . . . . . . . . 54

2.14. Medidas de similaridad para caracteres . . . . . . . . . . . . . . . 64

2.15. Ejemplo arbol de dependencias . . . . . . . . . . . . . . . . . . . 72

2.16. Comparativa medidas de similaridad semantica . . . . . . . . . . 80

2.17. Ejemplo de overlap en Grafos Conceptuales . . . . . . . . . . . . . 84

4.1. Ejemplo @entry verbo . . . . . . . . . . . . . . . . . . . . . . . . 95

4.2. Ejemplo @entry sustantivo . . . . . . . . . . . . . . . . . . . . . . 96

4.3. Modelo: Esquema de la jerarquıa relaciones UNL propuesta . . . . 99

4.4. Modelo: Esquema de modificadores tipo Mod1 . . . . . . . . . . . 103

4.5. Modelo: Esquema de modificadores de subgrafos . . . . . . . . . . 104

4.6. Estructura de la comparacion . . . . . . . . . . . . . . . . . . . . 109

4.7. Modelo: Casos del modelo de comparacion . . . . . . . . . . . . . 119

4.8. Modelo: Caso 1 del modelo de comparacion . . . . . . . . . . . . . 120

4.9. Grafo de la frase: “Tom bought a Honda from John.” . . . . . . . 125

xii

Indice de figuras xiii

4.10. Grafo de la frase: “Tom purchased a Honda from John.” . . . . . 125

4.11. Grafo de la frase: “Me comento que no pensaba participar en el

concurso.” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

4.12. Grafo de la frase: “Me dijo que pensaba participar en el concurso.” 128

4.13. Subgrafos en el proceso de comparacion entre dos oraciones . . . . 130

4.14. Grafo de la frase: “Las ciudades del norte son mas ricas que las

ciudades del sur.” . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

4.15. Grafo de la frase: “Las ciudades del sur son mas pobres que las

ciudades del norte.” . . . . . . . . . . . . . . . . . . . . . . . . . . 131

5.1. Verificacion: Grafo del tıtulo del texto original. “Los espanoles no

confıan en que los Gobiernos esten usando bien sus datos” . . . . 137

5.2. Verificacion: Grafo del tıtulo del texto modificado. “Los espanoles

no confıan en que los Gobiernos no esten usando bien sus datos” 137

5.3. Verificacion: Grafo de la oracion 1 del texto original. “Los ciuda-

danos afirman que no saben ni quien, ni donde, esta capturando y

almacenando sus datos” . . . . . . . . . . . . . . . . . . . . . . . 138

5.4. Verificacion: Grafo de la oracion 1 del texto modificado. “Los ciu-

dadanos niegan que no saben ni quien, ni donde, esta capturando

y almacenando sus datos” . . . . . . . . . . . . . . . . . . . . . . 138

5.5. Verificacion: Grafo de la oracion 3 del texto original. “Ademas,

cuando aumenta la edad y baja el nivel de instruccion disminuye

drasticamente las ventajas percibidas sobre el Big Data.” . . . . . 140

5.6. Verificacion: Grafo de la oracion 3 del texto modificado. “Ademas,

cuando disminuye la edad y aumenta el nivel de instruccion au-

menta drasticamente las ventajas percibidas sobre el Big Data” . . 140

C.1. Resultado de la verificacion del tıtulo del texto . . . . . . . . . . . 155

C.2. Resultado de la verificacion de la primera oracion del texto . . . . 156

C.3. Resultado de la verificacion de la segunda oracion del texto . . . . 157

C.4. Resultado de la verificacion de la tercera oracion del texto . . . . 158

Indice de tablas

2.1. Roles Semanticos estandar . . . . . . . . . . . . . . . . . . . . . . 14

2.2. Relaciones gramaticales vs Roles Semanticos . . . . . . . . . . . . 14

2.3. Tipos de Participantes en los Grafos Conceptuales . . . . . . . . . 26

2.4. Thematic Roles segun el tipo de participante en los Grafos Con-

ceptuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4.1. Modelo: Relaciones basicas UNL . . . . . . . . . . . . . . . . . . . 100

4.2. Correspondencias entre relaciones modificadoras semanticas . . . . 101

4.3. Mapeos entre verbos de distintas categorıas ontologicas. . . . . . . 107

A.1. Atributos de UNL . . . . . . . . . . . . . . . . . . . . . . . . . . . 148

B.1. Relaciones conceptuales . . . . . . . . . . . . . . . . . . . . . . . 153

D.1. Ejemplos de validacion . . . . . . . . . . . . . . . . . . . . . . . . 160

xiv

Capıtulo 1

Introduccion

El Procesamiento del Lenguaje Natural es un area particularmente difıcil de

la Inteligencia Artificial, pues el Lenguaje Natural, ya de por sı complejo en la

comunicacion entre seres humanos, es un escollo difıcil de superar a la hora de ser

procesado exclusivamente por maquinas. La riqueza y vasta diversidad del mis-

mo conllevan problemas como la ambiguedad y el multilinguismo que, junto con

otros aspectos como la separacion existente entre la Linguıstica Computacional

y la Linguıstica pura, han dificultado la evolucion de esta disciplina. Impulsada

recientemente por el auge de Internet y por el exito de propuestas como la Web

Semantica, que hacen que cada dıa el volumen de informacion a tratar crezca de

manera exponencial, la necesidad de sistemas capaces de analizar, procesar y es-

pecialmente interpretar correctamente todo tipo de informacion de distintas pro-

cedencias, idiomas y caracterısticas se hace cada vez mas acuciante. Los soportes

en los que estos datos llegan son cada vez mas diversos: vıdeo, audio, documentos,

blogs, webs, redes sociales, mensajerıa... pudiendo ademas venir formulados por

personas de muy distinta procedencia social, cultural y geolinguıstica, lo que aca-

rrea expresiones muy diferentes para los mismos conceptos. Todos estos formatos

y posibles formas de expresion tienen algo en comun: necesitan de un correcto

procesamiento del lenguaje para poder ser usados en toda su plenitud.

1.1. Representacion

Uno de los principales problemas a la hora de lidiar con el Lenguaje Natural

es su representacion. Aunque el ingles ha sido casi unanimemente adoptado como

lengua vehicular tanto en internet como en las relaciones internacionales a todos

1

Capıtulo 1. Introduccion 2

los niveles, no resulta efectivo como sistema de representacion del conocimiento

a nivel maquina; ademas, al no ser capaz de representar fielmente conceptos de

otros idiomas, no puede cumplir adecuadamente las expectativas de la globalizada

sociedad en la que vivimos, ni tampoco las necesidades impuestas por propuestas

como la ya mencionada Web Semantica.

Aunque existen tanto en el mercado como en el mundo de la investigacion multi-

tud de iniciativas que tratan de paliar el problema del multilinguismo mediante el

uso de distintos sistemas de traduccion y representacion del lenguaje, no es posi-

ble encontrar a dıa de hoy una solucion plenamente satisfactoria y completamente

operativa. Una parte representativa del Estado del Arte del presente trabajo re-

visa algunas de las teorıas y representaciones mas comunes propuestas desde la

perspectiva de la Linguıstica Computacional para lidiar con esta cuestion, hacien-

do especial hincapie en UNL, el lenguaje universal impulsado por las Naciones

Unidas como sistema de representacion intermedia entre distintos idiomas. Como

veremos mas adelante, el interes de esta iniciativa radica en el consenso alcanzado

por equipos procedentes de distintos paıses, compuestos por expertos del domi-

nio y designados representantes de las distintas lenguas, a la hora de organizar y

representar de manera estandarizada tanto los conceptos comunes a las diferentes

lenguas como los rasgos caracterısticos y distintivos de cada una de ellas, ası como

de definir y normalizar las distintas relaciones que se pueden dar entre dichos con-

ceptos en el proceso de comunicacion. Se alcanza por tanto con UNL el objetivo

de una representacion independiente de la lengua y basada exclusivamente en el

significado tras la formulacion en el lenguaje en el que se expreso originalmente,

que facilita tanto su procesamiento a nivel maquina como su transformacion a

otra lengua en el seno de un proceso de traduccion automatica.

No obstante, UNL esta aun en desarrollo y constante evolucion, por lo que a

la hora de comunicarnos con personas de otras lenguas y culturas, la mayorıa

de veces no tenemos mas remedio que conformarnos con el uso de traductores

automaticos que en ocasiones son de dudosa fiabilidad. Esto puede resultar de

utilidad en caso de tener dudas puntuales sobre expresiones concretas a la hora

de redactar por ejemplo en idiomas que conocemos parcialmente (como general-

mente es el caso del ingles) o que intuitivamente podemos interpretar, ya sea por

su similitud linguıstica con nuestra lengua materna o porque su origen es similar


y por tanto la estructura nos resulta familiar y es facil establecer similitudes con

nuestra propia lengua (como por ejemplo ocurre con el italiano y el espanol);

sin embargo, es poco probable que alguien con necesidad de escribir por ejemplo

un contrato en una lengua como el japones confiase ciegamente en la traduccion

arrojada por uno de estos sistemas. ¿Como saber si la traduccion es correcta?

¿existe alguna forma de corroborar esto a nivel maquina?

1.2. Similitud entre textos

En lo concerniente a la relacion de similaridad entre textos (y como veremos

mas adelante en el Estado del Arte), se ha escrito mucho tanto a nivel monolingue

como multilingue, ya que por ejemplo es util a la hora de realizar clasificaciones

tematicas de documentos, noticias, correos electronicos, etc. No obstante, en la

mayorıa de ocasiones esta similaridad se centra casi exclusivamente en la semanti-

ca, podrıamos decir que respondiendo a la pregunta ¿hablan de los mismo?, cuan-

do en el contexto de la comunicacion interlingue y la traduccion automatica la

cuestion clave, la que realmente nos interesa, es ¿dicen lo mismo?, que es igual

que decir que ambas representaciones significan lo mismo.

Es importante recalcar esta diferencia entre similitud semantica y mismo signifi-

cado o contenido, por lo que clarificaremos esta distincion con una serie ejemplos.

Si tenemos las siguientes oraciones:

Me gustan las patatas.

No me gustan las patatas.

para un ser humano es evidente que estamos hablando de lo mismo, pero que el

significado es radicalmente opuesto. Un sistema de similitud semantica darıa por

tanto una relacion de similaridad elevada, cuando obviamente no transmiten la

misma informacion. Asimismo, las frases:

Los limones son frutas.

Los limones son cıtricos.

tienen tambien un alto grado de similaridad semantica, y aunque el contenido

no podemos decir que sea exactamente el mismo, podemos considerar que sı que

tienen un significado francamente parecido.


Pensemos ahora en documentos legales o jurıdicos, como por ejemplo decretos

o un contrato. La correcta definicion y correspondencia entre una clausula y

su traduccion puede cambiar por completo las condiciones de un acuerdo, dando

lugar a posibles problemas y litigios que probablemente ambas partes quieran evi-

tar. En este caso, la sensibilidad a la hora de homogeneizar el significado deberıa

ser maxima. Vemos por tanto que el concepto de tener el mismo de significado

entre oraciones no esta tampoco muy claro; aunque lo trataremos mas adelante y

con mayor rigurosidad en el Estado del Arte, siguiendo la idea de la definicion de

igualdad o similaridad en el significado pasamos a avanzar brevemente el concepto

de parafrasis.

1.3. Parafrasis

Pese a que, como veremos, no es facil definir el concepto de parafrasis y no exis-

te una definicion absoluta aceptada, habitualmente la parafrasis se suele entender

como expresiones linguısticas que, usando distintas palabras, tienen el mismo sig-

nificado, pudiendo abarcar este fenomeno distintas unidades lexicas (desde morfe-

mas a oraciones o textos completos) [126]. No obstante, ¿que podemos considerar

mismo significado? Algunos autores sostienen que la parafrasis se da cuando hay

una correspondencia pura de significado, una sinonimia absoluta, mientras que

otros mantienen que la propia naturaleza del lenguaje hace practicamente im-

posible que se de una correspondencia exacta de significado entre formulaciones

distintas. Es por ello que comunmente se aceptan como parafrasis las expresiones

linguısticas que tienen aproximadamente el mismo significado, radicando el prin-

cipal problema tanto a nivel maquina como para los propios humanos en discernir

cuando se da y cuando no mediante algun tipo de umbral difuso dependiente del

propio contexto de las expresiones.

Por su parte, Hirst [46] mantiene que la parafrasis consiste en hablar de la “misma

situacion de manera diferente”, matizando que la “misma situacion” no tiene por

que implicar las mismas condiciones, detalles o siquiera el mismo mensaje. Esta

aproximacion a la parafrasis se relaciona tambien con otra perspectiva en la que

profundizaremos mas adelante y que pasa por considerar la parafrasis como una

doble presencia de otro fenomeno linguıstico conocido como “textual entailment”


(o implicacion textual). El textual entailment consiste a grandes rasgos en que un

primer texto implique el significado contenido en un segundo texto, por lo que

en caso de darse de manera bidireccional entre ambos textos se podrıa considerar

que estamos hablando de una parafrasis, ya que esto significarıa que vienen a

decir lo mismo.

Antes hablabamos de como la riqueza del lenguaje, una de las caracterısticas

que define al ser humano como especie superior, puede suponer un problema en

sı mismo; esto se hace patente al encontrar mil formas diferentes de expresar lo

que a priori consideramos el mismo contenido. Para decir que partimos de un lu-

gar, podemos elegir por ejemplo entre expresiones como “me voy”, “me marcho”,

“me piro”, “me largo” o incluso “huyo”. No obstante, aunque todas significan

irse de un lugar, no debemos dejar de apreciar los distintos matices que aporta

cada una de las posibles representaciones: “me piro” o “me largo”, por ejemplo,

son expresiones mucho mas coloquiales que las demas, dando una connotacion de

familiaridad e indicios sobre el contexto que no nos aportan las otras opciones,

mientras que “huir”, aunque signifique irse, implica urgencia y dejar atras una

situacion no deseada. El mismo contenido de informacion y la forma en la que

se expresa puede tambien buscar influir en la vision del receptor, o simplemen-

te plasmar o reforzar un punto de vista. Es el caso de las siguientes oraciones

(extraıdas de [46]):

Los Estados Unidos dirigieron la invasion de Iraq.

Los Estados Unidos dirigieron la liberacion de Iraq.

Los Estados Unidos dirigieron la ocupacion de Iraq.

donde los tres enunciados hacen referencia a la misma situacion, y sin embargo

la designan de manera diferente, siendo obvio para una persona que hablan de lo

mismo y que es una cuestion de perspectiva pero suponiendo un verdadero pro-

blema a nivel de procesamiento automatico. Igualmente ocurre con el enfasis que

queramos darle a los diferentes elementos de una frase, como podemos observar

en las siguientes oraciones:

Mueren trece personas en un atentado terrorista.

Un atentado terrorista provoca trece vıctimas mortales.

donde la primera enfatiza el numero de vıctimas y la segunda el propio atentado,

pese a contener exactamente la misma informacion. Por ultimo, muchas veces la


forma de expresar la informacion viene impuesta tambien por el propio contexto

del lenguaje, como es el caso de las formulas prefijadas de muchos textos jurıdi-

cos y legales, por lo que cabe resaltar que la parafrasis en ciertos casos puede

implicar perdida de informacion o incluso ambiguedad en la interpretacion del

contenido. Es por ello que a la hora de definir un sistema de gestion de parafrasis

es recomendable restringirse a un dominio concreto.

En definitiva, podemos concluir que la parafrasis es completamente subjetiva

y que se mueve entre los lımites de la similitud de significado y la importancia de

los diferentes matices de los que se compone una misma situacion, ası como de las

distintas formas que nos ofrece la lengua de tratarlos y expresarlos y que forman

parte de misma de la riqueza del lenguaje. Multitud de fenomenos linguısticos

como la ironıa y la metafora lindan con la parafrasis y pueden entenderse como

tal, pero indudablemente aportan al texto una patina que difıcilmente se pue-

de reproducir o detectar adecuadamente en un sistema de parafrasis automatico

actual; esto nos demuestra lo lejos que estamos aun de un sistema de Procesa-

miento del Lenguaje Natural perfecto, capaz de entender las sutilezas y distintas

dimensiones del lenguaje, y de como queda aun mucho trabajo por delante para

alcanzar resultados plenamente satisfactorios.

1.4. Objetivos y utilidad de la propuesta

Pasamos ahora a enunciar los objetivos a alcanzar en el presente trabajo y la

idea tras la propuesta planteada. Los objetivos a conseguir son los siguientes:

Por una parte, en esta tesis se planea estudiar el propio fenomeno de la parafra-

sis, contestando entre otras a las siguientes cuestiones: ¿que tipos hay? ¿como

se da? ¿como se gestiona en los sistemas actuales? ¿hay avances en este ambito?

¿cuales son las necesidad en este aspecto de los sistemas de Procesamiento del

Lenguaje Natural? ¿que aplicaciones pueden beneficiarse mas de un sistema de

estas caracterısticas? ¿que factores son importantes en la parafrasis (estructura,

semantica...)? y ¿que debemos mirar, donde orientar nuestros esfuerzos? Para

ello se ha realizado un extenso trabajo de documentacion sobre el estado actual

de la cuestion, que ha desembocado en la redaccion de un Estado del Arte en

el que repasaremos algunas teorıas linguısticas al respecto y las soluciones que


plantean, ası como posibles representaciones, formalizaciones e interpretaciones

de las mismas a nivel practico.

Por otra parte, se busca en el presente trabajo plantear un modelo capaz de

lidiar con la parafrasis a nivel tanto sintactico como semantico desde la represen-

tacion de UNL de la que hemos hablado anteriormente. Para ello se tendran en

cuenta tanto las teorıas linguısticas y los modelos y soluciones ya desarrollados y

examinados durante el Estado del Arte como las propias caracterısticas del siste-

ma UNL, que se revisaran tambien en dicho apartado de la tesis. Como veremos

mas adelante, la variacion que origina la parafrasis puede darse a distintos niveles:

sintactico, lexico, semantico... aunque la mayorıa de enfoques se han orientado a

este ultimo, creemos que la clave radica en combinar todas las perspectivas para

alcanzar un sistema lo mas completo posible; en definitiva, no podemos limitar-

nos solo a la semantica, por lo que vamos a abordarlo desde un punto de vista

semantico y sintactico.

Respecto a la utilidad del trabajo realizado, las posibles aplicaciones de un siste-

ma funcional de deteccion de parafrasis son muchas, como veremos mas adelante

en el Estado del Arte. Destacamos entre ellas la deteccion de plagio, la compa-

racion de respuestas en examenes y la expansion de busqueda en sistemas de

pregunta/respuesta. Otras ideas de mayor complejidad son la comprension y ge-

neracion de textos poeticos (principalmente de metaforas), ya que la deteccion

puede ademas ayudar a enriquecer la generacion de Lenguaje Natural, pudiendo

dotar de distintos niveles de complejidad a un mismo texto, adaptandolo a cierto

tipo de receptor (ninos, extranjeros, profesionales de cierto sector...). Un modelo

interlingue como el propuesto en este trabajo anadirıa a esta lista, ademas, la

posibilidad de verificar traducciones de distintos idiomas.

1.5. Outline

En lo concerniente a la organizacion de la tesis, tras la presente introduccion

sera como sigue.

Primero se realizara una revision de en que punto se encuentra la cuestion a


tratar actualmente; este Estado del Arte ha sido planteado en tres partes, como

sigue:

1. Se comenzara por examinar las distintas teorıas linguısticas y los posibles

sistemas de representacion que podemos encontrar en el Procesamiento del

Lenguaje Natural, tanto en lo concerniente al propio texto a interpretar

como en los distintos recursos que pueden ayudarnos en dicha tarea.

2. En segundo lugar pasaremos a revisar las distintas aproximaciones reali-

zadas para abordar el problema de la parafrasis, definiendola en mayor

profundidad y relacionandola con otros fenomenos linguısticos colindantes.

Veremos tambien areas de aplicacion que se benefician de los modelos ac-

tuales de gestion de la parafrasis, otras disciplinas del Procesamiento del

Lenguaje Natural que tocan la parafrasis y algunas de las soluciones plan-

teadas hasta ahora.

3. Por ultimo, hablaremos del concepto de similaridad en los distintos niveles

del lenguaje y veremos las posibles maneras de abordar la comparacion

de grafos, dado que es esta la representacion usada en UNL y con la que

trataremos en el modelo propuesto.

Tras el Estado del Arte enunciaremos el planteamiento del problema, mati-

zando los principales obstaculos que podemos encontrar (extraıdos de la revision

realizada en la seccion anterior) y definiendo las limitaciones, las asunciones y las

hipotesis que consideraremos en el modelo propuesto; estas restricciones vienen

impuestas por la propia naturaleza compleja del problema a tratar y por el hecho

de tratarse el presente trabajo de una Tesis de Fin de Master y ser por tanto de

una duracion y un enfoque forzosamente acotados.

Una vez realizado el planteamiento se detallara el modelo propuesto, ası como

los resultados obtenidos de su implementacion y la informacion que podemos

extraer de los mismos. Finalmente, se enunciaran las conclusiones derivadas del

problema tratado, del modelo y de los resultados, y se realizara un analisis final

que incluira las contribuciones principales de la tesis y el trabajo futuro a realizar.

Capıtulo 2

Estado del Arte

2.1. Representacion del conocimiento

2.1.1. Introduccion

Como ya se indico en la seccion previa, el Estado del Arte se dividira en tres

partes bien diferenciadas. Por un lado veremos distintas formas de representar

conocimiento linguıstico, ası como las teorıas y componentes mas importantes de

dicho campo. Comenzaremos por la Teorıa de la Dependencia Conceptual, con-

siderada precursora de las interlinguas, y el concepto de Roles Semanticos para

pasar a las representaciones propiamente dichas, entre las que veremos las Redes

Semanticas, las Ontologıas y los Grafos Conceptuales de John Sowa, acabando

con el Modelo del Texto Significado de Igor Mel’cuk y el concepto de interlin-

gua, analizando las principales propuestas de este tipo. Por ultimo, se expondran

las principales caracterısticas del Lenguaje Universal UNL. En la Figura 2.1 en-

contramos una representacion cronologica de los temas que trataremos en esta

primera parte del Estado del Arte.

A continuacion abordaremos directamente el tema de la parafrasis, examinan-

do estudios al respecto, formas de enfocarla y otras aproximaciones que tocan

distintas formas de tratar un texto a nivel de significado y que pueden resultar

utiles de cara al tratamiento de este fenomeno linguıstico. Por ultimo, en el ter-

cer apartado estudiaremos distintas medidas de similaridad entre los diferentes

componentes del lenguaje, ası como en algunas de sus posibles representaciones.

9

Capıtulo 2. Estado del Arte 10

C.S. Peirce(1883)

1969

TeoríaTexto-Significado

1965

Grafos Conceptuales

1976

Roles Semánticos

1965

Boom de las Interlinguas~1980 ~1990

Teoría de la Dependencia Conceptual

JapónPIVOTATLAS II

Europa79 - DLT

EEUU87 - UNITRAN89 - KANT (KANTOO)90’s - Mikrokosmos

2003IAMTC (EEUU)

1996UNL (UNU)

Redes Semánticas

1968

Ontologías(origen

filosófico)

Introducción de las Ontologías en la IA

~ 1970

Figura 2.1: Representacion cronologica de las teorıas y sistemas de representaciontratados durante la primera parte del Estado del Arte.

2.1.2. Teorıa de la Dependencia Conceptual

Para conocer el origen de las interlinguas, debemos remontarnos a la Teorıa

de la Dependencia Conceptual, considerada precursora de las mismas y planteada

formalmente en 1975.

La Teorıa de la Dependencia Conceptual (o Conceptual Dependency Theory)

es un modelo de representacion del conocimiento cuyas bases se proponen por

primera vez a finales de los anos 60, en el marco de la investigacion de la tesis

doctoral de Roger Schank1, publicada en 1969. Este modelo entiende la concep-

tualizacion de una oracion como una red de conceptos linguısticos unidos por una

serie de relaciones de dependencia, pudiendo encuadrarse estos conceptos a una

o varias categorıas predefinidas, que podemos subdividir en categorıas principa-

les o gobernantes (Governing categories) y categorıas secundarias o de asistencia

(Assisting categories). La pertenencia a dichas categorıas viene determinada por

una serie de reglas de dependencia, como por ejemplo si una palabra tiene senti-

do o no por sı misma, sin depender de otra (este es el caso, por ejemplo, de los

adjetivos, que deben acompanar necesariamente al concepto al que describen).

Segun esta teorıa, el proceso linguıstico puede entenderse como un mapeo desde y

hasta una representacion mental [103], componiendose dicho mapeo de conceptos

unidos mediante relaciones de dependencia.

1 http://www.rogerschank.com/about#stuff-I-have-done. El ultimo acceso a todas laswebs citadas en el presente documento se ha realizado el 20 de junio de 2016.

http://www.rogerschank.com/about#stuff-I-have-done


En este modelo, los significados se representan por medio de una serie de Con-

ceptos Primitivos (CPs), que pueden simbolizar acciones, cambios de estado o

instrumentos para otras acciones, entre otros. Estos CPs tienen a su vez un rol

conceptual concreto en el global de la frase (tales como agente, objeto...) y estan

estrechamente relacionados con sus representados en el mundo real, por lo que

pueden utilizarse como referencia tanto para una interlingua como para un siste-

ma de representacion interno para una base del conocimiento no necesariamente

orientado a la linguıstica.

Dentro de los CPs destacan las Acciones Primitivas, un conjunto de acciones

base que han ido evolucionando al tiempo que la propia teorıa y que pueden

representar cualquier suceso, ya sea individualmente o combinandose unas con

otras. Entre estas Acciones Primitivas encontramos, por ejemplo, PTRANS (que

simboliza la transferencia de un objeto de un lugar a otro) o SPEAK (el acto

de producir sonidos, no necesariamente con el fin de comunicarse). Las Accio-

nes Primitivas pueden, ademas, incluir modificadores para matizar o situar su

ratio de accion; algunos de estos modificadores son, por ejemplo, los referentes al

tiempo (pasado, futuro, transicion...) o la actitud (interrogacion, negacion, condi-

cionalidad...). Paralelamente, estas acciones se relacionan mediante relaciones de

dependencia como instrumento de, objeto de o receptor, dando lugar a un grafo

que simboliza el significado de la frase pero no emula necesariamente la estructura

sintactica de la misma.

Uno de los puntos claves de esta propuesta es que introduce la idea de una re-

presentacion canonica del significado, implicando por un lado la independencia

con respecto a la lengua y por otro la posibilidad de que distintas palabras y

estructuras puedan representar un mismo significado o concepto, contemplando

ası la parafrasis. Estas propiedades, como veremos mas adelante, son algunos de

los rasgos fundamentales que caracterizan a las interlinguas. La representacion

canonica, ademas, permite un cierto grado de inferencia que otras representa-

ciones mas enfocadas a la linguıstica (como por ejemplo las Redes Semanticas,

abordadas en la Seccion 2.1.4) no admiten.

Mas alla de su posterior relacion con las interlinguas, este modelo ha sido amplia-

mente utilizado para diversas aplicaciones [62], destacando entre ellas la repre-


sentacion de escenarios y situaciones mediante planes y scripts o guiones (como

es el caso de los proyectos PAM, Plan Applier Mechanism, y SAM, Script Ap-

plier Mechanism [102]) y el procesamiento del lenguaje natural en general (en

proyectos como MARGIE, Meaning Analysis, Response Generation and Inferen-

ce on English). Cabe mencionar que las bases de la Teorıa de la Dependencia

Conceptual han ido evolucionando y adaptandose dependiendo del uso y el con-

texto de aplicacion hasta desembocar finalmente en ciertos casos en la creacion

de interlinguas propiamente dichas.

2.1.3. Roles Semanticos

Los Roles Semanticos o Thematic Roles (“roles tematicos” en espanol, tam-

bien llamados case relations o karakas [28]) son, desde el punto de vista linguıstico

[50], “generalizaciones entre los argumentos de un predicado para capturar regu-

laridades entre la representacion semantica y la expresion sintactica de dicho

predicado”.

El origen de los Roles Semanticos se remonta a la aparicion del termino origi-

nal Thematic Relation a mediados de la decada de los 60 y a su posterior po-

pularizacion en los anos 70; no obstante, la idea ya estaba presente en distintas

propuestas linguısticas anteriores (para mas informacion al respecto, ver [29]).

Existen ademas distintos puntos de vista sobre que perspectiva debe prevalecer

al definir los roles, pudiendo verse desde una perspectiva sintactica, lexica o con-

ceptual (o incluso una mezcla de varias), o si estos deben formar parte de la

propia base del lenguaje o definirse en el mapeo entre significado y forma.

De un manera mas intuitiva, los roles semanticos podrıan definirse como eti-

quetas semanticas entre conceptos que describen relaciones conceptuales entre

los mismos. Han sido ampliamente utilizados en todo tipo de representacion del

conocimiento, desde los Grafos Conceptuales hasta las interlinguas (casos que ve-

remos mas adelante en este mismo capıtulo), pasando por las Redes Semanticas.

El nombre que se da a estas etiquetas, ası como su tipo y la cantidad de ellas,

cambiara dependiendo de la implementacion, al igual que la forma de organizarlas

(pueden estar relacionadas, por ejemplo, de manera taxonomica, como ocurre en

el caso de las ontologıas y los tesauros). Aunque no existe un listado estandar de

Roles Semanticos, han sido muchos los linguistas que se han aventurado a dar su


propia lista, y son palpables las similitudes entre ciertos elementos en distintas

formas de representacion (veremos casos concretos mas adelante); en la Tabla 2.1

destacamos algunas de los roles mas utilizados (recopilados en [28] a partir de los

trabajos de distintos autores) y los nombres que reciben en algunas representa-

ciones (segun lo expuesto en [26]):

Rol Descripcion Ejemplo Notacion

Agent

Participante para el

cual el significado del

verbo especifica lo que

hace o causa, posi-

blemente de manera

intencionada.

sujeto de:

matar

comer

golpear

CGs: agent, accom-

paniment

KANT: agent, ac-

companier

UNL: agent, co-

agent, partner

Patient

Participante para el

cual el verbo caracteri-

za que le ha ocurrido y

como le afecta lo que le

ocurre.

objeto de:

matar

comer.

CGs: experiencer

KANT: experiencer

UNL: experiencer

Experiencer

Participante que se ca-

racteriza por ser cons-

ciente de algo

sujeto de:

amar

objeto de:

molestar

CGs: experiencer

KANT: experiencer

UNL: experiencer

Theme

Participante que se ca-

racteriza por cambiar su

posicion o condicion, o

por estar en un estado o

posicion

sujeto de:

andar

morir

objeto de:

dar

CGs: theme

KANT: -

UNL: object

SourceObjeto del que procede

el movimiento

caja en:

Quito el libro

de la caja

CGs: matter

KANT: source

UNL: source

GoalObjeto al que se dirige

el movimiento

caja en:

Puso el libro

en la caja

CGs: goal

KANT: -

UNL: goal


Tabla 2.1: Algunos Roles Semanticos estandar (los dos ultimos propuestos porJackendoff) y su notacion en distintas representaciones (CGs = ConceptualGraphs, UNL y KANT sendas interlinguas), todas ellas explicadas con mayordetalle mas adelante en este mismo capıtulo.

Un error muy comun suele ser confundir los roles semanticos con las relaciones

gramaticales estandar usuales, tales como sujeto, objeto, complemento... Aunque

en algunos casos establecer dicha relacion puede resultar util para ciertas tareas

de procesamiento o parsing, la relacion entre ambos etiquetados no es necesaria-

mente directa: mientras que los Roles Semanticos son una notacion conceptual,

las relaciones gramaticales son puramente morfosintacticas 2. En la Tabla 2.2 en-

contramos un ejemplo de esta diferencia, en el que tres sujetos desempenan tres

roles semanticos distintos.

Frase de ejemplo Sujeto Rol Semantico

Bob abrio la puerta con una llave. Bob Agente

La llave abrio la puerta. La llave Instrumento

La puerta se abrio. La puerta Paciente

Tabla 2.2: Relaciones gramaticales vs Roles Semanticos: tres ejemplos en los quela misma relacion gramatical (el sujeto) desempena distintos roles semanticos.

2.1.3.1. Marcos semanticos

Intimamente ligado a los Roles Semanticos, otro concepto linguıstico intere-

sante a la hora de representar consideraciones semanticas es el de frame o marco

semantico. La idea de los marcos fue establecida en 1974 por Marvin Minsky,

considerado el padre de la Inteligencia Artificial, y podrıan verse en el contexto

de su investigacion (en ese momento orientada a la percepcion y la representacion

de conocimiento en el seno de la Vision por Computador) como “capturas o foto-

grafıas de un momento concreto en un contexto o problema determinado”. Como

explica el propio Minsky en [78], un frame serıa “una estructura de datos que

almacenamos en nuestra memoria para representar una situacion estereotipada”,

2 http://www-01.sil.org/linguistics/GlossaryOfLinguisticTerms/

ComparisonOfSemanticRoleAndGra.htm

http://www-01.sil.org/linguistics/GlossaryOfLinguisticTerms/ComparisonOfSemanticRoleAndGra.htm

http://www-01.sil.org/linguistics/GlossaryOfLinguisticTerms/ComparisonOfSemanticRoleAndGra.htm


“un framework que recordamos y que debe ser ajustado o adaptado a la realidad

introduciendo los cambios necesarios”. Cada frame implica a su vez cierta infor-

macion adjunta (metainformacion, podrıamos decir), sobre como usar el frame en

la practica, que puede implicar en el futuro, etc. Los frames se podrıan agrupar

en colecciones tematicas, convirtiendose en sistemas de frames que se relacionan

entre sı por sus diferentes componentes, coordinando ası distintos puntos de vista

sobre las situaciones relacionadas que representa cada frame.

Siguiendo la idea de Minsky encontramos la Semantica de Frames, una teorıa

linguıstica desarrollada por Charles Fillmore, donde el frame es “una estructura

conceptual que representa y describe una situacion, un objeto o un evento junto

con sus participantes y propiedades” [100]. Un frame serıa como una lista de argu-

mentos (slots) donde introducirıamos los distintos elementos participantes en la

situacion que describe el frame [11]. En palabras de Sowa, los slots de los frames

son la representacion de los roles semanticos en un sistema de frames, equiva-

liendo3 a las relaciones conceptuales de los Grafos Conceptuales (que trataremos

mas adelante en la Seccion 2.1.6). El repositorio de frames mas importante a nivel

mundial es FrameNet4, en ingles e iniciado por el propio Fillmore en la Universi-

dad de Berkeley en 1997, pero existen alternativas en distintos idiomas, como por

ejemplo Spanish FrameNet para el espanol5. Existen asimismo otras iniciativas

similares disponibles online, como es el caso de PropBank6.

2.1.4. Redes Semanticas

Las Redes Semanticas (Semantic Networks) fueron introducidas en el mundo

de la Inteligencia Artificial por primera vez en 1968 por Ross Quillian, pensadas

como “un mecanismo asociativo general capaz de codificar el significado de las

palabras” [12]. Los significados se representarıan mediante nodos que se unirıan

unos con otros para representar informacion asociada como propiedades, clases,

instancias... Una posible definicion formal de las Redes Semanticas podemos en-

contrarla en [54], donde se las considera “una representacion del conocimiento

grafal con forma de red”, distinguiendola explıcitamente de otros tipos de red al

considerar que “una red abstracta (...) se convierte en semantica cuando asig-

3 http://www.jfsowa.com/ontology/thematic.htm4 https://framenet.icsi.berkeley.edu/fndrupal/5 http://spanishfn.org/6 https://verbs.colorado.edu/~mpalmer/projects/ace.html

http://www.jfsowa.com/ontology/thematic.htm

https://framenet.icsi.berkeley.edu/fndrupal/

http://spanishfn.org/

https://verbs.colorado.edu/~mpalmer/projects/ace.html


nas un significado a cada nodo y link”. Se pueden tambien interpretar las Redes

Semanticas como una evolucion de las Redes de Herencia, tal y como declaran

Branchman y Levesque en [11], al igual que se consideran precursoras de los

Grafos Conceptuales (que abordaremos mas tarde en la Seccion 2.1.6).

2.1.4.1. Tipos de Redes Semanticas

Por su parte, John Sowa define en [109] las Redes Semanticas de la siguiente

manera:

“Informalmente, una Red Semantica es un grafo no dirigido y acıcli-

co en el cual los nodos representan entidades y los arcos etiquetados

representan relaciones binarias entre las entidades.”

Segun este autor7, existen diversos tipos de Redes Semanticas:

Redes Defininicionales (Definitional networks): donde se hace enfasis en

las relaciones is-a y subtipo-de, dando lugar a jerarquıas con herencia.

Redes Asercionales (Assertional networks): contienen aserciones; se di-

ferencian de las primeras porque se asume que lo expresado es cierto.

Redes Implicacionales (Implicational networks): la relacion primaria es la

implicacion, pudiendo usarse para expresar patrones de creencia, causalidad

o inferencia.

Redes Ejecutables (Executable networks): este tipo de Redes Semanticas

incluyen mecanismos que se ejecutan, como paso de mensajes, inferencias,

busqueda de asociaciones...

Redes de Aprendizaje (Learning networks): construye o extiende las

representaciones adquiriendo nuevo conocimiento a partir de ejemplos, pu-

diendo ajustarse (borrar o crear nuevos nodos) segun un sistema de pesos

asociado a su estructura (tanto a los arcos como a los nodos).

Redes Hıbridas (Hybrid networks): combinan dos o mas de los tipos de

redes vistas anteriormente, ya sea mezclandolas o interactuando de alguna

manera.

7 http://www.jfsowa.com/pubs/semnet.htm

http://www.jfsowa.com/pubs/semnet.htm


2.1.4.2. Ejemplos de Redes Semanticas

Algunas Redes Semanticas bien conocidas y ampliamente utilizadas tanto en

el campo del Procesamiento del Lenguaje Natural como en otras disciplinas de la

Inteligencia Artificial se exponen a continuacion:

ConceptNet

ConceptNet es una gran Red Semantica destinada a la representacion de co-

nocimiento orientado a tareas que implican sentido comun. Es parte del proyecto

OMCS8 (Open Mind Commonsense), desarrollado por el Media Lab del MIT

(Instituto Tecnologico de Massachusetts), y se construye a partir de un corpus

escrito en lenguaje natural (en ingles) con el que la gente puede interactuar di-

rectamente, aportando nueva informacion de sentido comun.

ConceptNet (actualmente en su quinta version9) es conceptualmente un hiper-

grafo cuyos nodos representan palabras o frases cortas (conceptos) y que consta

de relaciones etiquetadas entre dichos nodos (que expresan aserciones sobre el

mundo) [114]. Algunas de estas relaciones (las mas utilizadas) pueden encontrar-

se en la Figura 2.2, tomada de [114].

Existe asimismo una version visual online llamada Lexipedia basada en Con-

ceptNet10, ası como diversos sistemas que lo usan para distintas aplicaciones

(Sentiment Analysis, Traduccion Automatica, Bases del Conocimiento...).

WordNet

WordNet es una Red Semantica (probablemente la mas conocida del mundo)

que viene desarrollandose en la Universidad de Princeton desde 1985. Conside-

rada uno de los recursos mas utilizados en lengua inglesa, es una base de datos

lexica cuyo contenido se agrupa en synsets, un termino especıfico para denominar

un concepto que puede representarse por medio de distintos terminos, a los que

agrupa a nivel organizativo como si de un cluster se tratara. Estos synsets (defi-

8 https://en.wikipedia.org/wiki/Open_Mind_Common_Sense#ConceptNet9 http://conceptnet5.media.mit.edu/

10 https://en.wikipedia.org/wiki/Lexipedia , http://www.lexipedia.com/

https://en.wikipedia.org/wiki/Open_Mind_Common_Sense#ConceptNet

http://conceptnet5.media.mit.edu/

https://en.wikipedia.org/wiki/Lexipedia

http://www.lexipedia.com/


Figura 2.2: Relaciones mas habituales en ConceptNet, con su numero de apari-ciones y los patrones asociados (Fuente: [114]).

nidos en la web de WordNet11 como “conjuntos de sinonimos cognitivos”) pueden

agrupar adjetivos, sustantivos, adverbios o verbos, y estan relacionados entre sı

tanto por relaciones semantico-conceptuales como por relaciones lexicas, dando

lugar a una red semantica completamente desambiguada. Aunque a primera vista

la estructura de WordNet pueda recordar a la de un tesauro, WordNet es mas

profundo a nivel semantico, al considerar los propios significados mas alla de las

palabras. Tambien se puede considerar que la infraestructura de relaciones que

sostiene WordNet tiene todas las propiedades necesarias para ser usada como una

ontologıa, llegando a utilizarse en ocasiones como tal.

Respecto a las relaciones semanticas que encontramos en WordNet, no todas pue-

den darse entre todos los tipos de synset ; a continuacion citamos las principales

con sus respectivas restricciones [77]:

11 https://wordnet.princeton.edu/

https://wordnet.princeton.edu/


Sinonimia: es la relacion basica de WordNet, simetrica y equivalente a is-a

para todas las categorıas gramaticales.

Antonimia: tambien simetrica y aplicable a todas las categorıas gramati-

cales; es especialmente relevante en caso de darse en synsets adverbiales y

adjetivales.

Hiponimia/Hiperonimia (tambien conocidas como subclase de y super-

clase de): son relaciones transitivas y opuestas entre synsets exclusivamente

nominales, creando jerarquıas entre ellos.

Meronimia/Holonimia (parte de/todo de): consta a su vez de distintas

subclases (miembro, substantivo o componente). Solo utilizable entre synsets

nominales.

Troponimia: equivalente para los synsets verbales a la relacion de hiponi-

mia para los synsets nominales, aunque las jerarquıas resultantes tienden

a ser de menor profundidad. La estructura va a depender de las circuns-

tancias semanticas que relacionen a los elementos de la jerarquıa (pueden

organizarse por intensidad, volumen...).

Consecuencia logica (entailment): relaciones logicas entre synsets de ver-

bos (por ejemplo, las parejas dormir y roncar o comprar y vender estan

relacionadas en cierta manera aunque no cumplan ninguna de las relaciones

previamente descritas).

Figura 2.3: Recursos principales de Ba-belNet segun la web oficial.

La popularidad de WordNet y su

exito como recurso linguıstico llevo a

otras lenguas a emular el formato ori-

ginal en ingles (aunque no todas estas

nuevas versiones mantuvieron el acceso

abierto, siendo algunas de pago); na-

cieron ası iniciativas como EuroWord-

Net12 para las lenguas europeas, Ger-

maNet13 para el aleman, IndoWord-

Net14 para las 18 lenguas habladas en

12 https://en.wikipedia.org/wiki/EuroWordNet13 https://en.wikipedia.org/wiki/GermaNet14 https://en.wikipedia.org/wiki/IndoWordNet

https://en.wikipedia.org/wiki/EuroWordNet

https://en.wikipedia.org/wiki/GermaNet

https://en.wikipedia.org/wiki/IndoWordNet


la India e incluso una version china (CWN, Chinese Wordnet 15). Tambien sur-

gieron distintas versiones para una misma lengua, como es por ejemplo el caso del

frances (con WOLF16 y WoNeF17). A nivel mundial encontramos Global Word-

Net, una asociacion que conecta la mayor parte de implementaciones de WordNet;

en su web se puede encontrar una lista con muchas mas versiones18.

BabelNet

BabelNet es una red semantica multilingue desarrollada en la Universidad

Sapienza de Roma y generada automaticamente a partir de distintos recursos.

En un principio, estos recursos eran Wikipedia (de donde se extraıa fundamen-

talmente informacion sobre las categorıas y relaciones entre los artıculos) y el

previamente mencionado WordNet (de donde se tomaban los synsets, que pasan

a convertirse en babel synsets) [86], pero posteriormente se anadieron otros recur-

sos adicionales. Del mismo modo, el proceso consistıa originalmente en realizar

sucesivos mapeos sobre ambas fuentes, que finalmente daban lugar a la creacion

de nuevas relaciones y por consiguiente a una nueva red semantica.

A dıa de hoy, BabelNet se encuentra en la version 3.6 e integra 217 lenguas

diferentes en mas de 14 millones de Babel synsets construidos automaticamente

a partir de recursos como WordNet, Wikipedia o GeoNames; una lista completa

de los recursos integrados se puede encontrar en la web oficial de BabelNet19,

destacando los presentes en la Figura 2.3, extraıda de dicha pagina.

2.1.5. Ontologıas

2.1.5.1. Posibles definiciones

En [40] encontramos distintas definiciones que se han ido dando a las on-

tologıas en el campo de las ciencias de la computacion (tiene una connotacion

anterior en la rama metafısica de la filosofıa, que entre otras tareas estudia la

15 http://lope.linguistics.ntu.edu.tw/cwn/16 http://alpage.inria.fr/~sagot/wolf.html17 http://wonef.fr/18 http://globalwordnet.org/wordnets-in-the-world/19 http://babelnet.org/about

http://lope.linguistics.ntu.edu.tw/cwn/

http://alpage.inria.fr/~sagot/wolf.html

http://wonef.fr/

http://globalwordnet.org/wordnets-in-the-world/

http://babelnet.org/about


manera en que se relacionan las entidades que existen20); a continuacion citamos

algunas de las definiciones mas representativas:

“Una ontologıa define los terminos y las relaciones basicos contenidos

en el vocabulario de una area tematica, ası como las reglas para com-

binar terminos y relaciones para definir extensiones del vocabulario”.

Aunque esta definicion es importante porque fue una de las primeras en enun-

ciarse, la mas utilizada y aceptada generalmente aparecio anos mas tarde, expre-

sada ademas de una forma mucho mas clara y concisa:

“Una ontologıa es una especificacion formal de una conceptualizacion

consensuada”.

Las definiciones de las ontologıas pueden asimismo depender del punto de

vista o del uso que se le vayan a dar; de cara a su utilizacion como base del

conocimiento y focalizando en la estructura mas que en el concepto, otra posible

definicion es la siguiente:

“Una ontologıa es un conjunto de terminos estructurado de manera

jerarquica que describen un dominio y que puede ser usado como el

esqueleto fundamental de una base del conocimiento”.

2.1.5.2. Tipos de ontologıas

Dependiendo de su profundidad y de la manera de especificar los terminos,

en general las ontologıas se clasifican como lightweight (pudiendo representar tan

solo la estructura taxonomica, sin adentrarse en absoluto el significado de los

terminos) o heavyweight (caso en el que se formalizan teorıas logicas, anadien-

do axiomas y restricciones a una ontologıa lightweight). Ademas, se considera

que una ontologıa puede ubicarse en una escala de formalidad en cuatro posicio-

nes estandar segun lo expuesto en [40]: altamente informal si esta expresada en

lenguaje natural, semi-informal si este lenguaje natural esta restringido y estruc-

turado, semi-formal en caso de estar expresada en un lenguaje artificial definido

formalmente o regurosamente formal si esta provista de terminos dotados de una

semantica formal, teoremas, etc.

20 https://es.wikipedia.org/wiki/Ontolog%C3%ADa

https://es.wikipedia.org/wiki/Ontolog%C3%ADa


Figura 2.4: Tipos de ontologıas lightweight segun el nivel de especificacion, demenor a mayor. (Fuente: [45])

Las definiciones y el sistema de clasificacion de ontologıas expuestos previamente

engloban asimismo recursos linguısticos estandar como los tesauros o los glosarios

segun su nivel de profundidad, como podemos observar en la Figura 2.4, tomada

de [45].

2.1.5.3. Componentes y ejemplos de Ontologıas

Dependiendo de que usemos para modelar la ontologıa, los componentes pue-

den variar; a continuacion se exponen los elementos mas habituales que conforman

una ontologıa:

Clases que representan conceptos (que en el caso de las ontologıas heavy-

weight pueden ser primitivos o definidos), ya sean abstractos o especıficos.

Relaciones, habitualmente binarias, que representan algun tipo de asocia-

cion entre conceptos o de un concepto con sus atributos (caracterısticas de

la clase). En el caso de las ontologıas heavyweight, las relaciones se denomi-

nan roles; algunas relaciones habituales son subclase de o parte de, ademas

de las relaciones ad hoc, que se definen dentro del contexto de la ontologıa.

Dentro de las relaciones encontramos el caso concreto de las funciones.

Axiomas formales, que modelizan frases que son siempre ciertas y resul-

tan utiles para realizar inferencia; un ejemplo puede ser indicar que ciertas

clases son necesariamente disjuntas.


Instancias (o individuos en las ontologıas heavyweight) que representan

elementos o individuos de una ontologıa.

Algunas de las ontologıas mas conocidas y usadas como recurso auxiliar en el

ambito de la Ingenierıa Linguıstica son las siguientes:

SUMO21 (Suggested Upper Merged Ontology).

SENSUS22, una extension de la ya tratada WordNet.

OMEGA23 sucesora de la anterior y usada por una interlingua (como vere-

mos mas tarde).

DOLCE24 (Descriptive Ontology for Linguistic and Cognitive Engineering).

2.1.6. Grafos conceptuales

Segun el propio John Sowa, considerado por muchos el creador de los grafos

conceptuales, este tipo de representacion es el resultado de un siglo de trabajo,

remontandose sus orıgenes a los avances y creacion en 1883 de una notacion para

la logica de primer orden por parte de Charles Sanders Peirce [110]. La posterior

representacion de esta logica en la forma de grafos existenciales y distintas apor-

taciones y uso por parte de otros investigadores a lo largo del siglo XX (entre

ellos Roger Shank, ya comentado, e Igor A. Mel’cuk, cuyos trabajos trataremos

mas adelante) desembocan en la aparicion de los grafos conceptuales propiamente

dichos. De hecho, los autores de [11] consideran que los grafos conceptuales son

una combinacion de los grafos existenciales y las inheritance networks (“redes de

herencia”), en tanto que para Sowa son “forma logica bidimiensional basada en

las redes semanticas de la Inteligencia Artificial y los grafos logicos de C.S. Peir-

ce, siendo ambas notaciones exactamente equivalentes en sus semanticas” [111].

Eileen Way, una de las discıpulas de Sowa en el campo de los Grafos Conceptuales,

declaro una decada despues de la aparicion de la obra original en la que se propu-

sieron estas estructuras que era “algo mas que una sıntesis del trabajo actual en

Inteligencia Artificial; un intento de reconciliar lo mejor de las aproximaciones

“limpias” y “chapuceras” a la Inteligencia Artificial”, llegando a considerarlos

21 http://www.adampease.org/OP/22 http://www.isi.edu/natural-language/projects/ONTOLOGIES.html23 http://www.gabormelli.com/RKB/Omega_Ontology24 http://www.loa.istc.cnr.it/old/DOLCE.html

http://www.adampease.org/OP/

http://www.isi.edu/natural-language/projects/ONTOLOGIES.html

http://www.gabormelli.com/RKB/Omega_Ontology

http://www.loa.istc.cnr.it/old/DOLCE.html


“un puente para salvar la distancia entre el rigor de la logica y la expresividad de

los metodos heurısticos o basados en esquemas”.

2.1.6.1. Estructura

Respecto a la formacion original de los Grafos Conceptuales, Sowa explica en

[108] que la primitiva basica son los llamados conceptos, que suelen representar-

se25 con una caja que contiene una etiqueta en ingles (sort label) que identifica

el tipo de dicho concepto. El conjunto de estas etiquetas esta subordinado a un

orden parcial con el objetivo de permitir representar distintos niveles de genera-

lidad. La conexion entre los conceptos se representa con una serie de relaciones

conceptuales (los Roles Semanticos analizados en la seccion anterior), represen-

tadas generalmente con cırculos (podemos ver un ejemplo de Grafo Conceptual

tomado de [111] en la Figura 2.5).

¿Pero que es exactamente un Grafo Conceptual? A partir de los componentes

previamente expuestos, Sowa da la siguiente definicion:

“Un grafo conceptual es un grafo bipartito, finito, conectado y no

dirigido con un tipo de nodos llamados conceptos y nodos de otro ti-

po denominados relaciones conceptuales. Un grafo conceptual puede

consistir en un unico concepto, pero no puede tener relaciones con-

ceptuales sin enlazar.”

Tambien se suele considerar que un Grafo Conceptual es una representacion grafal

etiquetada de una formula Logica de Primer Orden.

2.1.6.2. Roles Semanticos

En los Grafos Conceptuales, los roles semanticos explicados en la seccion an-

terior se denominan Thematic Roles o case relations, y equivalen a los predicados

diadicos del Calculo de Predicados y a los slots de los sistemas basados en frames,

siendo todas estas notaciones formas equivalentes de representar las relaciones en-

tre un proceso y sus participantes26. En la Tabla 2.4 encontramos un desglose de

25 Aunque se ha adoptado como canonico, el sistema de representacion de cajas y cırculos essolo un medio y no esta intrınsecamente ligado a la idea de los Grafos Conceptuales, sirviendocualquier notacion que se ajuste a las definiciones de la misma (tal y como declara el propioSowa en [110]).

26 http://www.jfsowa.com/ontology/thematic.htm

http://www.jfsowa.com/ontology/thematic.htm


Figura 2.5: Grafo conceptual de la frase ”You can lead a horse to water, butyou can‘t make him drink.”(“Puedes llevar un caballo al agua, pero no puedesobligarle a beber.”) (Fuente: [111])


los Thematic Roles de Sowa segun los tipos de participante, a su vez reflejados

en la Tabla 2.3 [111]. Estos Thematic Roles relacionados con los participantes se

engloban, a su vez, en una estructura mayor que clasifica todos los posibles roles

presentes en la ontologıa de los Grafos Conceptuales27.

Source Product

Determinant Initiator Goal

Immanent Resource Essence

Tabla 2.3: Tipos de Participantes en los Grafos Conceptuales

Initiator Resource Goal Essence

ActionAgent,

EffectorInstrument

Result,

Recipient

Patient,

Theme

ProcessAgent,

OriginMatter

Result,

Recipient

Patient,

Theme

TransferAgent,

Origin

Instrument,

Medium

Experiencer,

RecipientTheme

Spatial Origin Path Destination Location

Temporal Start Duration Completion PointInTime

Ambient OriginInstrument,

MatterResult Theme

Tabla 2.4: Thematic Roles segun el tipo de participante en los Grafos Concep-tuales

2.1.6.3. Evolucion y aplicaciones

Los Grafos Conceptuales han evolucionado mucho desde su creacion, dando

lugar a diversas versiones [112], entre las que destacan las expuestas a continua-

cion:

Core Conceptual Graph: la version original, que de hecho cuenta con

su propia notacion estandar ISO (Core CGIF, Core Conceptual Graph Iter-

change Format).

27 http://www.jfsowa.com/ontology/roles.htm

http://www.jfsowa.com/ontology/roles.htm


Extended Conceptual Graph: una version extendida del anterior con

aportaciones de distintos tipos (como la adicion del cuantificador universal,

nuevas etiquetas...) con su correspondiente notacion en el estandar ISO

(Extended CGIF ).

Research Conceptual Graphs: extensiones formales o informales para

distintas aplicaciones. Entre ellos encontramos los Nested Conceptual

Graphs (NCGs), usados para formalizar la semantica de distintos tipos de

logica modal e intencional.

Entre las diversas posibles aplicaciones de los Grafos Conceptuales encontra-

mos por ejemplo la construccion de un parser semantico [113]; la investigacion en

este campo sigue asimismo muy activa, con la publicacion de nuevas propuestas de

manera periodica y la celebracion de distintas conferencias en torno al tema, en-

tre las que sobresale ICCS (International Conference on Conceptual Structures),

celebrada cada dos anos y fuente de interesantes propuestas de aplicacion en dis-

tintos ambitos. Destacamos dentro desde este evento algunas de las aplicaciones

sugeridas durante la conferencia 18esima, celebrada en 2010, como por ejemplo

la comprension del lenguaje natural por medio de NCGs o el procesamiento de

queries, direcciones de correo electronico y sistemas de pregunta/respuesta de

sentido comun con CGs [21].

2.1.7. Teorıa del Texto-Significado

Pasando a la perspectiva linguıstica, la Teorıa del Texto-Significado (en ingles

Meaning-Text Theory, o MTT ) es una teorıa propuesta por Aleksandr K. Zolkovskij

e Igor A. Mel’cuk en 1965 a la que posteriormente contribuyeron tambien otros

investigadores, como Jurij D. Apresjan, formando la llamada Escuela o Cırculo

Semantico de Moscu [70]. A partir de esta teorıa surgen los Meaning-Text Models

(o MTMs), modelos linguısticos funcionales (es decir, sistemas de expresiones

simbolicas creadas con el objetivo de representar el funcionamiento global de las

lenguas naturales) basados en la premisa de que el lenguaje es un mapeo entre

el contenido o significado (la semantica) de un enunciado y la senal (acustica o

grafica) usada para comunicar dicho contenido (a esta representacion la denomi-

naremos fonetica). Estas representaciones serıan los dos extremos de una serie de

representaciones intermedias estratificadas expuestas en la Figura 2.628. Las tres

28 Fuente: http://www.neuvel.net/meaningtext.htm

http://www.neuvel.net/meaningtext.htm


ultimas representaciones (sintactica, morfologica y fonetica) se compondrıan a su

vez de dos subniveles, uno superficial y otro mas profundo, con un mayor grado

abstraccion e independiente de las peculiaridades linguısticas [73], conformando

un total de 7 niveles (cabe matizar que este numero ha ido variando con el tiem-

po). Paralelamente, cada unas de estas representaciones es una tupla de distintas

estructuras en funcion de su situacion en el proceso comunicativo29; la represen-

tacion semantica, por ejemplo, se compone de la estructura semantica principal

(una red semantica), de una estructura semantico-comunicativa, de una estructu-

ra retorica y de una estrucura referencial, mientras que la sintactica tendrıa una

sintactica principal y una anaforica, entre otras.

La teorıa de MTT se asienta sobre una serie de postulados y se puede resumir en

seis propiedades principales enunciadas por el propio Mel’cuk en [72]:

Se basa en la semantica, siendo dicha representacion el punto de partida.

Se situa desde el punto de vista del hablante, centrandose en la produccion

del texto mas que en su comprension (este enfoque se considera una tarea

mucho mas compleja a nivel linguıstico).

Esta enfocada a una separacion estricta de niveles linguısticos (los 7 que ya

hemos comentado anteriormente); la correspondencia y equivalencia entre

cada uno de estos niveles de representacion se da por medio de una serie

de reglas bidireccionales, organizadas en 6 modulos independientes (simbo-

lizados con ⇔) situados entre los niveles adyacentes:

SemanticR ⇔ Deep-SyntacticR ⇔ Surface-SyntacticR ⇔Deep-MorphologicalR ⇔ Surface-MorphologicalR ⇔Deep-PhonologicalR ⇔ Surface-PhonologicalR.

Cabe destacar que el ultimo modulo no se encuentra dentro del propio

MTM.

Pone enfasis en el lexico por medio de un diccionario especial fuertemente

formalizado conocido como Explanatory Combinatorial Dictionary.

Usa dependencias en vez de constituyentes.

29 http://meaningtext.net/wiki/Main_Page

http://meaningtext.net/wiki/Main_Page


Figura 2.6: Representaciones de MTT. La representacion semantica (SemR) sebasa en una red semantica, mientras que la representacion sintactica lo hace enen arboles de dependencia y la representacion morfologica se representa mediantecadenas de morfemas.

Es una teorıa que entiende la generacion del lenguaje no como la accion de

pasar de unas entidades a otras, sino como hacerlo de un significado a su

correspondiente representacion textual o fonologica y viceversa.

Existen algunas posibles explicaciones acerca de por que esta teorıa no llego

a extenderse y tener mas exito del que tuvo [39]; fundamentalmente, podemos

achacarlo a que en el momento de su concepcion no existıan aun los recursos ne-

cesarios para su implementacion y al uso masivo de otras teorıas ya instauradas y

fuertemente asentadas en las principales corrientes de investigacion occidentales.

No obstante, la teorıa de MTT ha tenido importantes repercusiones en trabajos

posteriores, como pueden ser el traductor ruso-ingles ETAP30 o el sistema de tra-

duccion de CETA, del que hablaremos mas adelante. Ademas del ya mencionado

diccionario combinatorio, otros puntos clave de la teorıa MTT fueron el uso de

indicadores del discurso tanto a nivel semantico como sintactico y la creacion de

un conjunto de “funciones lexicas” para el tratamiento de las relaciones semanti-

cas. En lo concerniente a la parafrasis, fue uno de los aspectos linguısticos a los

que la teorıa MTT dio mayor importancia [71], formalizando y distinguiendo los

distintos tipos y las posibles maneras de lidiar con ella desde el modelo MTM.

Abordaremos este tema en la segunda parte del Estado del Arte, dedicada a la

parafrasis (ver 2.2.2.2).

2.1.8. Interlinguas

2.1.8.1. La Traduccion Automatica

Antes de continuar hacia las interlinguas, cabe recordar los tres principales

tipos de traduccion automatica que existen, dado que esta es su principal area de

30 http://cl.iitp.ru/etap3

http://cl.iitp.ru/etap3


Figura 2.7: Triangulo de Vauquois. De arriba a abajo, traduccion basada en in-terlinguas, sistema transfer y traduccion directa. Version enriquecida basada enel original de Vauquois.

aplicacion (aunque ni mucho menos la unica). Una imagen que ilustra las distintas

competencias y los grados de profundidad de cada aproximacion es el “triangulo

de Vauquois” de la Figura 2.731, donde la altura indica el nivel de representacion

abstracta y de independencia de las lenguas (siendo el vertice superior la inde-

pendencia idealmente absoluta), lo que implica a su vez una mayor necesidad de

estructuras para establecer equivalencias y un mayor esfuerzo a nivel de procesa-

miento.

Por un lado tenemos la traduccion directa, que se corresponderıa en la imagen

con la base del triangulo y que se queda en un analisis morfologico superficial del

texto de entrada. La siguiente opcion serıa un sistema transfer, donde se lleva

a cabo un analisis mas profundo a nivel sintactico y/o semantico pero se sigue

dependiendo de las lenguas de entrada y de salida de la traduccion. Finalmente,

en la cuspide del triangulo encontrarıamos la traduccion automatica basada en

una interlingua, ajena tanto a la lengua de entrada como a la de salida.

Tambien podemos distinguir entre traduccion automatica basada en reglas

(donde entrarıan los sistemas transfer y las interlinguas) o basadas en analogıas

31 Fuente: https://sites.google.com/site/b490nlp/machine-translation

https://sites.google.com/site/b490nlp/machine-translation


Figura 2.8: a) Traduccion entre pares. Cada flecha representa dos modulos, unoen cada direccion, por lo que son necesarios 12 modulos (n(n− 1) = 4 · 3 = 12).b) Traduccion basada en una interlingua LI (en gris en la imagen), con tan solo2n = 2 · 4 = 8 modulos.

(que puede basarse en estadıstica, ejemplos, corpus...). No obstante, en el presen-

te proyecto nos centraremos exclusivamente en representacion mediante el uso de

interlinguas.

En un entorno multilingue, la traduccion entre pares de lenguas conllevarıa la

implementacion de n(n − 1) modulos de traduccion directa (siendo n el numero

de lenguas a traducir), mientras que una interlingua necesitarıa, como mucho, 2n

(uno para traducir de la lengua original a la interlingua y otro para pasar de la

interlingua a la lengua destino); como veremos mas adelante, el sistema basado en

interlingua UNITRAN necesita incluso menos. En la Figura 2.832 se pueden ver

las distintas interacciones entre las lenguas en caso de disponer de una interlingua

o en caso de traducir directamente entre pares de lenguas para un entorno multi-

lingue de n = 4 lenguas. Imaginemos intentar traducir entornos mucho mayores,

como la Union Europea (con 24 lenguas oficiales33); con los 24 ·23 = 552 modulos

de la traduccion entre pares de lenguas frente al maximo de 2 ·24 = 48 que ofrece

una interlingua, el ahorro en terminos de tiempo y eficiencia serıa enorme. No

obstante, como veremos a continuacion, el enfoque de las interlinguas presenta

tambien importantes problemas a la hora de llevarse a la practica.

32 Fuente: https://upload.wikimedia.org/wikipedia/commons/f/fc/TAInterlingua_

Figura2.png33http://europa.eu/about-eu/facts-figures/administration/index_es.htm

https://upload.wikimedia.org/wikipedia/commons/f/fc/TAInterlingua_Figura2.png

https://upload.wikimedia.org/wikipedia/commons/f/fc/TAInterlingua_Figura2.png

http://europa.eu/about-eu/facts-figures/administration/index_es.htm


2.1.8.2. Caracterısticas de una interlingua

Una posible definicion formal de una interlingua la encontramos en [16], donde

se especifica que, para ser considerada como tal, una lengua debe cumplir las

siguientes caracterısticas:

Representar el significado independientemente de la lengua, en el nivel mas

abstracto y profundo del analisis linguıstico, descartando rasgos superficia-

les de cada idioma y adentrandose en el significado comun para todas las

lenguas (idealmente, en la practica suele ser solo para una gran cantidad de

ellas).

Se puede considerar una lengua independiente, autonoma, al poseer voca-

bulario y relaciones semanticas propios.

Los atomos linguısticos suelen ser el sentido de un concepto, y no palabras

como en otras lenguas.

Las relaciones tematicas y funcionales, que deben ser universales y del mas

profundo grado de abstraccion, se establecen entre los atomos semanticos

de la interlingua.

En definitiva, una interlingua debe evitar la ambiguedad y ser universal (inde-

pendiente del resto de lenguas y capaz de representar todas las particularidades

de cada una de ellas). Esta es la razon por la que las lenguas naturales no re-

sultan buenas interlinguas (como veremos mas adelante en el caso del esperanto

y el sistema DLT). No obstante, el diseno y la implementacion de las interlin-

guas conllevan una gran dificultad, razon por la cual no se utilizan a menudo

para nuevos sistemas de traduccion automatica ni han gozado de gran exito co-

mercial en el pasado: la seleccion y creacion de los CPs de una interlingua para

que sean realmente independientes del resto de lenguas es una tarea de por sı

complicada, y que se vuelve mas y mas impracticable a medida que se aumenta

el numero de lenguas a traducir. En favor de las interlinguas, cabe destacar que

no solo sirven para la traduccion automatica (esta es solo una de sus multiples

aplicaciones); tambien se pueden usar para representar informacion en bases de

conocimiento, realizar inferencia o relacionar preguntas y respuestas en sistemas

Question-Answer, entre otras posibles aplicaciones. Suele considerarse tambien

a nivel informatico que una interlingua es un metalenguaje usado para anotar


informacion conceptual con el objetivo de facilitar el procesamiento del lenguaje

natural y compuesto por cuatro elementos: un vocabulario (conceptos, no pa-

labras), una serie de relaciones (los roles semanticos vistos previamente), una

sintaxis (a nivel de representacion, propia de la interlingua) y una semantica (el

mapeo con las lenguas naturales, que significan los elementos de la interlingua).

2.1.8.3. Ejemplos de interlinguas

A continuacion se exponen algunas de las interlinguas mas representativas

junto con una breve descripcion de su sistema de representacion:

PIVOT

Entre las interlinguas basadas en Conceptos Primitivos (CPs) encontramos

PIVOT [83], la propuesta impulsada por la empresa nipona NEC en la decada

de los ochenta. En este planteamiento, cada CP se relaciona con una o varias

expresiones (palabras o morfemas) presentes en los diccionarios de cada lengua,

permitiendo traducciones bidireccionales en una suerte de interlingua compuesta

por CPs.

El primer obstaculo que encontro PIVOT parte del propio planteamiento del pro-

blema: se comenzo por crear CPs exclusivamente pensadas para una traduccion

ingles/japones – japones/ingles, y fue a la hora de extender esta funcionalidad a

una tercera lengua cuando descubrieron que los CPs no eran lo suficientemente

genericos ni independientes de ambas lenguas. Pese a ello, el proyecto continuo

expandiendose a otras lenguas (entre ellas el espanol [88], de cuya traduccion a

la interlingua se encargo la Universidad Politecnica de Madrid), pero finalmente

cayo en desuso en los anos noventa.

ATLAS II

Al mismo tiempo que surge la anteriormente mencionada PIVOT, otra empre-

sa japonesa, en este caso Fujitsu, lanza su propio proyecto de traduccion basada

en una interlingua. Sucesora de ATLAS I, el primer sistema comercial de tra-

duccion ingles/japones – japones/ingles del mundo, ATLAS II [120] surge con la

necesidad de realizar una traduccion multilingue que englobe mas de dos idiomas


(concretamente, se buscaba incluir la traduccion al coreano).

La interlingua presente en ATLAS II es una estructura conceptual expresada

por un conjunto de relaciones binarias entre conceptos y sus respectivas carac-

terısticas, permitiendo representar el significado de cada oracion en forma de una

o varias de estas relaciones binarias. A grandes rasgos, el vocabulario de la in-

terlingua consistıa en los propios conceptos y en las relaciones entre ellos, siendo

estas relaciones lo mas universales posibles pero incluyendo a su vez expresiones

unicas de cada lengua que no se puedan expresar mediante relaciones mas uni-

versales.

Finalmente, ATLAS II no llego a buen termino, y de cara al proyecto ATLAS Fu-

jitsu solo mantiene actualmente la comercializacion de la version bilingue ingles

/japones – japones/ingles34.

KANT

Cruzando el charco, en Estados Unidos encontramos una nueva propuesta de

finales de los ochenta, esta vez a nivel academico. En 1989 el Centro de Traduc-

cion Automatica (CMT) de la Universidad de Carnegie Mellon pone en marcha el

proyecto KANT (Knowledge-based, Accurate Natural-Language Translation) con

el objetivo de traducir a gran escala y de forma efectiva documentos tecnicos,

centrandose principalmente en los dominios de la electricidad, los reportes medi-

cos y ciertos campos industriales35. KANT se enfoca por tanto y en exclusiva al

procesamiento de lenguaje controlado, lo que permite cierta facilidad a la hora de

definir y poblar la interlingua, ya que la canonizacion a nivel de independencia

del idioma no es tan estricta. Los propios autores reconocen las limitaciones que

esto implica [22], definiendo la interlingua de KANT como una representacion

“literal” de la entrada, una suerte de representacion con frames (cada uno con

sus correspondientes slots, que pueden ser de distintos tipos), incapaz de resol-

ver problemas de correferencia y generalizacion a nuevos dominios (aunque se

han realizado en este aspecto avances en posteriores versiones). En la interlin-

34https://www.fujitsu.com/global/products/software/packaged-software/

translation/atlas/35 http://www.cs.cmu.edu/afs/cs/project/lti-web/Research/Kant/

http://www.lti.cs.cmu.edu/Research/Kant/

https://www.fujitsu.com/global/products/software/packaged-software/translation/atlas/

https://www.fujitsu.com/global/products/software/packaged-software/translation/atlas/

http://www.cs.cmu.edu/afs/cs/project/lti-web/Research/Kant/

http://www.lti.cs.cmu.edu/Research/Kant/


gua de KANT encontramos, ademas de los frames, una serie de features y roles

semanticos bastante estandar, algunos de los cuales ya se mencionaron en la co-

rrespondiente seccion (por ejemplo36, agente, atributo, manner...).

KANT destaca por ser el unico sistema de Traduccion Automatica interlingual

que ha obtenido cierto exito comercial; precisamente de cara a esta comercializa-

cion y a una mayor robustez, se ha redisenado y reimplementado gran parte del

proyecto en C++, pasando a denominarse KANTOO37. En esta nueva version se

han paliado algunos de los problemas presentes en el planteamiento inicial previa-

mente mencionados, como por ejemplo la resolucion de las anaforas pronominales

[79].

UNITRAN

En paralelo a los sistemas anteriores, el MIT lanza en 1987 UNITRAN (UNI-

versal TRANslator). Este sistema usa descripciones de la gramatica basadas en

principios parametrizados en lugar basarse en reglas libres de contexto (sien-

do esta ultima la eleccion mas habitual). Inspirado en las teorıas desarrolladas

por Noam Chomsky en los anos 80 en torno al framework “Government and

Binding”38 (en espanol, “Reccion y ligamiento”), los parametros asociados a los

principios pueden ser ajustados con distintas variaciones en funcion de la len-

gua, permitiendo manejar fenomenos comunes pero en general problematicos en

el ambito de la traduccion automatica como pueden ser la elipsis, la presencia de

clausulas embebidas o la inversion del sujeto [27]. Como interlingua se usa como

representacion LCS (Lexical Conceptual Structure, una abstraccion composicional

usada en diversos proyectos, como MILT). Los LCS39 son grafos dirigidos con una

raız donde los nodos se asocian a cierta informacion y las primitivas pueden ser

de clases cerradas o de estructuras.

Una de las caracterısticas mas resenables del sistema UNITRAN es que permite

usar el mismo parser y el mismo generador para todas las lenguas con respecto a

36 http://www.cs.cmu.edu/~teruko/KANT-ir-description.html37 http://www.cs.cmu.edu/afs/cs/project/lti-web/Research/Kant/

kantoo-overview.html38 https://en.wikipedia.org/wiki/Government_and_binding_theory39 http://www2.let.uu.nl/uil-ots/lexicon/zoek.pl?lemma=Lexical+Conceptual+

Structure&lemmacode=605

http://www.cs.cmu.edu/~teruko/KANT-ir-description.html

http://www.cs.cmu.edu/afs/cs/project/lti-web/Research/Kant/kantoo-overview.html

http://www.cs.cmu.edu/afs/cs/project/lti-web/Research/Kant/kantoo-overview.html

https://en.wikipedia.org/wiki/Government_and_binding_theory

http://www2.let.uu.nl/uil-ots/lexicon/zoek.pl?lemma=Lexical+Conceptual+Structure&lemmacode=605

http://www2.let.uu.nl/uil-ots/lexicon/zoek.pl?lemma=Lexical+Conceptual+Structure&lemmacode=605


la interlingua (facilidad poco habitual en sistema basado en interlingua), ademas

de ser capaz de ir creando reglas basadas en principios linguısticos a medida que

procesa el texto de entrada.

DLT

En 1979 la empresa holandesa BSO (Buro voor Systemontwikkeling, actual-

mente Atos40) inicia el proyecto DLT (Distributed Language Translation), en un

principio para propositos ajenos a la traduccion automatica [129]. No es hasta

los anos 80, al introducirse el esperanto como lengua a considerar en el desarrollo

de aplicaciones de traduccion automatica, cuando se lleva el proyecto a dicho

terreno, adoptando este nuevo idioma como interlingua para la traduccion de un

total de 12 lenguas europeas.

El proyecto no llego a buen termino, ya que la eleccion del esperanto como inter-

lingua aunaba tanto los problemas de ser una lengua viva en constante evolucion

y con ciertas ambiguedades como el hecho de tener un vocabulario limitado al ser

una lengua artificialmente creada a posteriori a partir de otras lenguas.

Mikrokosmos

Mikrokosmos es un sistema de traduccion automatica basado en conocimiento

(KBMT) derivado de Pangloss [51] e iniciado en los anos 90 en el Laboratorio de

Investigacion Computacional (CRL) de la Universidad Estatal de Nuevo Mexico

y financiado por el Ministerio de Defensa estadounidense.

En el sistema Mikrokosmos hay cuatro componentes fundamentales: un lexicon,

una ontologıa, una conjunto de microteorıas y una serie de representaciones inter-

linguales (TMRs, o Text Meaning Representation) basadas en frames y generadas

a partir de las dos primeras. Estos TMRs simbolizan cada frase introducida y se

componen de distintos slots con diferentes tipos de informacion41 (relaciones, ac-

titudes, modalidad...) representados por medio de una notacion especıfica [10].

40 http://atos.net/en-us/home.html41 http://elies.rediris.es/elies9/3-3-6.htm

http://atos.net/en-us/home.html

http://elies.rediris.es/elies9/3-3-6.htm


Interlingua IAMTC

IAMTC (Interlingual Annotation of Multilingual Corpora) [96] fue un proyec-

to iniciado en 2003 por distintas universidades norteamericanas y actualmente

parado donde la construccion de la interlingua se basaba a una serie de cor-

pus bilingues. Estos corpus contenıan noticias en varios idiomas (espanol, hindi,

japones, coreano, arabe y frances) y distintas versiones en ingles. Destaca princi-

palmente por basarse en la anotacion, a diferencia del enfoque habitual de otras

interlinguas, que suele ser la desambiguacion lexica.

El proceso de creacion de la interlingua comienza con la traduccion y anotacion

de cada texto de los seis idiomas originales por parte de tres traductores distintos.

Esta es, sin duda, una de las particulares mas interesantes del proyecto: el hecho

de que dispongamos de distintas interpretaciones y versiones de un texto en un

mismo idioma nos permite cubrir uno de los principales problemas que encontra-

mos no solo en la traduccion automatica o en la representacion del conocimiento,

sino en el procesamiento del lenguaje natural en general: la parafrasis. Ademas,

este proceso manual nos permite localizar ambiguedades y limitaciones a la hora

de pasar conceptos de un idioma a otro, cuestion absolutamente fundamental y

crıtica a la hora de desarrollar y validar una interlingua.

Una vez tenemos las traducciones realizadas y anotadas, estas pasan por tres

niveles distintos de representacion (IL0, IL1 e IL2). En el primero, IL0, se in-

cluyen muchas referencias sintacticas que permitiran en etapas posteriores de-

ducir dependencias como los argumentos de los verbos. IL1 anadira informacion

semantica como los ya mencionados argumentos verbales, ademas de reemplazar

relaciones sintacticas como sujeto y predicado por roles como agente o tema y de

sustituir las palabras originales de la traduccion por conceptos correspondientes

en la Ontologıa Omega (de la que deberıa haber hablado ya). Finalmente, IL2

lograra la independencia de la interlingua con respecto a las lenguas con distintos

mecanismos; uno de ellos, por ejemplo, serıa identificar y normalizar situaciones

como comprar y vender, que dan la misma informacion pero que se expresa de

distinta forma; esta labor se llevarıa a cabo usando frames [32].

El principal problema de la interlingua de IAMTC radica en la dependencia de


una ontologıa externa como es Omega. Esta ontologıa, ademas, se crea de manera

semi-automatica a partir de otros recursos, por lo que arrastrara los errores de

sus predecesoras y de los posibles problemas que surjan durante su aprendizaje.

Ademas, al igual que el propio proyecto IAMTC, dicha ontologıa no actualmente

activa (dejo de desarrollarse en 2008).

Otras interlinguas

Aunque se ha tratado de recopilar las principales interlinguas, existen mul-

titud de ellas de las que no hemos hablado, ademas de sistemas hıbridos que

tambien se pueden considerar basados en interlinguas. Ejemplos de ello son el

sistema Rosetta de la empresa Phillips [105] (donde la interlingua deriva de los

arboles semanticos obtenidos a partir del estudio del isomorfismo entre gramati-

cas de distintas lenguas), la “lengua pivote” de CETA (Centre d’Etudes pour la

Traduction Automatique de la Universidad de Grenoble, donde abandonaron las

interlinguas en favor de un sistema transfer [124]), el proyecto Eurotra42 (impul-

sado por la Union Europea y a medio camino entre las interlinguas y la traduccion

transfer entre pares de lenguas) o las “Preference Semantics” de Yorick Wilks43.

2.1.9. UNL

Tras este breve repaso a las interlinguas llegamos a UNL (Universal Networ-

king Language), el lenguaje universal artificial impulsado por la Universidad de

las Naciones Unidas en 1996 para facilitar la comunicacion entre diferentes cul-

turas. Aunque en un principio este papel mediador recayo sobre lenguas como el

esperanto y en ingles, estas han demostrado no ser capaces de reproducir todos

los matices presentes en otros idiomas [122], por lo que no son las opciones opti-

mas para este intento de eliminacion de las distintas barreras linguısticas a nivel

mundial (como ya vimos anteriormente en el caso concreto del sistema DLT y el

esperanto). Surge por tanto la necesidad de crear un lenguaje nuevo, neutral a las

lenguas ya existentes, y que ademas pueda ser procesado por ordenadores (pero

sin estar exclusivamente orientado a las maquinas): el lenguaje UNL es el fruto

de esta iniciativa.

42 http://elies.rediris.es/elies9/3-2-6.htm43 http://staffwww.dcs.shef.ac.uk/people/Y.Wilks/

http://elies.rediris.es/elies9/3-2-6.htm

http://staffwww.dcs.shef.ac.uk/people/Y.Wilks/


UNL consta un conjunto de palabras universales (Universal Words, el vocabu-

lario de UNL), una serie de relaciones y atributos (que representaran los roles

semanticos y los rasgos sintacticos de las oraciones) y una base del conocimiento

(que aportara la informacion semantica) [121]. Como la mayor parte de las inter-

linguas revisadas anteriormente, UNL representa la informacion presente en un

documento oracion a oracion, expresando cada una de estas frases en la forma de

un hipergrafo compuesto por palabras universales (de ahora en adelante, UWs)

a modo de nodos y una serie de relaciones binarias como arcos entre ellos. Es

posible aportar ciertos matices y grados de subjetividad a dicha representacion

mediante la adicion de atributos, como veremos mas adelante.

2.1.9.1. Palabras Universales

Las UWs pueden ser clasificadas de acuerdo con muchos criterios distintos, co-

mo por ejemplo si es temporal (como los numeros) o permanente en el diccionario

UW, si es compuesta o simple o si hace referencia a un concepto o a una entidad

concreta. Las UWs quedan en cualquiera de los casos anteriories supeditadas a

unos formatos sintacticos muy especıficos (recordemos que la representacion sera

procesada por maquinas).

En el caso de ser UWs simples, su representacion se compone de:

Una headword : en general, palabras o expresiones inglesas (solo en caso de

no encontrar una unica palabra capaz de expresar lo mismo) para facilitar

la tarea de enlace a terminos de otros idiomas a representantes de todos los

paıses. No obstante, en el caso de expresiones propias de un paıs se hace

una excepcion (por ejemplo con la palabra paella, que es la headword de

dicho concepto). Si la headword es de origen ingles, se considera que la UW

es de tipo basico (Basic UW ), mientras que en caso contrario se denomina

Extra UW.

Una lista de restricciones: que ayudan a delimitar, concretar y desambi-

guar el significado expresado por la headword. Pueden ser de tres tipos:

• Restricciones ontologicas: definen relaciones con otras UWs, pu-

diendo ser estas de hiperonimia/hiponimia, instanciacion, sinonimia/an-

tonimia o meronimia. Es obligatorio que las UWs contengan o bien la

restriccion de hiperonimia (representada por el comando icl) o bien la


de instanciacion (iof); para saber que poner en cada restriccion existen

una serie de jerarquıas dependiendo de si el concepto que representa

la palabra universal es un verbo, un nombre o sustantivo (denominado

thing en UNL), un adjetivo o un adverbio:

◦ Conceptos verbales: dependiendo del significado del propio ver-

bo, puede ser:

� (icl>do): indica que la accion o la situacion la inicia alguien

o algo.

� (icl>occur): implica que el proceso o el evento no necesita

de un iniciador.

� (icl>be): expresa estados, propiedades o situaciones estaticas

en el tiempo.

◦ Conceptos nominales: su jerarquıa es la mas profunda, compo-

niendose de varios niveles; no obstante, a la hora de concretar habi-

tualmente se suele recurrir a la clase padre nominal (icl>thing) o

a sus subclases hijas inmediatas ((icl>abstract thing) y

(icl>concrete thing), englobando esta ultima casos como

(icl>living thing) o (icl>natural thing)). Tambien se dan

en esta categorıa instanciaciones como por ejemplo el caso de nom-

bres y lugares como Pedro(iof>person) o Madrid(iof>city).

◦ Conceptos adjetivales: pueden ser cualitativos ((icl>qual adj)),

cardinales ((icl>card adj)), ordinales ((icl>ord adj)), tempo-

rales ((icl>time adj)) o espaciales ((icl>place adj)); en caso

de no pertenecer a ninguna de estas subcategorıas, se remite di-

rectamente al tipo adjetivo ((icl>adj)).

◦ Conceptos adverbiales: engloban tambien a las preposiciones y

a las conjunciones. Las categorıas son similares a las de los adje-

tivos, y algunas incluyen restricciones especıficas.

• Restricciones semanticas: sirven para hacer distinciones mas pre-

cisas a nivel semantico, matices en el uso concreto de las palabras. Se

incluyen en este tipo de restriccion com (componente) y fld (dominio).

• Argumentos: permiten delimitar los conceptos restringiendo las ca-

racterısticas de las UWs relacionadas con ellos. Un ejemplo serıa el UW

de comer, eat(icl>consume,agt>living thing,obj>concrete thing),


donde se especifica que la accion de comer es un tipo de consumicion

necesariamente desempenada por un ser vivo con respecto a una cosa

concreta.

2.1.9.2. Relaciones

Las relaciones UNL (la version UNL de los roles semanticos) enlazan las UWs

de una oracion indicando como interactuan en la frase a nivel sintactico. Estas re-

laciones llevan gran parte de la carga de significado de la oracion, por lo que seran

cruciales a la hora de determinar lo que expresa un texto. Una forma estandar de

organizarlas [16], junto con algunos de los fenomenos a los que hacen referencia,

es la siguiente:

Relaciones causales: propositos, causas...

Relaciones temporales: comienzo y fin de un suceso, co-ocurrencia...

Relaciones espaciales: origen, destino...

Relaciones logicas: conjuncion, disyuncion...

Relaciones numericas: cantidades, bases, proporciones...

Relaciones circunstanciales: instrumento, manera...

Relaciones argumentales: agente, objeto, objetivo...

Relaciones argumentales secuendarias: co-agente, beneficiario...

Relaciones nominales: posesion, meronimia...

Existen ademas relaciones especiales, de las que ya hemos hablado en el apar-

tado anterior, que se usan exclusivamente para la definicion de las restricciones

de las UWs: icl y iof para la hiperonimia y la instanciacion y equ y ant para

la equivalencia y la antonimia. Existen tambien otras posibles categorizaciones44.

Se adjunta como anexo la lista completa de las 40 relaciones conceptuales pre-

sentes en UNL (ver Anexo A).

44 http://www.unlweb.net/wiki/Universal_Relations

http://www.unlweb.net/wiki/Universal_Relations


2.1.9.3. Atributos

Los atributos son informacion adicional que se adjunta en las UWs de un grafo

para aportar matices de tipo temporal, de subjetividad, informacion dependiente

del hablante o acerca de la forma en que viene expresada originalmente la infor-

macion (en voz pasiva, por ejemplo). Se representan mediante el sımbolo ’@’ (por

ejemplo, @not), y cada UW puede tener mas de uno (o ninguno). Las categorıas

en las que se pueden clasificar y algunos ejemplos de cada una de ellas son las

siguientes:

Actitud: @exclamation (exclamacion), @not (para la negacion)...

Aspecto: @begin y @state (comienzo y estado final de una accion, respec-

tivamente).

Conclusion: @conclusion (conclusion), @consequence (consecuencia).

Consentimiento: @grant (permitir), @grant-not (no permitir).

Expectacion: @expectation (expectacion), @wish (deseo)...

Foco o enfasis: @emphasis, @entry (elemento principal de la oracion).

Intencion: @intention (intencion), @will (determinacion).

Modificadores de aspecto: @just (acabar de), @yet (pendiente).

Necesidad: @need (necesidad), @obligation (obligacion)...

Numero: @pl (plural).

Posibilidad: @certain (certeza), @may (posibilidad)...

Signos de puntuacion: @parenthesis (parentesis), @double quote (comi-

llas)...

Referencia: @def (para especificar si hablamos de individuos concretos,

como en la casa o en generico, una casa), @ordinal (para numeros ordina-

les)...

Sentimientos: @surprised, @admire...


Tiempo: @future y @past para representar cuando sucede la accion (tam-

bien se puede usar @present, pero normalmente se asume si no se especifica

otro momento).

Al igual que ocurrıa con las relaciones, existen diversos puntos de vista sobre

la jerarquıa a utilizar45. En el Anexo B se da una lista detallada de los atributos

estandar de UNL, aunque se permite la creacion libre de nuevos atributos siempre

que no puedan representarse su intencion mediante el uso y combinacion de los

ya existentes.

Figura 2.9: Ejemplo clasico de grafo UNL.

2.1.9.4. Grafos UNL

Los grafos son redes semanticas en las que los nodos (conceptos) se enlazan

mediante relaciones binarias, desempenando estos papeles las UWs (con posibles

45 http://www.unlweb.net/wiki/index.php/Attributes

http://www.unlweb.net/wiki/index.php/Attributes


modificaciones por parte de atributos) y las relaciones UNL, respectivamente. En

un grafo UNL podemos encontrar tambien hipernodos, es decir, que pueden exis-

tir conjuntos de nodos que se comporten como uno solo; estos hipernodos deben

ser hermeticos (sin arcos a o desde un solo nodo del hipernodo, sino al global del

mismo). Los hipernodos pueden ser semanticos (contienen informacion que de no

existir se perderıa) o sintacticos (usados para que el grafo sea mas comprensible,

pero sin aportar informacion; suelen usarse para representar frases largas).

El ejemplo clasico que suele usarse para ilustrar la representacion UNL se ex-

pone en forma de grafo en la Figura 2.9. La representacion interna de dicho grafo

en codigo plano (a nivel maquina), relacion a relacion, serıa la siguiente.

1 [ S : 2 ]

2 { org : es }3 Hace tiempo , en l a ciudad de Babi lonia , l a gente comenzo a

c o n s t r u i r una t o r r e enorme , que pa r e c i a a l canza r l o s c i e l o s .

4 {/ org }5 {unl }6 tim ( begin ( i c l >do ) . @entry . @past , long ago ( i c l >ago ) )

7 mod( c i t y ( i c l >r eg i on ) . @def , Babylon ( i c l >c i t y ) )

8 p l c ( begin ( i c l >do ) . @entry . @past , c i t y ( i c l >r eg i on ) . @def )

9 agt ( begin ( i c l >do ) . @entry . @past , people ( i c l >person ) . @def )

10 obj ( begin ( i c l >do ) . @entry . @past , bu i ld ( i c l >do ) )

11 agt ( bu i ld ( i c l >do ) , people . @def )

12 obj ( bu i ld ( i c l >do ) , tower ( i c l >bu i l d in g ) . @indef )

13 ao j ( huge ( i c l >big ) , tower ( i c l >bu i l d in g ) . @indef )

14 ao j ( seem ( i c l >be ) . @past , tower ( i c l >bu i l d in g ) . @indef )

15 obj ( seem ( i c l >be ) . @past , reach ( i c l >come ) . @begin . @soon )

16 obj ( reach ( i c l >come ) . @begin−soon , tower ( i c l >bu i l d in g ) . @indef )

17 go l ( reach ( i c l >come ) . @begin−soon , heaven ( i c l >r eg i on ) . @def . @pl )

18 {/ unl }19 [ / S ]

Otro ejemplo del sistema de representacion de grafos UNL, ilustrando tam-

bien la presencia de atributos y restricciones ontologicas, lo encontramos en la

Figura 2.1046. En dicha imagen podemos observar como se vinculan las carac-

terısticas intrınsecas a una frase expresada en lenguaje natural a las relaciones y

los atributos que conformaran su representacion en el sistema UNL.

46 Fuente: https://upload.wikimedia.org/wikipedia/commons/5/56/UNLGraph.svg

https://upload.wikimedia.org/wikipedia/commons/5/56/UNLGraph.svg


the sky was blue ? !

@def @interrogative

sky(icl>natural world) blue(icl>color)aoj

@exclamation

@past

@entry

aoj ( blue(icl>color).@entry.@past.@interrogative.@exclamation , sky(icl>natural world) .@def )

English

graphrepresentation

in UNL

tabularrepresentation

in UNL

Figura 2.10: Ejemplo de proceso de representacion UNL: como se derivan lasrelaciones y los atributos presentes en una frase en lenguaje natural a la hora derepresentarla en el sistema UNL.

2.1.9.5. Situacion actual

Cabe destacar que aunque UNL empezo siendo un proyecto comun entre

equipos de distintos paıses, que discutieron y consensuaron una serie de bases y

estandares para poder desarrollar una interlingua verdaderamente independiente

del lenguaje, ahora mismo hay en marcha distintas iniciativas que divergen en

su planteamiento. La propuesta expuesta previamente es la original del proyecto

UNL, disponible en la web espanola47 y en las distintas publicaciones de Uchida

y otros miembros de los equipos originales (entre ellos el espanol, procedente de

la Universidad Politecnica); informacion adicional sobre otra propuesta represen-

tativa esta disponible en la web de dicha iniciativa, UNDL48. Por ultimo, una

comparativa bastante reciente del sistema UNL con respecto a algunas de las

interlinguas mencionadas previamente puede encontrarse en [3].

47 http://www.unl.fi.upm.es/spanish/about.htm48 http://www.undl.org/

http://www.unl.fi.upm.es/spanish/about.htm

http://www.undl.org/


2.2. Parafrasis

2.2.1. Introduccion

Como ya avanzamos en la introduccion de esta tesis, no existe una definicion

unica de parafrasis, ya que el termino engloba a su vez fenomenos muy diferentes

y difıciles de estandarizar que pueden considerarse desde diversos puntos de vista.

Comenzaremos por tanto esta nueva seccion viendo varias definiciones propuestas

por distintos autores, ası como caracterısticas y opiniones de los mismos sobre la

parafrasis.

La primera definicion la encontramos en [63], donde Dorr y Madnani mencio-

nan que la definicion mas habitual parte de la base de la equivalencia semantica,

desarrollando la siguiente definicion:

‘‘Una parafrasis es una forma superficial alternativa en el mismo len-

guaje que expresa el mismo contenido semantico que la forma origi-

nal.”

Anaden ademas que cuando encontramos ıtems lexicos individuales con el

mismo significado se habla de parafrasis lexica (que no se limitarıa solo a la sino-

nimia, sino que englobarıa tambien fenomenos como la hiperonimia), mientras que

cuando son fragmentos de frase las que comparten el mismo contenido semantico

se usa el termino parafrasis frasal ; cuando ocurre con dos frases completas, se

denomina parafrasis oracional.

En [125] podemos encontrar una recopilacion de otras posibles definiciones, tales

como “expresar una cosa con otras palabras”, “formas alternativas de aportar la

misma informacion” o “frases u oraciones que aportan aproximadamente el mis-

mo significado usando distintas palabras en la superficie”; los autores recalcan la

“vaguedad” de las mismas y justifican la complejidad del asunto por la naturaleza

“polifacetica e ilimitada” del fenomeno de la parafrasis.

Para dar una idea de lo inabordable del problema de la parafrasis, citamos la

siguiente reflexion expuesta en [6]:

“(...) La cantidad relativamente pequena de artıculos de aplica-

cion (con respecto a publicaciones que proponen nuevos metodos o los


prueban in vitro, o incluso llegan a apuntar a posibles aplicaciones de

dichos metodos) puede considerarse un indicador de que la parafrasis

y el textual entailment no gozan aun de un uso extendido en grandes

sistemas. Creemos que esto puede deberse al menos a dos razones.

La primera, que la eficiencia de los metodos necesita mejorar, lo que

podrıa requerir combinar los metodos de reconocimiento, generacion y

extraccion (...). Segundo, la literatura en parafrasis y textual entail-

ment es abundante, lo que dificulta que los investigadores que trabajan

en grandes sistemas asimilen los conceptos claves e identifiquen los

metodos que mejor se adapten a su caso.”

Veamos ahora como definen y manejan el fenomeno de la parafrasis distintas

teorıas desde el punto de vista puramente linguıstico.

2.2.2. Perspectiva linguıstica

2.2.2.1. Conceptos linguısticos relacionados

La parafrasis esta estrechamente ligada a otros fenomenos linguısticos, como

pueden ser la sinonimia, la anafora/correferencia, la polisemia y muy especial-

mente el llamado “textual entailment” (la traduccion al espanol serıa “implicacion

textual”), que ya mencionamos brevemente en la introduccion y en el que ahora

profundizaremos brevemente (para ver mas informacion al respecto, ver [6]).

Textual entailment

El fenomeno denominado textual entailment se refiere a la relacion que se da

entre dos enunciados cuando uno de ellos es necesariamente consecuencia logica

del otro, pero no a la inversa. El caso bidireccional serıa, de hecho, una parafrasis

propiamente dicha (aunque esta definicion no engloba todas las parafrasis, ya

que por ejemplo se aceptan algunos textual entailments unidireccionales como tal

[125]). Una manera intuitiva de entender la diferencia entre ambos fenomenos es

pensar en la parafrasis como una forma de sinonimia y en el textual entailment

como una hiponimia; veamoslo con un ejemplo:

Luis vive en Espana.

Luis vive en Madrid.


La segunda frase implica la primera, pero no ası a la inversa. Es unidireccional

y no es una parafrasis. En cambio, “Luis vive en territorio espanol.” sı serıa

parafrasis de la primera, ya que el territorio espanol es Espana y viceversa. El

textual entailment y la parafrasis suelen de hecho buscarse y estudiarse siguiendo

metodos muy similares, como veremos mas adelante.

Polisemia

La polisemia es el fenomeno linguıstico consistente en que una misma palabra

tenga varios significados. De cara a la parafrasis, imaginemos por ejemplo los

siguientes casos:

Luis siguio el curso del rıo con atencion.

Luis siguio el curso con atencion.

Aunque a primera vista (y muy especialmente para un sistema de reconoci-

miento automatico) pueda parecer que las dos frases hablan de lo mismo, y que

tan solo se omite en la segunda un pequeno matiz respecto a la primera, no tiene

por que ser una verdadera parafrasis. La segunda frase podrıa referirse a asistir

a unas clases, por lo que no habrıa en absoluto parafrasis. Aunque este es un

caso extremo y difıcil de encontrar en la comparacion de textos que a priori se

asumen relacionados al menos a nivel contextual, ilustra la importancia de la

desambiguacion lexica y de la correcta representacion de la semantica de cara a

la identificacion de la parafrasis.

Anafora y Correferencia

La anafora y la correferencia son problemas siempre presentes en el Procesa-

miento del Lenguaje Natural. La posibilidad de hacer referencia a un elemento

anterior del texto por medio de palabras distintas y no necesariamente relacio-

nadas a nivel semantico o incluso gramatical con dicho antecedente dificulta e

incluso impide un correcto procesamiento del texto en cuestion. En el caso de la

parafrasis, estan completamente ligadas a la misma, ya que puede considerarse

un caso especial de reformulacion de la oracion. Un estudio exhaustivo sobre la

diferencia entre ambos fenomenos fue llevado a cabo por Vila y Recasens en [95];

extraemos de dicho analisis que la principal diferencia radica en que mientras la


Figura 2.11: Escala de menor a mayor parecido en la sinonimia. Correspondenciaentre terminos de las escalas propuestas por Murphy (arriba) y Cruse (abajo).

igualdad de la parafrasis se da en el significado, en la correferencia lo equivalente

son los referentes (que apuntan a una misma entidad).

Sinonimia

La sinonimia es el fenomeno por el cual dos o mas formas linguısticas com-

parten el mismo significado [115]. Esta relacion puede darse en diversos niveles

linguısticos: morfemas, unidades lexicas, oraciones... y esta obviamente ligada al

concepto de parafrasis.

Dado que no existe una forma estandar de medir lo parecidas que son dos palabras

(pues depende del contexto, de la lengua...), existen varias maneras de clasificar

los sinonimos segun sea de parecido su significado. En [115] se citan dos escalas

(ilustradas tambien en la Figura 2.11).

Escala de Cruse:

• Sinonimos absolutos: identificacion absoluta de todos los significa-

dos de dos o mas lexemas en todos los posibles contextos. Se considera

antinatural encontrarlos en una lengua.


• Sinonimos cognitivos: lo que habitualmente se denominarıa sino-

nimia; es decir, terminos con practicamente el mismo significado en

algunos contextos. A la sinonimia cognitiva se la conoce tambien como

descriptiva, proposicional o referencial [115].

• Sinonimos cercanos: significados cercanos o muy similares.

Escala de Murphy: se centra en la polisemia y el contexto.

• Sinonimos logicos: pueden ser completos (mismo sentido en todas

los posibles contextos) o de sentido (coinciden en algunos contextos).

• Sinonimos cercanos: sentidos muy parecidos dependiendo del con-

texto.

En lo relativo a los sinonimos cercanos, como ya se ha mencionado no hay una

forma estandar de medir este concepto de cercanıa; Hirst y Edmonds recopilan

en [30] una serie de dimensiones o variaciones segun las cuales se puede guiar la

distancia entre sinonimos cercanos, como por ejemplo las variaciones denotacio-

nales (como el grado de enfasis que puede aportar un termino frente a otro), las

estilısticas (dialecticas, por ejemplo), las estructurales (de subcategorizacion) o

las expresivas (rasgos de la actitud).

Semantica Distribucional

Un concepto particularmente relevante en el tratamiento de la parafrasis es la

Distribucion Estructural (tambien llamada Hipotesis Distribucional), que asume

que el lenguaje posee una cierta estructura distribucional. Esta idea fue enuncia-

da por primera vez por Zellig Harris en 1954 [42], continuando su desarrollo a lo

largo de distintas publicaciones y libros posteriores, y ha sido estudiada y usada

por muchos autores despues de el (como veremos mas adelante), popularizandose

con la expresion “a word is characterized by the company it keeps” (“una palabra

se caracteriza por sus acompanantes”). Para llegar a esta conclusion respecto a

la presencia subyacente de una estructura, Harris se baso en una serie de obser-

vaciones enunciadas en [42] y citadas textualmente a continuacion:

1. “Las partes de un lenguaje no ocurren arbitrariamente unas respecto a otras:

cada elemento ocurre en ciertas posiciones en relacion a otros elementos

concretos.”


Figura 2.12: Arquitectura general de parafrasis siguiendo la teorıa de la Distri-bucion Estructural (fuente: [63]).

2. “La distribucion restringida de clases persiste en todas sus ocurrencias; las

restricciones no se desestiman arbitrariamente por, por ejemplo, necesida-

des semanticas. (...) Todos los elementos de un lenguaje pueden ser agrupa-

dos en clases cuya ocurrencia relativa se puede concretar de manera exacta.

Sin embargo, para la ocurrencia un miembro particular de una clase con

respecto a un miembro particular de otra clase serıa necesario hablar en

terminos de probabilidad, basandose en la frecuencia de esa ocurrencia en

un muestreo.”

3. “Las declaraciones distributivas cubren todo el material de una lengua sin

requerir asistencia de ningun otro tipo de informacion.”

4. “Las restricciones de la ocurrencia relativa de cada elemento se describen

simplemente mediante una red de declaraciones interrelacionadas, algunas

de las cuales se expresan segun los resultados de otras, en vez de con una

simple medida de la restriccion de cada elemento de manera separada.”

De esta teorıa se deduce la idea de la Semantica Distribucional (ver Figura

2.12, tomada de [63]), que defiende que las palabras y frases que comparten la


misma distribucion tienden a tener significados similares. Ademas, se considera a

esta teorıa la base de la Semantica Estadıstica, campo en el que encontramos im-

portantes aportaciones al Procesamiento del Lenguaje Natural, como por ejemplo

el LSA (Latent Semantic Analysis)49.

Otras ideas interesantes derivadas de esta hipotesis (y recopiladas por Vila en

el transcurso de su tesis doctoral [126]), son por ejemplo la preservacion de las

entidades en las parafrasis o la inmutabilidad del significado del texto en torno a

las mismas en distintas ocurrencias.

2.2.2.2. Modelo del Texto-Significado

Desde un punto de vista linguıstico, segun los autores de [125] existen dos

grandes teorıas en las que la parafrasis se puede considerar un componente central:

la anteriormente analizada Teorıa del Texto-Significado (ver 2.1.7) y la Gramatica

Sistemico-Funcional (Systemic-Functional Grammar o SFG), ambas con distintos

planteamientos pero compartiendo la misma idea sobre la parafrasis como posible

consecuencia de un sistema de elecciones o alternativas. Para ver esta idea nos

centraremos por tanto y en exclusiva en el Modelo del Texto-Significado, dado

que ya hemos introducido las bases de dicha teorıa linguıstica y que ademas

Igor Mel’cuk desarrollo ampliamente como lidiar con la parafrasis en 1992 [71]. A

continuacion resumimos brevemente la extensa y detallada aportacion presentada

en dicha publicacion.

Concepto de parafrasis

Como no podıa ser de otra manera, Mel’cuk comienza por dar su propia in-

terpretacion del concepto de parafrasis, expresando50 la relacion de parafrasis

entre dos frases como una relacion de sinonimia o cuasi-sinonimia y entendien-

do la propia sinonimia como una nocion intuitiva y dependiente del contexto

de la conversacion. Cabe destacar que limita la sinonimia a un nivel puramente

linguıstico, aunque en el proceso de identificacion puedan intervenir nociones logi-

cas o matematicas, entre otras posibilidades. Ademas, entiende que el sentido de

49 http://www.aclweb.org/aclwiki/index.php?title=Statistical_Semantics50 El propio Mel’cuk aclara que no pretende definirla, ya que considera que “la identificacion

del sentido es una nocion indefinible”.

http://www.aclweb.org/aclwiki/index.php?title=Statistical_Semantics


una frase se compone de tres elementos (el sentido situacional, el comunicativo y

el retorico, reflejados en las tres estructuras asociadas al nivel semantico de repre-

sentacion de la Teorıa del Texto-Significado), y considera que la parafrasis debe

mantener “suficientemente parecido” solo el primero de ellos, pudiendo variar los

otros dos.

Tipos de parafrasis

En un Modelo de Texto-Significado, la parafrasis puede aparecer de dos ma-

neras: o bien pasando de un nivel de representacion a otro o bien estableciendose

a traves de reglas de equivalencia en un mismo nivel de representacion (pudiendo

ser estas reglas lexicas o sintacticas51). Puede haber asimismo parafrasis sintacti-

cas, derivadas de elegir o sustituir distintas estructuras sintacticas pero usando

las mismas lexies o unidades lexicas, o semanticas, fruto de una distribucion dis-

tinta de lexies (distinguiendose entre las dos frases al menos un lexie). Distingue

ademas otro tipo, las llamadas parafrasis lexicas, que mantienen las mismas re-

laciones semanticas: estas seran las parafrasis a tratar, las cuales aborda con la

creacion del concepto de funcion lexica.

Funciones lexicas

A grandes rasgos, una funcion lexica es una dependencia o correspondencia

que asocia una unidad lexica argumento con un conjunto de unidades lexica valor.

Cada funcion lexica corresponde a un sentido muy general entre unidades lexicas

y a un rol sintactico profundo, y deben ser universales. Un ejemplo representativo

de funcion lexica (de entre las mas de 100 definidas originalmente en la Teorıa)

es Magn. Magn representa el sentido semantico abstracto “muy o mucho”, y puede

darse por ejemplo acompanando a ‘te’(indicando en ese caso “te cargado”), a

lluvia (“fuerte”), trafico (“denso”)...

Por ultimo, cabe destacar que el sistema de parafrasis desarrollado en el mar-

co de la Teorıa del Texto-Significado se orienta principalmente a la generacion de

la parafrasis, no a su reconocimiento (mas tarde veremos la diferencia).

51 Las listas de las 54 reglas lexicas y de las 29 reglas sintacticas pueden encontrarse en lassecciones V.3 y V.4 del artıculo [71]


Figura 2.13: Tipos de parafrasis segun lo expuesto en [125].

2.2.3. Perspectiva computacional

2.2.3.1. Tipos de parafrasis

Existen numerosos estudios sobre los distintos tipos de parafrasis existentes

(una recopilacion de los mismos se puede encontrar en [125]); no obstante, la

mayorıa de ellos se realizan o bien desde un punto de vista no computacional

(puramente linguıstico y/o psicologico) o bien dentro de un campo de aplicacion

muy limitado. Ademas, estos analisis suelen centrarse exclusivamente en la defi-

nicion de los tipos y no en como decidir si se da dicho tipo, por lo que no podemos

considerar las tipologıas que plantean como optimas para el problema que nos

ocupa. En su artıculo [125], Vila propone su propia tipologıa, caracterizada por

intentar definir unos lımites entre que es una parafrasis, siendo estos la perdida de

informacion de una frase a su supuesta parafrasis, la presencia de conocimiento de

sentido comun (ya sea enciclopedico o situacional) o caracterısticas gramaticales

(cambios de persona, numero...). La tipologıa completa se puede ver en la Figura

2.13.


2.2.3.2. Posibles enfoques

Los autores de [6] distinguen tres grandes enfoques o desafıos en lo concernien-

te a la parafrasis: por un lado estarıa la generacion de parafrasis a partir de una

expresion, por otro el reconocimiento de la parafrasis entre dos expresiones dis-

tintas (siendo la salida una cierta probabilidad sobre la certeza de la presencia de

parafrasis), y por ultimo tendrıamos la extraccion de parafrasis de un corpus (de

cara, por ejemplo, a la creacion de un recurso con posibles parafrasis ayude tanto

a la generacion como al reconocimiento). Aunque trataremos brevemente estos

tres enfoques, nos centraremos principalmente en el campo del reconocimiento.

Generacion

A la hora de abordar la generacion, un campo en el que se inspiran muchas

opciones es el de la Traduccion Automatica, ya sea tomando distintos artıculos

sobre la misma noticia (igual que se toman textos con sus respectivas traduccio-

nes en distintos idiomas) o usando una lengua pivote para traducir de un mismo

idioma a sı misma (obteniendo probablemente otra estructura distinta a la origi-

nal), entre otras opciones.

Otra posibilidad pasa por aplicar bootstrapping con respecto a ciertos elementos

clave (como pueden ser por ejemplo entidades relacionadas) y ver como se rela-

cionan en un gran corpus, obteniendo plantillas de los casos de aparicion. Estas

plantillas deben ser posteriormente filtradas (ya que pueden senalar parafrasis,

entailment o ser falsos positivos) y una vez verificadas pueden ayudar a buscar

nuevas plantillas.

Extraccion

En lo concerniente a la extraccion a nivel lexico, muchas tecnicas se basan en

el descubrimiento de sinonimos, hiperonimos... para parafrasis frasales u oracio-

nales, en cambio, son necesarias tecnicas algo mas complejas. Una posible opcion

es basarse en la Hipotesis Distribucional (ya vista en la Seccion 2.2.2.1), identi-

ficando n-gramas y sus contextos para ver casos de repeticion o fijandose en los

roles semanticos de las oraciones.


En ausencia de plantillas semilla de partida como en el caso de la generacion

de parafrasis, se suele comenzar por vocabulario estandar del dominio, que puede

estar a su vez construido automaticamente a partir de un corpus. Otra opcion es

el uso iterativo de reglas en la busqueda de la parafrasis. Tambien es habitual el

uso de lenguas pivote y otras tecnicas de Traduccion Automatica, como ocurrıa

en el caso de la generacion.

Reconocimiento

De cara al reconocimiento de parafrasis, Androutsopoulos y Malakasiotis es-

tablecen en [6] las siguientes familias de metodos:

Metodos basados en logica Esta forma de abordar el reconocimiento de

parafrasis esta particularmente ligada al fenomeno del textual entailment, hacien-

do uso de distintos axiomas logicos para localizar las parafrasis. Un ejemplo serıa

el caso de “opera” y “obra’ ’, siendo el primero hiperonimo del segundo y pudiendo

por tanto reconocerse la parafrasis mediante axiomas del tipo:

∀x ∀y opera de(x; y)⇒ obra de(x; y)

En casos como:

Turandot es una obra de Puccini.

Turandot es una opera de Puccini.

Los axiomas pueden obtenerse de recursos como el ya mencionado FrameNet

(ver la Seccion 2.1.3.1), entre otros.

Uso de Vector Space Models Semanticos El metodo del Vector Spa-

ce Model (usado habitualmente en el campo de la Recuperacion de Informacion

para relacionar consultas o documentos con temas u otros documentos) consis-

te, a grandes rasgos, en usar vectores de pesos no binarios para representar las

palabras presentes en un recurso de cara a la comparacion de la similaridad de

dicho recurso con el vector de algun otro. La idea subyacente es representar cada

documento como un punto en un espacio, siendo la distancia en dicho espacio la

similaridad: cuanto mas cerca esten dos puntos, mayor similaridad habra entre

los documentos a los que representan. Ha sido ampliamente utilizado, siendo la

medida de similaridad predilecta la del coseno, descrita a continuacion [7]:


sim(dj, q) =~dj•~q| ~dj |×|~q|

=∑t

i=1 wi,j×wi,q√∑ti=1 w

2i,j×√∑t

i=1 w2i,j

donde ~dj = (w1,j, w2,j, ..., wt,j) representa el vector asociado a un documento

y ~q = (w1,q, w2,q, ..., wt,q) es el vector consulta.

Esta tecnica ha trascendido al campo de la semantica con la siguiente idea: si

disponemos de un conjunto de vectores compuestos por palabras relacionadas en-

tre sı (dicho conjunto podrıamos obtenerlo, por ejemplo, a partir de un corpus),

podrıamos medir la distancia de las palabras de una expresion a dicho vector

usando distintas distancias de similaridad. En [118] los autores distinguen tres

tipos de representacion segun la matriz: la clasica matriz para los terminos en un

documento, una matriz para representar el contexto o una tercera matriz llamada

“pareja-patron” donde encontrarıamos parejas de conceptos relacionados en las

filas y los patrones que representan en las columnas. De cara a la parafrasis, los

dos ultimos tipos de matriz son los mas relevantes, siendo util la primera para la

deteccion de la similaridad atribucional (la que puede existir por ejemplo entre

terminos como lobo y perro) y la segunda para la similaridad relacional (es el caso

de la pareja madera-carpintero); en el proximo capıtulo hablaremos mas de este

tema.

Metodos basados en similaridad superficial de cadenas de caracteres

Otra manera de estudiar la relacion de parafrasis pasa por analizar las palabras y

buscar similaridad en su construccion mas alla del rol semantico o sintactico que

desempenen. Mas adelante, en el proximo y ultimo capıtulo del Estado del Arte,

abordaremos mas profundamente una pequena representacion de las distintas

medidas de similaridad existentes entre cadenas de caracteres.

Metodos basados en similaridad sintactica Una de las tecnicas mas ha-

bituales es la representacion sintactica de las expresiones a analizar, normalmente

en forma de arbol, y el procesado de las mismas en busca de ciertos patrones en

los nodos, arcos o subgrafos. Existen asimismo distintas distancias propias de las

representaciones en forma de arbol de dependencias y de grafos que permiten un

mejor analisis de dichas representaciones sintacticas (como veremos en el proximo

capıtulo).


Medidas basadas en representaciones simbolicas del significado Tam-

bien puede ocurrir que en dos oraciones con absolutamente ninguna palabra en

comun se de la parafrasis. En estos casos se suele recurrir a recursos externos como

el ya mencionado WordNet, que cuentan con sus propias medidas de similaridad y

que permiten relacionar terminos cercanos aunque no se parezcan. Tambien pue-

den usarse las previamente expuestas relaciones semanticas para hallar puntos

comunes entre una oracion y otra.

Machine Learning y reglas Por ultimo, existen tambien metodos tomados

del Aprendizaje Automatico que han demostrado ser utiles en el reconocimiento

de la parafrasis, como pueden ser por ejemplo el SVM (Support Vector Machine)

y la combinacion de distintas tecnicas usadas para el entrenamiento, el aprendi-

zaje y la clasificacion de los vectores. Otro formato muy extendido pero mucho

mas costoso a nivel de implementacion es el uso de reglas.

Otra manera frecuente de organizar las tecnicas para el tratamiento de la parafra-

sis es segun el tipo de los datos: entre distintas traducciones, en un corpus mo-

nolingue o en corpus comparables. Una manera de entender la parafrasis pasa

precisamente por alinear corpus y ver como se relacionan las distintas oraciones

que a priori pueden expresar lo mismo. Ademas, en un mismo sistema es habitual

encontrar combinaciones de todas estas aproximaciones.

2.2.3.3. Campos de aplicacion

Al ser la parafrasis un fenomeno tan comun, han sido muchas las aplicacio-

nes de procesamiento de lenguaje natural que han incorporado tecnicas para su

tratamiento o han desarrollado versiones que “tocan” ligeramente este campo. A

continuacion haremos un repaso de los principales campos de aplicacion, con los

avances mas recientes en el area, y tambien de los campos relacionados con el

propio concepto de parafrasis a nivel de procesamiento.

Resumidores

En el caso de los resumidores, por ejemplo, encontramos que un resumen

es tambien una parafrasis, y de manera muy similar procesara el lenguaje para

adaptarlo. La idea principal es determinar lo mas relevante y representativo de


un texto y reescribirlo de forma mas concisa, pudiendo abordarse esta tarea desde

un enfoque abstractivo (generando el resumen a partir de las ideas del texto) o

extractivo (eliminando las partes no deseadas y tomando las relevantes). Segun

la tesis doctoral de Cheung, que gira en torno a los resumidores automaticos

[19], este proceso se puede dividir en tres etapas principales: analisis/seleccion de

contenido, transformacion/refinamiento y sıntesis o realizacion. Aunque el aspecto

semantico es importante en todas ellas, destaca especialmente en las dos primeras.

Seleccion de contenido: En la fase de analisis se seleccionan las frases que

contienen la informacion del texto y que por tanto apareceran (modificadas

en mayor o menor medida) en la version final del resumen; es por ello que

la correcta deteccion de parafrasis ya existentes es primordial para evitar

repetir informacion ya presente en otras frases seleccionadas, alargando ası

innecesariamente el resumen o incluso dejando fuera otra informacion. Es

lo que se denomina el sentence extraction.

Transformacion: Una vez se tienen las frases mas representativas es el

momento de comprimirlas lo maximo posible (sentence compression), lo

que puede suponer de hecho una parafrasis de la frase original.

De cara a las distintas tecnicas, un buen estado del arte de resumidores au-

tomaticos atendiendo a los distintos niveles del procesamiento es el elaborado por

Lloret en [61], que incluye ademas una extensa comparativa de algunos sistemas

concretos. Si nos centramos en cambio en posibles contextos del resumen a rea-

lizar (resumen de emails, de artıculos, basados en queries o de webs), podemos

encontrar un survey bastante completo de las distintas tecnicas en [87], ası como

un analisis de las principales tecnicas de Aprendizaje Automatico aplicadas a los

resumidores.

Destacamos entre las tecnicas de resumenes automaticos las basadas en grafos,

donde cada nodo representa una frase y las relaciones entre ellas, representadas

por las aristas de distintas maneras segun el algoritmo, sirven para decidir su

importancia en el global del texto; un ejemplo reciente puede ser el propuesto

en [5]. Algunos de los algoritmos mas utilizados en este enfoque son TextRank

[76] y LexRank [31], metodos que sigues una idea similar a PageRank donde se

decide la importancia de una frase en base a una cierta nocion de centralidad y

“votacion democratica” entre los nodos. Existen tambien propuestas de tecnicas


de resumenes basados en representaciones con grafos UNL (ver [69], [90], [106])

que aprovechan las caracterısticas de dicho sistema de representacion, tales como

las relaciones semanticas o los atributos, y proponen una serie de reglas propias

para el proceso de resumen.

2.2.3.4. Consultas expandidas, Q/A y Extraccion de Informacion

Dado que los sistemas de extraccion de informacion a menudo usan patrones

para localizar la informacion pertinente, una buena forma de definir dichos patro-

nes es el uso de patrones de parafrasis con respecto a una expresion estandar. Lo

mismo ocurre en los sistemas de pregunta/respuesta, donde la parafrasis a partir

de la consulta del usuario (consulta expandida) es una etapa indispensable en la

correcta localizacion de la informacion y en la elaboracion de la respuesta, como

podemos ver en el proceso propuesto en [132]. Un recurso ampliamente utilizado

desde los comienzos de la disciplina de la expansion de queries es WordNet, co-

mo podemos ver en [127], [132] y [133]; en esta ultima publicacion encontramos

ademas el concepto de “reduccion de query”, donde la parafrasis tambien juega

un papel importante a la hora de cambiar o eliminar de la consulta las partes que

o bien dificultan la obtencion de la respuesta o bien repiten informacion. Para

un Estado del Arte reciente y mas profundo en distintas tecnicas para la expan-

sion de consultas, se puede consultar [18], mientras que la evolucion del uso de

parafrasis para este fin a traves de distintas aplicaciones se desarrolla en [63]. En

el ambito de UNL, en [17] y [15] se describen frameworks completos para sistemas

de recuperacion de informacion basados en representacion UNL

2.2.3.5. Generacion de Lenguaje Natural y Traduccion Automatica

Obviamente, la Generacion de Lenguaje Natural es un campo en el que la

parafrasis (y muy especialmente su generacion) va a enriquecer notablemente la

produccion de texto, evitando repeticiones y posibilitando adaptar un mismo con-

tenido a distintos niveles, estilos y contextos (simplificando, por ejemplo, textos

para estudiantes o artıculos tecnicos para un publico mas general).

Esto evidentemente tendra aplicacion tambien en el ambito de la Traduccion

Automatica, tanto a la hora de generar la traduccion como en el momento de

evaluar si una traduccion es correcta en comparacion con traducciones de refe-

rencia realizadas por humanos. Es util ademas si disponiendo, por ejemplo, de


un corpus bilingue, el sistema no encuentra informacion sobre la frase concreta

a traducir. En este caso, disponer de un sistema de reconocimiento de parafrasis

en la lengua de partida podrıa ayudarnos a localizar posibles candidatas en el

corpus de salida.

Otros usos

Al margen de los principales campos de aplicacion previamente citados, existen

multitud de aplicaciones en las que el procesamiento de la parafrasis puede aportar

grandes avances. Algunos ejemplos son la correccion de respuestas de estudiante

en base a respuestas correctas estandar (ya que pueden ser correctas aun estando

escritas de manera distinta), la expansion de recursos anotados manualmente por

humanos de cara a evaluacion o la deteccion de plagio ([6], [63]). Existen ademas

niveles incluso mas profundos de parafrasis/entailment que analizar, como por

ejemplo el uso de metaforas [80], donde la relacion semantica puede ser aun mas

difıcil de establecer. Cabe destacar que el propio UNL ha sido usado en ocasiones

(y en combinacion con otros recursos) como reconocedor de parafrasis y textual

entailment (ver [89]).

2.2.3.6. Recursos

Existen numerosos workshops (ver [6], [68]) y recursos disponibles como Word-

Net y FrameNet (para una lista mas completa consultar [68]) utilizados frecuente-

mente en el analisis de la parafrasis. Tambien hay publicadas multitud de metricas

y algoritmos52 tanto para la parafrasis como para la Traduccion Automatica que

suelen usarse para filtrar o validar la existencia de parafrasis entre dos frases can-

didatas (ver [64]).

Para la evaluacion existen numerosos corpus, entre los cuales destacamos para

el ingles el Microsoft Research Paraphrase Corpus53 (MRPC), paraphrase.org54

52 http://www.aclweb.org/aclwiki/index.php?title=Paraphrase_Identification_

(State_of_the_art)53 Descargable en: http://research.microsoft.com/en-us/downloads/

607D14D9-20CD-47E3-85BC-A2F65CD28042/default.aspx54 Las parafrasis inglesas se pueden descargar en: http://paraphrase.org/, pero otras,

como las espanolas, no estan disponibles.

http://www.aclweb.org/aclwiki/index.php?title=Paraphrase_Identification_(State_of_the_art)

http://www.aclweb.org/aclwiki/index.php?title=Paraphrase_Identification_(State_of_the_art)

http://research.microsoft.com/en-us/downloads/607D14D9-20CD-47E3-85BC-A2F65CD28042/default.aspx

http://research.microsoft.com/en-us/downloads/607D14D9-20CD-47E3-85BC-A2F65CD28042/default.aspx

http://paraphrase.org/


o el corpus PAN55 para evitar el plagio. Existen ademas numerosas versiones ex-

traıdas de dichos corpus (por ejemplo la creada por la Universidad de Barcelona a

partir de este ultimo 56) y otros tantos recursos para idiomas diferentes del ingles.

No obstante, cabe destacar que estos repositorios suelen preprocesarse antes de

ser utilizados, pues dado que cada investigador mantiene su propia definicion y

tipologıa de parafrasis, habitualmente es necesario cribar los repositorios para

seleccionar que casos se ajustan a su definicion o a sus objetivos y limitaciones y

cuales no.

2.2.3.7. Otras consideraciones

Antes de finalizar el capıtulo sobre la parafrasis es necesario matizar ciertos

aspectos sobre este fenomeno:

La parafrasis es un fenomeno en muchas ocasiones subjetivo: en la creacion

y evaluacion de los corpus, muchos de los evaluadores humanos no estan a

menudo de acuerdo sobre la presencia de la parafrasis.

La presencia de la parafrasis no es habitualmente clara, y por tanto no se

puede ver como algo binario: la aproximacion mas habitual consiste en dar

una probabilidad a la presencia de la parafrasis y considerar su existencia

cuando dicha probabilidad sobrepasa un determinado umbral.

Como ya hemos comentado, la parafrasis no solo es tan solo una forma

diferente de escribir una oracion: en ocasiones aporta informacion extra que

en caso de expresarse de otra manera no hubiese reflejado: contexto, puntos

de vista, riqueza lexica, enfasis en un una parte determinada de la frase... es

difıcil definir en que momento se puede considerar una parafrasis sin perder

esta informacion, dependera en gran medida del contexto de la frase.

55 Descargable en: http://www.uni-weimar.de/en/media/chairs/webis/corpora/

corpus-pan-pc-10/56 http://intime.dlsi.ua.es/textmess20/content/corpus-p4p-paraphrase-plagiarism

http://www.uni-weimar.de/en/media/chairs/webis/corpora/corpus-pan-pc-10/

http://www.uni-weimar.de/en/media/chairs/webis/corpora/corpus-pan-pc-10/

http://intime.dlsi.ua.es/textmess20/content/corpus-p4p-paraphrase-plagiarism


2.3. Similaridad

2.3.1. Introduccion

En la seccion anterior hemos hablado los conceptos de similaridad y distancia,

mencionando de que no existe una medida estandar a la hora de definir la cercanıa

semantica entre elementos lexicos, ya sea a nivel de terminos o de oraciones. En

esta seccion intentaremos ver los esfuerzos que se han hecho en este sentido tanto

en cuanto a medidas de similitud estandar en los distintos niveles del texto (de

palabra, sintactico y semantico) como en la representacion en forma de grafo, el

modelo mas parecido al que sigue UNL.

2.3.2. Nivel de palabra

Dado que muchas de las medidas de similitud sintacticas y semanticas se

centran casi exclusivamente en el analisis de verbos y nombres, la combinacion de

dichas medidas con un analisis a nivel de las palabras que componen el texto puede

mejorar notablemente el desempeno de un sistema de parafrasis. Dividiremos este

apartado en metricas y distancias entre cadenas de caracteres (que nos ayudan

a encontrar por ejemplo palabras con distinta categorıa gramatical pero misma

familia lexica, como hablar y habladurıa) y metricas a nivel de evaluacion de

Traduccion Automatica, que han sido ampliamente usadas en distintos sistemas

de parafrasis para verificar la existencia de las mismas.

2.3.2.1. Cadenas de caracteres

De cara a la exposicion de los distintos metodos revisados en lo relativo a la

comparacion de cadenas de caracteres, seguiremos la organizacion propuesta por

Naumann en [85] (puede verse dicha organizacion en la representacion grafica de

la Figura 2.14).

Basadas en edicion

Distancia de Hamming En informatica, una de las distancias clasicas mas

usadas es la Distancia de Hamming, pensada para permitir la deteccion y correc-

cion de errores en transmisiones de cadenas binarias pero aplicable a cadenas de


Figura 2.14: Organizacion de medidas de similaridad para caracteres propuestaen [85].

caracteres. Basicamente, mide los dıgitos diferentes entre dos cadenas de la mis-

ma longitud; planteada originalmente en [41], encontramos la siguiente definicion

formal en [101]:

simH(a, b) =

∑min{|a|,|b|}i=1 id(ai, bi)

max {|a| , |b|}

donde la funcion id(a, b) devuelve 1 en caso de coincidir los numeros y 0 en caso

contrario. Aunque la version original clasica solo compara elementos en la misma

posicion, es posible abarcar las coincidencias en ventanas de distinto tamano (para

mas informacion, ver [101]).

Distancia de Levenshtein Tambien denominada “edit distance” o “dis-

tancia de edicion”, comporta el numero de operaciones (insercion, eliminacion o

sustitucion de un caracter) necesarias para transformar una cadena de caracteres

en otra. Como veremos mas adelante, en la seccion de Nivel Sintactico, este con-

cepto de similaridad se ha extendido a representaciones distintas de las cadenas

de caracteres, tales como los grafos y los arboles, pudiendo anadirse otras opera-


ciones dependientes del contexto de la comparacion. Una posible formulacion y

la correspondiente funcion de similitud derivada las encontramos recopiladas en

[101] en la siguiente formulacion:

distL(a, b) =min {n : b = op1 ◦ · · · ◦ opn(a)}

max {|a| , |b|}

simL(a, b) = 1− distL(a, b)

Otras medidas de edicion relacionadas57 son la de Damerau-Levenshtein (que

permite la transposicion de caracteres adyacentes), la LCS (Longest Common

Subsequence, o Cadena Comun de Mayor Longitud, que no permite la sustitucion)

o la ya mencionada distancia de Hamming, que solo permite la sustitucion y actua

exclusivamente sobre cadenas de la misma longitud.

Distancias de Jaro y Jaro-Winkler Otra distancia es la planteada por

Jaro en 198958, de la siguiente forma:

distJaro =

{0 si m(a, b) = 013(m(a,b)|a| + m(a,b)

|b| + m(a,b)−t(a,b)m(a,b)

) sino

donde m(a, b) simboliza las coincidencias y t(a, b) el numero de transposiciones

presentes entre dos cadenas. En algunas versiones se anaden pesos a cada uno

de los tres componentes de la suma (ver [128]). Posteriormente fue adaptada por

Winkler en [128], dando lugar a la distancia de Jaro-Winkler, que tiene en cuenta

una determinada longitud de prefijo l (de maximo 4 caracteres) y un factor de

escalado constante p (que normalmente toma 0,1 como valor estandar):

distJW = distJaro + (l · p(1− distJaro))

Basadas en tokens

Similaridad del coseno Una funcion del ambito matematico ampliamente

usada en el contexto de la Linguıstica es la funcion de similaridad del coseno,

empleada en algoritmos como TF-IDF:

57 https://en.wikipedia.org/wiki/Levenshtein_distance58 https://en.wikipedia.org/wiki/Jaro%E2%80%93Winkler_distance

https://en.wikipedia.org/wiki/Levenshtein_distance

https://en.wikipedia.org/wiki/Jaro%E2%80%93Winkler_distance


simcos(a, b) = cos(θ) =a · b‖a‖ ‖b‖

=

∑ni=1 aibi√∑n

i=1 a2i

√∑ni=1 b

2i

Para que entre en el rango estandar (0, 1), se suele adaptar de la siguiente

forma:

simcosV 2(a, b) = 1− arccos(simcos(a, b))

π

Q-gramas y N-gramas Los N-gramas son subsecuencias de N elementos

de una secuencia dada (en el caso de palabras, estos elementos son los caracteres

y suelen denominarse q-gramas, aunque la distincion entre q-gramas y n-gramas

no esta estandarizada; en caso de oraciones, seran los elementos seran cada una

de las palabras que la componen).

Coeficiente de Jaccard Planteado en 1901 y valido para la comparacion

de dos conjuntos cualesquiera, el coeficiente o ındice de Jaccard se puede aplicar

tambien a la medida de similaridad entre cadenas de caracteres; es una compa-

racion entre la union y la interseccion de dos conjuntos:

simJac(a, b) =|a| ∩ |b||a| ∪ |b|

Coeficiente de Dice Otra medida de conjuntos bastante similar a la de

Jaccard y con diversas aplicaciones (como veremos posteriormente en las medi-

das de comparacion de Grafos Conceptuales), el llamado coeficiente de Dice tiene

la siguiente formulacion:

simDice(a, b) = 2|a ∩ b||a|+ |b|

En ocasiones se considera que el numerador |a ∩ b| es una medida en sı misma,

llamada el Matching Coefficient. Entre las medidas derivadas de los coeficientes

de Dice y Jaccard encontramos el denominado Overlap Coefficiente (o coeficiente

de solapamiento), con la siguiente forma:

cOverlap(a, b) =|a ∩ b|

min(|a| , |b|)


Otras medidas

Funcion de Tversky Uno de los analisis mas profundos realizados acerca

del concepto de similaridad desde distintos puntos de vista es sin duda el realizado

por Amos Tversky (ver [119]). De dicho estudio deriva la llamada funcion de

similaridad de Tversky, donde se da libertad a la hora de elegir la importancia

de los elementos no comunes en funcion de unos pesos w1 y w2:

simTv(a, b) =|a ∩ b|

|a ∩ b|+ w1 |a− b|+ w2 |b− a|′

Distancias Manhattan y Euclidea La distancia de Manhattan (tambien

denominada “City Block Distance” o “Takicab”59 ), desarrollada por Hermann

Minkowski, se usa habitualmente para vectores, pero puede aplicarse tambien a

la comparacion de cadenas de caracteres, al igual que la Euclidea (la distancia

usada por defecto en todos los campos). Se basa en la suma de las proyecciones

de un segmento en el espacio que recorre y tiene la siguiente forma:

dM(a, b) =n∑i=1

|ai − bi|

dE(a, b) =

√√√√ n∑i=1

(ai − bi)2

donde ai y bi con suelen representar el numero de apariciones de una palabra (o un

caracter) concreta. Otras distancias usadas habitualmente en la comparacion de

vectores en el entorno matematico se pueden adaptar igualmente a este contexto

(por ejemplo, las distancias de Chebyshev, Mahalanobis...).

Dependientes del dominio A la hora de comparar cadenas mas concre-

tas, como fechas, divisas, entidades o lugares, suelen usarse reglas concretas de

transformacion y similaridad o ayudarse de una base de conocimiento, software

implementado para tal fin (como el reconocedor de Stanford60) o usar busquedas

y URIs. Un estado del arte sobre como reconocer estos casos se puede encontrar

en [84].

59 https://en.wikipedia.org/wiki/Taxicab_geometry60 http://nlp.stanford.edu/ner/

https://en.wikipedia.org/wiki/Taxicab_geometry

http://nlp.stanford.edu/ner/


Otras medidas Otras medidas y algoritmos de diversas areas tambien apli-

cables a la comparacion de cadenas de caracteres y no revisadas previamente son

los algoritmos de Needleman–Wunsch61 (usado principalmente en bioinformatica

para comparacion de secuencias biologicas) y Smith-Waterman62 (posteriormente

mejorado por diversos autores, como Gotoh, Monger y Elkan o Atshchul y Erick-

son). Para una recopilacion mas extensa de medidas de comparacion entre conjun-

tos y colecciones, se puede consultar [101]. A la hora de reconocer entidades, un

planteamiento particularmente interesante pero alejado de los vistos previamente

es Soundex63, un algoritmo que indexa nombres por su sonido, referenciandolos a

representaciones estandar unicas (una suerte de interlingua numerica) que sigue

una idea similar a la de las URIs en las bases de conocimiento y la Web Semantica.

2.3.2.2. Metodos de evaluacion de Traduccion Automatica

Otra forma estandar de evaluar la existencia de parafrasis entre dos textos es

el uso de metodos de evaluacion propios de la Traduccion Automatica, ya que

estos sirven precisamente para intentar verificar que dos textos dicen lo mismo.

A continuacion se exponen brevemente algunas de las metricas mas usadas y

conocidas (para mas informacion sobre el tema, se recomienda consultar [34]).

BLEU

BLEU (BiLingual Evaluation Understudy) es sin duda la medida usada por

excelencia a la hora de identificar la parafrasis [93]. Se puede interpretar como

la media geometrica de la precision de los n-gramas, ya que va considerando

n-gramas con distintos valores de n:

evalBLEU = BP × exp

[N∑n=1

1

N× log(pn)

]

donde BP simboliza la penalizacion de brevedad (Brevity Penalty), que penaliza

si la traduccion es mas corta que el texto de referencia (en el caso de la parafrasis

suele tomar 1 como valor, puesto que la diferencia de longitud no es indicativo de

61 https://en.wikipedia.org/wiki/Needleman%E2%80%93Wunsch_algorithm62 https://en.wikipedia.org/wiki/Smith%E2%80%93Waterman_algorithm63 https://es.wikipedia.org/wiki/Soundex

https://en.wikipedia.org/wiki/Needleman%E2%80%93Wunsch_algorithm

https://en.wikipedia.org/wiki/Smith%E2%80%93Waterman_algorithm

https://es.wikipedia.org/wiki/Soundex


presencia o ausencia de la misma) y pn es la precision de los n-gramas, dada por:

pn =

∑i=1,...,I

∑n−gramas∈si counte(n− gramas)∑

i=1,...,I

∑n−gramas∈si count(n− gramas)

donde a su vez count(n − grama) es la cantidad de n-gramas en los dos textos

(referente, ri, y evaluado, si) y counte(n − gramas) considera la presencia solo

en el texto a evaluar.

NIST

Existen numerosas metricas derivadas de BLEU, como por ejemplo NIST64,

que esta basada en la informacion aportada por los distintos n-gramas y tiene la

siguiente forma:

evalNIST =N∑n=1

BP ×∑∀ n−gram co−occur info(n− gram)

cant(n− gramas)

donde la informacion viene dada por:

info(n− gram) = log2

[cant((n− 1)− gramas)cant(n− gramas)

]

METEOR

METEOR (Metric for Evaluation of Translation with Explicit ORdering) es

una extension de BLEU definida como sigue [25]:

evalMETEOR = Fmean · (1− pen)

donde la penalizacion (pen) se obtiene dividiendo en numero de chuncks (ch)

entre las correspondencias (matches, m) entre los textos y modificando por una

serie de parametros ajustables γ, β:

pen = γ · (chm

)β

METEOR intenta paliar algunos de los problemas presentes en BLEU y sus

64 https://en.wikipedia.org/wiki/NIST_(metric)

https://en.wikipedia.org/wiki/NIST_(metric)


derivados [8], tales como la falta de recall, de mapeo entre palabras o el uso de

n-gramas de un orden mayor

WER

WER (Word Error Rate) es una medida del numero de operaciones de edicion

requeridas para transformar una palabra en otra. Sigue la idea de la distancia

de Levenshtein vista en el apartado anterior, usando las mismas operaciones de

insercion (I(si, ri)), eliminacion (D(si, ri)) y sustitucion ((S(si, ri)):

evalWER =I(si, ri) +D(si, ri) + S(si, ri)

|ri|

a partir de WER se han creado versiones alternativas, como la de Hunt, que

proponıa dar menos peso a las eliminaciones y las inserciones65.

TER

Otra metrica similar a WER es TER (Translation Edit Rate) [107], que con-

siste en dividir el numero de ediciones (incluyendo operaciones como el desplaza-

miento de palabras) entre la media de palabras de referencia:

evalTER =cant(edits)

media(cant(ri))

PER

PER (Position-independent word Error Rate) sigue la idea de WER pero sin

tener en cuenta el orden de las palabras (es decir, que trata las oraciones como

meras bolsas de palabras), considerando las que estan en uno de los textos pero

no en el otro (dif(a, b)):

evalPER(si, ri) =max[dif(si, ri), dif(ri, si)]

|ri|

65 https://en.wikipedia.org/wiki/Word_error_rate

https://en.wikipedia.org/wiki/Word_error_rate


Otras medidas

Otras posibles medidas son SSER (Subjective Sentence Error Rate), la F-

measure (usada en multitud de aplicaciones del Procesamiento del Lenguaje Na-

tural), CDer (basada en movimientos de bloques) y LEPOR. Existen ademas

diversos paquetes de medidas, como ROUGE (Recall-Oriented Understudy for

Gisting Evaluation), un conjunto que engloba e implementa algunas de las ya

vistas.

2.3.3. Nivel sintactico

Aunque la parafrasis y el textual entailment suelen considerarse desde un

punto de vista puramente semantico, Vanderwende y Dolan demostraron en [123]

que con un analisis sintactico y la ayuda de un recurso externo (en su caso, un

tesauro) se pueden testar exitosamente el 48 % de los casos de textual entailment

(sin este recurso linguıstico el porcentaje bajarıa al 34 %). Un analisis combinado

a nivel semantico y sintactico puede, ademas, ayudar a solventar problemas que

se dan al usar tan solo semantica o correspondencia entre cadenas de caracteres,

como puede ser el siguiente caso (extraıdo de [68]):

El Instituto Nacional de Psicologıa de Israel se creo en 1979.

Israel se creo en 1979.

Aun ası, la mayorıa de metodos se enfocan a la similitud semantica, como

veremos en la seccion inmediatamente posterior a esta. En el ambito sintacti-

co, la mayorıa de tecnicas actuan sobre dos tipos de representacion (arboles y

grafos), que veremos con mayor detalle. No obstante, cabe mencionar algunas

aproximaciones que no siguen esa idea, como los analisis sintacticos propuestos

en [89] o [55], donde simplemente se basan un etiquetado POS o en la busqueda

de similitud en “porciones” de dependencias, como es el caso de [23].

2.3.3.1. Arboles

A nivel sintactico, la similaridad entre oraciones se suele hacer usando arboles

de dependencia como representacion (los llamados parse trees, ver por ejemplo la

Figura 2.15). La manera mas habitual de medir la similaridad entre dos arboles

de dependencia pasa o bien por realizar un mapeo entre ambos arboles (como


Figura 2.15: Ejemplo arbol de dependencias y posible parafrasis (fuente: [68]).

es el caso de [44]) o bien por usar la llamada Tree Edit Distance (TED o Dis-

tancia de Edicion de Arboles), que expresa el numero mınimo de operaciones o

cambios que habrıa que hacer entre un arbol y otro para que quedasen iguales

(siendo habitualmente estas operaciones de insercion, eliminacion o sustitucion

y teniendo distintos costes [52], pero pudiendo extenderse para el caso concre-

to de la parafrasis a mas, como proponen en [43]). Esta opcion se ha extendido

posteriormente (ver por ejemplo [2]), de manera que en vez de nodos se pueden

estudiar el numero de operaciones sobre subarboles completos de cara al textual

entailment.

2.3.3.2. Grafos

Otra opcion menos habitual es representar las dependencias sintacticas me-

diante grafos. En este caso, la opcion mayoritaria es buscar el maximal common

subsumer subgraph (MCSS), del que hablaremos mas adelante en la seccion re-

lativa a la similaridad entre grafos (ver la Seccion 2.3.4.4), en la que trataremos

ademas formas de similitud entre grafos no necesariamente linguısticos pero que


tambien pueden contribuir en dicho campo.

En [92] encontramos una posible medida de similaridad orientada al textual en-

tailment (pero aplicable a la parafrasis) considerada precisamente sobre el MCSS.

Desarrollan ademas lo que denominan las “transformaciones invariantes del gra-

fo”, que engloban una serie de fenomenos en estructuras linguısticas comunes a

la hora de reformular un enunciado:

Nominalizacion: casos como La caıda de la Bolsa fue estrepitosa. y La

Bolsa cayo estrepitosamente.

Pasivizacion: como en Luis come patatas. y Las patatas son comidas por

Luis.

Negacion: puede expresarse de distintas maneras; en el caso del espanol

tenemos concretamente el caso de la doble negacion Jamas voy al parque.

y No voy jamas al parque.

Otros autores proponen medidas basadas en grafos que se apoyan tanto en la

semantica como en la sintaxis. Considerando de nuevo las transformaciones grafa-

les que pueden darse con fenomenos linguısticos como los previamente planteados

(nominalizacion y pasivizacion), en [91] usan esta aproximacion centrandose en

los “gobernadores” de cada parte de la frase, que pueden ser solo nombres o

verbos.

2.3.4. Nivel semantico

En el nivel semantico encontramos distintas maneras de medir la similaridad.

Por un lado tenemos la similaridad semantica entre conceptos, que podemos di-

vidir en dos grandes grupos [75]: por un lado, las medidas basadas en corpus

(donde encontramos medidas basadas en la co-ocurrencia de las palabras, como

en el Latent Semantic Analysis) y por otro la basadas en conocimiento (donde

la similaridad se mide de acuerdo a la informacion proporcionada por distintos

sistemas de representacion del conocimiento, tales como redes semanticas); de

cara al Estado del Arte nos centraremos principalmente en este ultimo grupo,

concretamente en las que actuan sobre redes semanticas (para medidas basadas

en otras representaciones linguısticas, como diccionarios y tesauros, se pueden

consultar [13] y [117]).


Encontramos por otro lado la similaridad entre textos, de la que hablaremos

brevemente ya que, aunque esta directamente relacionada con la parafrasis, no

existe tanta bibliografıa disponible al respecto como en el caso de la similaridad

semantica entre conceptos. Finalizaremos la seccion con un repaso sobre la si-

milaridad entre grafos, forma habitual de representar oraciones y textos tanto a

nivel sintactico como semantico.

2.3.4.1. Co-ocurrencias o medidas basadas en corpus

Existen numerosas hipotesis sobre como la ubicacion de las palabras en un

texto pueden ayudar a determinar (o al menos dar indicios acerca de) la relacion

de similitud con las palabras de su entorno y con palabras que suelen aparecer

de manera similar, como la ya comentada Hipotesis Distribucional de Harris (ver

2.2.2.1). A continuacion exponemos brevemente otras hipotesis relacionadas con

esta idea tal y como aparecen en [118]:

Hipotesis Semantica Estadıstica (del ingles Statistical semantics hypot-

hesis): patrones estadısticos de como usan las palabras los seres humanos

pueden usarse para descubrir que quiere decir la gente (y esto puede estu-

diarse a partir de las frecuencias de aparicion y ubicacion).

Hipotesis Bag of Words: la frecuencia de palabras en un documento tien-

den a indicar la relevancia de dicho documento con respecto a una consulta.

Hipotesis Distribucional Extendida: los patrones que ocurren con pares

similares de conceptos tienden a tener significados similares.

Hipotesis de Relacion Latente (extension de el LSA, o Latent Seman-

tic Analysis): pares de palabras que tienden a darse en patrones similares

tienden a tener relacion de similaridad semantica (serıa justamente la idea

inversa a la expresada en la Hipotesis Distribucional Extendida).

Estas hipotesis son particularmente interesantes porque permiten descubrir

situaciones de similaridad relacional, mientras que las medidas basadas en taxo-

nomıas que veremos a continuacion suelen centrarse exclusivamente en relaciones

atribucionales.


2.3.4.2. Medidas taxonomicas para conceptos

En las medidas taxonomicas en las que los arcos tienen determinados pesos

(como por ejemplo WordNet), existen cuatro factores a tener en cuenta a la hora

de asignar dichos pesos y medir las distancias [101]:

1. La densidad de la taxonomıa a nivel local: cuantos mas nodos haya en

una seccion de la taxonomıa, mas cercanos seran los conceptos a los que

representan.

2. La profundidad de la taxonomıa: relacionado con el concepto de granu-

laridad, cuanto mas profundicemos en la taxonomıa, mas sutiles seran las

diferencias entre los conceptos y mas cercanos seran entre sı.

3. El tipo de relacion: dependiendo de la taxonomıa en la que nos movamos,

encontraremos distintas conexiones entre los nodos (relaciones is-a, hiper-

onimia/hiponimia, meronimia...), y cada una tendra sus propios baremos

en lo respectivo al peso.

4. La fuerza de la conexion entre dos nodos: la distancia de un padre a cada

hijo no tiene porque tener el mismo peso. Uno de los factores que se suele

tener en cuenta en estos casos es el concepto de Contenido de Informacion

(IC), que veremos mas adelante y que se relaciona habitualmente con la

frecuencia de aparicion en un corpus.

Basadas en el camino entre conceptos

Como el propio nombre indica, la idea tras estas medidas radica en que la

similaridad entre dos conceptos se puede entender como la longitud del camino

(definida en base a los nodos o a los arcos) que une ambos conceptos y que

depende tambien la posicion de los mismos en la taxonomıa.

Rada et al La idea mas intuitiva es sin duda la introducida por Rada,

Mili, Bicknell y Blettner en 1987, que consiste en usar exclusivamente relaciones

is-a y en emplear como medida de similaridad la longitud del camino entre dos

conceptos [94].

simRal(a, b) = dist(a, b)


Leacock y Chodorow Leacock y Chodorow [53] proponen como medida

“obvia” (expresion textual) medir la distancia mınima entre dos terminos, nor-

malizandola de alguna manera al tener en cuenta la profundidad maxima de la

taxonomıa en la que se esta estudiando la similaridad (ellos la proponen para

WordNet, pero podrıa aplicarse a otras). La funcion de similaridad entre dos

palabras a y b quedarıa por tanto como sigue:

simLCh(a, b) = max

(−log

(NP

2 ·D

))Donde NP representa el numero de nodos en un camino (el maximo implica

que se elegira el camino mınimo) y D simboliza la profundidad de la taxonomıa

en cuestion.

Lesk En los anos ochenta, Lesk propuso un algoritmo66 capaz de desambi-

guar terminos partiendo de la informacion de un diccionario. De dicho algoritmo

surgio la idea de que la similaridad entre dos conceptos se puede interpretar como

una funcion del solapamiento entre las definiciones de dichos conceptos [75].

Wu y Palmer Por su parte, Wu y Palmer propusieron en [130] una medida

de similaridad conceptual en el marco de la traduccion automatica entre ingles

y chino (mas concretamente, en la representacion semantica de los verbos), que

puede expresarse como sigue:

simWP (a, b) =2 · dist(R,LCS(a, b))

dist(R, a) + dist(R, b)=

2 ·D(LCS(a, b))

D(a) +D(b)

Donde dist(x, y) representa la distancia mınima entre dos nodos (en numero

de nodos), R simboliza el nodo raız de la taxonomıa, D(x) es la profundidad (de

nuevo, en numero de nodos) y LCS es el Least Common Superconcept (el padre

comun mas cercano en la jerarquıa) de los conceptos a y b.

Sussna Sussna propuso en [116] una metrica basada en el peso de las aristas

de la red, considerando que una arista equivale a dos relaciones inversas, y que

cada tipo de relacion tendra su propio rango de peso w(a −→r b) ∈ [minr,maxr].

Ademas introduce la idea de “reescalado relativo a la profundidad” (depth-relative

66 https://en.wikipedia.org/wiki/Lesk_algorithm

https://en.wikipedia.org/wiki/Lesk_algorithm


scaling), que considera que dos conceptos hermanos a mayor profundidad en el

arbol taxonomico guardaran mayor relacion semantica que conceptos hermanos

presentes en la parte alta de la jerarquıa. La funcion de similitud queda de la

siguiente manera:

simS(a, b) =w(a −→r b) + w(b −→r′ a)

2 ·max(D(a), D(b))

con el calculo del peso efectuado de la siguiente manera:

w(a −→r b) = maxr −maxr −minr

Nr(a)

siendo Nr(a) el numero de relaciones del tipo r que salen del nodo a.

Maedche y Zacharias Por ultimo, destacamos la medida desarrollada por

Maedche y Zacharias en [65] en el marco de la Web Semantica, donde se distinguen

tres dimensiones a la hora de calcular la medida final:

Similaridad taxonomica (TS(a, b)): basada en la posicion de los concep-

tos dentro de la taxonomıa.

Similaridad relacional (RS(a, b)): basada en la relacion de los conceptos

con otros objetos.

Similaridad atributiva (AS(a, b)): basada en los atributos de los concep-

tos y sus correspondientes valores.

Cada una de estas funciones de similaridad tiene su propia definicion (para el

desglose completo, ver [65]), habitualmente basada en la media de la actuacion

de ciertas funciones sobre cada una de las relaciones y los atributos asociados a

los conceptos a comparar. Una vez se tiene esta informacion, se hace la media

aritmetica con cada una de las dimensiones, asignando pesos como se considere

necesario en cada caso:

simMZ(a, b) =wT × TS(a, b) + wR ×RS(a, b) + wA × AS(a, b)

wT + wR + wA

Li, Bandar y McLean Por otro lado, Li, Bandar y McLean desarrollaron

una metrica que considera tanto la densidad semantica como la distancia entre

los conceptos:


simLBM(a, b) =eλ·wsim(a,b) − e−λ·wsim(a,b)

eλ·wsim(a,b) + e−λ·wsim(a,b)

con λ un parametro libre a determinar y wsim(a, b) siendo la maxima similari-

dad (determinada por por el antecesor comun con mayor cantidad de informacion)

entre los posibles significados que pueden tomar a y b.

Hirst y St-Onge Por ultimo, una medida menos conocida pero tambien

usada es la desarrollada por Hirst y St-Onge en [47], inicialmente pensada para

un entorno medico pero adaptada a redes semanticas como WordNet. Distinguen

entre tres tipos de posibles relaciones e imponen ciertas condiciones en los caminos

a recorrer, dando lugar a la siguiente funcion de asignacion de peso a la hora de

calcular un camino:

semHStO(a, b) = C − len(a, b)− k · cambiosd(a, b)

Donde C y k son constantes a definir dependiendo del contexto, mientras

que len(a, b) es la longitud del camino entre los conceptos y cambiosd(a, b) es el

numero de cambios de direccion en dicho camino.

Basadas en el Contenido de Informacion

Asumen la existencia de cierta informacion adicional, habitualmente suminis-

trada por un recurso externo tipo corpus.

Resnik Resnik por su parte propuso y evaluo en [97] tres posibles funcio-

nes para taxonomıas con relaciones is-a; a continuacion reproducimos la mas

utilizada, con la que introdujo el concepto de Contenido de Informacion (IC,

Information Content) entre dos conceptos:

simR(a, b) = IC(LCS)

donde

IC(x) = −log2P (x)


y la probabilidad P (x) viene dada por la frecuencia de aparicion del concepto

en un recurso (habitualmente, un corpus) determinado.

Lin Otra medida de similaridad es la propuesta por Lin en [57] y [58], don-

de expone que la similaridad entre dos conceptos se mide por el ratio entre la

cantidad de informacion necesaria para determinar lo que tienen en comun (el

antecesor comun mas cercano) y la informacion necesaria para describir lo que

son, quedando la funcion:

simLin(a, b) =logP (common(a, b))

logP (describe(a, b))=

2× I(F (a)) ∩ I(F (b))

I(F (a)) + I(F (b))

donde F simboliza lo que Lin denomina las caracterısticas (las relaciones in-

dependientes entre sı) y P (X) es la probabilidad de una de estas caracterısticas

(basandose de nuevo en frecuencias de aparicion). Esta medida fue posteriormente

generaliza para ser usada en grafos en [66].

Jiang y Conrath En 1997, Jiang y Conrath proponen una metrica basada

en la presentada anteriormente por Resnik y que auna el estudio de los nodos y

de los arcos. Se considera una de las mas precisas y ha sido objeto de numerosos

estudios. A continuacion citamos solo la formula definitiva; el desarrollo completo

de dicha formula se puede encontrar en [49].

simJC(a, b) =1

IC(a) + IC(b)− 2× IC(LCS(a, b))

En [74] encontramos una comparativa (Figura 2.16) sobre algunas de las me-

didas previamente expuestas. Para otras medidas y mas informacion al respecto,

se pueden consultar [13], [117] o [74]; en la primera se realiza una experimento en

el que se determina que la medida de Jiang sobrepasa notablemente al resto de

medidas.

2.3.4.3. Medidas de similaridad para oraciones y textos

A la hora de comparar oraciones y textos, encontramos las aproximaciones

expuestas a continuacion.


9

(2) parameter k needs to be adapted manually for good performance. If k=1, formula (20) is path-based; if k=0, formula (20) is IC-based measure. In the experiment in [21] k=0.5.

4. Comparison and Evaluation

Table1. Comparison of Different Semantic Similarity Measures category Principle measure features advantages disadvantages Path based

function of path length linking the concepts and the position of the concepts in the taxonomy

Shortest path

count of edges between concepts

simple two pairs with equal lengths of shortest path will have the same similarity

W&P path length to subsumer, scaled by subsumer path to root

simple two pairs with the same lso and equal lengths of shortest path will have the same similarity

L&C count of edges between and log smoothing

simple two pairs with equal lengths of shortest path will have the same similarity

Li non-linear function of the shortest path and depth of lso

simple two pairs with the same lso and equal lengths of shortest path will have the same similarity

IC based

The more common information two concepts share, the more similar the concepts are.

Resnik IC of lso simple two pairs with the same lso will have the same similarity

Lin IC of lso and the compared concepts

take the IC of compared concepts into considerate

two pairs with the same summation of IC(c1) and IC(c2) will have the same similarity

Jiang IC of lso and the compared concepts

take the IC of compared concepts into considerate

two pairs with the same summation of IC(c1) and IC(c2) will have the same similarity

Feature based

Concepts with more common features and less non-common features are more similar

Tversky compare concepts' feature, such as their definitions or glosses

take concept's feature into considerate

Computational works well when there is not a complete features set.

Hybrid method

combine multiple information sources

Zhou combines IC and shortest path

well distinguished different concepts pairs

parameter to be settled, turning is required. If turned well it may bring deviation.

4. Comparison and Evaluation

Figura 2.16: Comparativa de medidas de similaridad semantica. lso equivale ennuestra notacion a LCS (Least Common Superconcept), y representa el antecesormas cercano a ambos conceptos, el superconcepto mas especıfico; el camino mascorto (la primera medida) equivaldrıa asimismo al algoritmo de Rada et al (fuente:[74]).


Semantica de las palabras

Una propuesta directamente enfocada a la identificacion tanto de textual en-

tailment como de parafrasis la encontramos en [59], con la funcion:

sim(O1, O2) =1

m

∑w1 ∈ O1 max

w2∈O2

(simw(w1, w2))

donde m es el numero de palabras en la oracion 1 (O1) y simw es una metrica

de similaridad entre palabras como las expuestas previamente.

Por su parte, Corley y Milhacea plantean en [20] las nociones de especifidad

y direccionalidad a la hora de medir la similaridad entre fragmentos de texto,

dando lugar a la siguiente funcion de similaridad direccional:

simDir(O1, O2)O1 =

∑pos(

∑wk ∈ Spos(maxSim(wk) · IDFwk

)∑wk ∈ TIposIDFwk

donde maxSim(x) representa a la palabra de O2 con mayor similaridad a

la tratada de O1 segun una medida de similaridad entre conceptos como las

ya revisadas, pos es la clase de palabra e IDF (Inverse Document Frequency)

representa una metrica clasica sobre la frecuencia de las palabras en un documento

(y que aporta una medida sobre la especifidad de las mismas). Para usar metrica

direccional para medir la similaridad a nivel de parafrasis, debemos usarla de

manera bidireccional y simetrica, resultando:

sim(O1, O2) =simDir(O1, O2)O1 + simDir(O1, O2)O2

2

Orden de las palabras

Otra idea interesante es la planteada en [56], donde la similaridad entre dos

oraciones se define como una combinacion de la similaridad semantica (Ss) y la

similaridad en el orden de las palabras (Sr), quedando la formula:

sim(O1, O2) = δSs + (1− δ)Sr = δs1 · s2‖s1‖ · ‖s2‖

+ (1− δ)‖s1‖ − ‖s2‖‖s1‖+ ‖s2‖


donde δ ≤ 1 representa la importancia de la semantica frente a la sintaxis

(el orden de las palabras); dado que normalmente la segunda queda subordinada

a la primera, se recomienda elegir δ ∈ (0,5, 1]. sx representa una medida de

similaridad (en la propuesta se usa una basada en informacion, pero podrıan

usarse otras opciones) y rx es un vector que representa el orden de las palabras

(por ejemplo, los vectores de “Luis come patatas.” y “Patatas come Luis.” serıan

(1, 2, 3) y (3, 2, 1), respectivamente).

Diferencias

Otra idea interesante es combinar la habitual perspectiva de buscar la similari-

dad entre frases con la de buscar diferencias entre ambas. Este es el planteamiento

propuesto por Ho et al. en [48], donde la medida de similaridad viene dada por la

similaridad semantica Sim(O1, O2) y la distancia entre las oracionesDist(O1, O2):

sim(O1, O2) =α× Sim(O1, O2)

α× Sim(O1, O2) + β ×Dist(O1, O2)

con α y β factores de suavizado. La distancia viene a su vez de la propuesta

de buscar las diferencias entre palabras en textos cortos expuesta por Liu en [60].

Uso de Roles Semanticos

En caso de representar oracion a oracion, una posible medida de similaridad

la encontramos en [104], donde Shen y Lapata utilizan los Roles Semanticos para

realizar la division del grafo en subgrafos que comparan preguntas y sus posibles

respuestas para luego sumar sus similaridades de cara al global de la oracion,

como vemos en la siguiente formula:

simSubGs(SubG1, SubG2) =∑

ndSR1 ∈SubG1

ndSR2 ∈SubG2

ndSR1 =ndSR

2

1

|s (ndw, ndSR1 )− s (ndw, ndSR2 )|+ 1

donde ndSR1 y ndSR2 representan los nodos semanticamente conectados un nodo

ndw parte de un frame en su correspondiente subgrafo (SubG1 o SubG2, respecti-

vamente) y s(ndw, ndSRx

)es el peso de la arista que une dos nodos en su subgrafo.

Otra opcion reciente que involucra los Roles Semanticos para alinear dos frases


candidatas a ser similares es TINE, la propuesta por Rıos et al. en [98] y [99];

usan distintos recursos externos que ayudan tanto en la identificacion de los ro-

les asociados a los verbos como en la identificacion de Entidades, otro punto

clave a la hora de comparar dos oraciones. Para una revision mas completa de

metodos clasicos de colecciones que tambien pueden usarse en oraciones, como el

coeficiente de Jaccard, ver [101] o [1].

2.3.4.4. Similaridad entre grafos

Existen muchas posibilidad distintas a la hora de medir la similaridad entre

grafos con atributos, destacando entre ellas la GED o Graph Edit Distance, si-

milar a la previamente vista TED. Asimismo, dentro de GED existen diversas

aproximaciones, como los algoritmos basados en SOM, los basados en kernel o en

probabilidad y los basados en grafos y supergrafos. Por su frecuente aplicacion al

campo de la similaridad semantica, nos centraremos solo en estos ultimos; para

mas informacion en las otras aproximaciones, ver [37].

Conceptos previos

Debemos comenzar por definir que es exactamente un grafo. Un grafo [14]

es una tripleta G = (V, α(x), β(x, y)) donde V representa los vertices del grafo,

α(x) : V −→ L son las etiquetas de los nodos y β(x, y) : V × V −→ L las

etiquetas de las aristas. Diremos que G1 = (V, α(x), β(x, y)) es supergrafo de

G2 = (V ′, α′(x), β′(x, y)) (yG2 es por tanto subgrafo deG1) si se dan las siguientes

condiciones:

V ′ ⊆ V ,

α(x)′ = α(x)∀x ∈ V ′,

β′(x, y) = β(x, y)∀x, y ∈ V ′ × V ′

Asimismo, un isomorfismo se define como la relacion biyectiva f(x, y) : V −→V ′ entre dos grafos G1 = (V, α(x), β(x, y)) y G2 = (V ′, α′(x), β′(x, y)) tal que:

α(x) = α′(f(x))∀x ∈ V ,

β(x, y) = β′(x, y)∀x, y ∈ V × V


Figura 2.17: Ejemplo de overlap enGrafos Conceptuales. Fuente: [82]

Si para dos grafos existen dos subgra-

fos contenidos en ellos entre los cuales exis-

ta una funcion de isomorfismo, estos sub-

grafos se consideran subgrafo comun; si no

existe otro subgrafo comun con mas nodos,

se considerara el Subgrafo Comun Maximo

(en ingles, MCSS). Aunque muchos auto-

res se basan en este MCSS, existe tambien

se ha propuesto el concepto de Minimum

Common Supergraph a la hora de plantear

metricas de comparacion de grafos [33].

Por ultimo, una distancia de edicion entre grafos (GED) entre dos grafos es el

coste mınimo de realizar las operaciones de insercion, eliminacion y sustitucion

sobre los arcos y/o los vertices para alcanzar la isomorfıa.

Comparacion de Grafos Conceptuales

A la hora de comparar dos grafos conceptuales, la mayorıa de tecnicas se basan

en el mapeo directo entre conceptos. Esto implica la siguiente terminologıa, segun

[82] y [81]:

Una serie de grafos son compatibles si existen mapeos entre ellos tales que

dichas proyecciones no intersequen entre sı.

Si dos grafos conceptuales son solapados (overlap) si son compatibles y

maximales. Este concepto es fundamental a la hora de decidir la similaridad,

ya que cada overlap (pueden darse varios) definira una similaridad distinta

(los grafos pueden ser similares o no dependiendo tambien del punto de

vista desde el que se enfoque). La idea intuitiva del solapamiento queda

bien ilustrada en la Figura 2.17, tomada de [82].

La medida de similaridad usada por excelencia en Grafos Conceptuales es la

adaptacion del ya mencionado coeficiente de Dice, que segun lo propuesto por

Montes-y-Gomez et al. en [81] permite la distincion entre distintos tipos de con-

ceptos (dando distintos pesos w(c) a casos concretos, como entidades, atributos,

acciones...) y tiene la siguiente forma en su aplicacion a Grafos Conceptuales:


simDice = 2 ·∑

c∈∪O(w(c)× β(πG1(c), πG2(c)))∑c∈G1

w(c) +∑

c∈G2w(c)

donde⋃O representa el conjunto de los nodos y arcos de los grafos de un

overlap entre G1 y G2, πGx(c) representa el concepto involucrado en el mapeo

en cada uno de los Grafos conceptuales y β(πG1(c), πG2(c)) denota por tanto la

relacion de similaridad entre los conceptos mapeados. En base a esta definicion,

los autores de [81] desarrollaron su propia definicion de la similaridad relacional,

expresada como sigue:

simrel = 2 ·∑

r∈O wO(r)∑r∈NO(G1)

wG1(r) +∑

r∈NO(G2)wG2(r)

donde NO(Gx) es el conjunto de las relaciones conectadas al grafo comun en (Gx)

y la importancia de una relacion viene dada por su peso wO(r), calculado en

funcion de los vecinos para normalizar.

A continuacion se combinan ambas similaridades (conceptual de Dice y rela-

cional), originando la siguiente funcion de similaridad:

simCG = simDice × (a+ b× simrel)

donde cabe resenar que a + b = 1 (los valores concretos dependeran de que

aspecto, conceptual o relacional, se desee enfatizar en mayor medida) y que el

hecho de no existir similaridad relacional no implica necesariamente que la simi-

laridad global sea 0.

Otro planeamiento interesante es el posteriormente realizado por Zhong en [131],

donde distingue tambien los niveles de similaridad relacional (simr) y conceptual

(simc) a la hora de comparar los conceptos entrada de cada subgrafo; concreta-

mente, en la formulacion original se comparan queries y recursos, pero es aplicable

a Grafos Conceptuales genericos. La definicion es recursiva (el concepto en el sub-

grafo asociado con la relacion sera la entrada del siguiente subgrafo a comparar,

y ası sucesivamente) y se puede enunciar como sigue:

simCG = w(c1, c) · simc(c1, c2)

+ max∀comb

(∑j w(c1, j) ·r

(rjG1

, rjG2

)·[simCG

(crrG1G1, crrG2G2

)])


debiendo cumplirse

w(c1, c) +∑j

w(c1, j) = 1

donde w(c1, c) representa el peso de la entrada y w(c1, j) es el peso de la i-esi-

ma relacion asociada a la entrada.

Por ultimo, destacamos una de las primeras medidas de comparacion de Gra-

fos Conceptuales: la planteada por Maher en [67], que considera en un primer

momento la similaridad local entre conceptos para luego extenderla al total del

Grafo Conceptual. La medida toma en consideracion factores como el numero de

nodos o los referentes de la oracion. Otras opciones pasan por la busqueda directa

de patrones en dominios concretos [4], el uso de algoritmos genericos para hallar

dichos patrones o incluso usar la informacion mutua; para mas informacion sobre

estas aproximaciones, se puede consultar [36].

Un ejemplo de por que estas medidas no pueden usarse per se en el caso de

la identificacion de la parafrasis la encontramos en [81], donde la metrica de simi-

laridad de las frases toma valores muy altos pese a no expresar los mismo (pero

usar la misma estructura y las mismas palabras): las frases Bush critica a Gore y

Gore critica a Bush obtienen similaridades de entre el 0,84 y el 0,9 (dependiendo

de los parametros a y b). No obstante, la introduccion de ciertas modificaciones

en combinacion con la idea del overlap puede dar lugar a resultados mejores.

2.4. Conclusiones

A partir del Estado del Arte expuesto previamente podemos concluir que que-

da aun mucho trabajo por hacer en el ambito de la parafrasis, ya que los enfoques

actuales son claramente insuficientes tanto a nivel de representacion como de de-

terminacion de la similaridad y de deteccion la propia parafrasis, limitandose en

la mayorıa de los casos a la deteccion de una similaridad puramente semantica,

tematica, sin ahondar en ningun momento en el verdadero contenido del texto.

A continuacion se exponen de manera concisa algunos de los problemas que se

han detectado en los modelos planteados hasta ahora, derivados del estudio de la

seccion anterior.


Uno de los problemas mas evidentes es la brecha existente entre los modelos

linguısticos y los computacionales; mientras que los primeros son difıciles de lle-

var a la practica y en la mayorıa de casos solo sirven como referencia meramente

teorica, los segundos presentan evidentes carencias a nivel de representacion y de

concepto, consistiendo en muchas ocasiones en repositorios de parafrasis estati-

cos. Los sistemas basados en estos repositorios son habitualmente incapaces de

detectar las nuevas formas de expresar contenido que surgen inevitablemente con

la evolucion del lenguaje y con los cambios de registro que encontramos en las

diferentes lenguas, culturas y ambitos sociales, ademas de funcionar exclusiva-

mente para un unico idioma. Otro factor relevante sera la representacion, pues la

que elijamos para los textos tambien jugara un papel fundamental, dado que los

modelos de deteccion y gestion de la parafrasis suelen actuar sobre sistemas de

representacion concretos (habitualmente, arboles). Respecto a los grafos, aunque

existen ideas interesantes a nivel de similaridad (como el comentado overlap o la

division en subgrafos), la deteccion de la parafrasis no es aun efectiva en este tipo

de representacion.; si nos centramos concretamente en el uso de grafos UNL para

la representacion, destacarıa como camino a seguir la propuesta de Zhong sobre

las entradas de los subgrafos y su tratamiento recursivo (ademas de la idea de

la similaridad relacional y conceptual), pero tampoco resultarıa suficiente por sı

misma para el tratamiento de la parafrasis.

Otro problema viene dado por el propio contexto en el que se desarrolla la situa-

cion descrita por un texto, que va a influir de manera determinante en la propia

definicion de la similaridad, tanto semantica como en lo concerniente a la correc-

ta identificacion de los marcos; esto se refleja tambien a la hora de verificar el

funcionamiento del modelo, dado que las pruebas y la validacion suelen necesitar

en algun momento de supervision directa de una o varias personas (recordemos

que la parafrasis no deja de ser un fenomeno subjetivo, difıcil de decretar in-

cluso para seres humanos e incurriendo en muchas ocasiones en desacuerdos al

respecto). Existen tambien, como ya hemos visto previamente, baterıas y corpus

de parafrasis, pero dadas la ambiguedad y el vasto rango de situaciones (y sus

respectivas posibles parafrasis), estos recursos no estan en posicion de asegurar

ni desestimar realmente ningun modelo.

Capıtulo 3

Definicion del Trabajo

3.1. Introduccion y motivacion

Para cubrir, paliar y dar solucion y respuesta a algunos de los problemas

expuestos en las conclusiones del Estado del Arte, en esta tesis presentaremos

un modelo de deteccion de la parafrasis basado en el sistema de representacion

UNL, que nos ofrece una representacion interlingual y sin ambiguedad. En el

plano teorico, se han desarrollado tambien una serie de hipotesis linguısticas cen-

tradas en el propio modelo, al tiempo que se han definido distintas tecnicas de

similaridad semantica y un algoritmo de comparacion de grafos.

Una de las conclusiones principales que obtenemos de la revision del capıtulo

anterior es que la parafrasis es un fenomeno extremadamente complejo que puede

entenderse y darse en muchas dimensiones, por lo que la propuesta de un modelo

general es un proyecto excesivamente ambicioso no ya para una Tesis de Fin de

Master, sino tambien para una Tesis Doctoral o incluso un proyecto de investi-

gacion a mas largo plazo y alto nivel. Es por ello que debemos necesariamente

delimitar los objetivos de la presente tesis, incluyendo al tiempo una serie de asun-

ciones y restricciones acordes al tiempo disponible y la profundidad alcanzable

en una Tesis de Fin de Master. A continuacion se listan las hipotesis, asunciones,

restricciones, limitaciones y objetivos a alcanzar en el presente trabajo, ası como

el metodo de validacion de los mismos. Posteriormente se procedera a exponer

los detalles del modelo; primero repasaremos brevemente ciertos puntos clave de

UNL a tener en cuenta, despues hablaremos de los componentes desarrollados pa-

88

Capıtulo 3. Definicion del Trabajo 89

ra el modelo y finalmente expondremos el procedimiento de comparacion, junto

con algunos ejemplos sencillos de aplicacion y su validacion en un texto completo.

3.2. Hipotesis de trabajo

Las hipotesis del modelo son las siguientes:

Trabajaremos sobre el sistema de representacion UNL.

El modelo verificara la existencia de parafrasis entre dos frases, la negara o

informara si no hay un resultado concluyente.

El modelo realizara la comparacion de los documentos oracion a oracion,

asumiendo que las oraciones estan por tanto en el mismo orden en ambos

textos y que no se dan casos de segmentacion.

No cubriremos fenomenos como la consecuencia logica o los marcos semanti-

cos (en este caso el modelo respondera que no existe la parafrasis o que no

se puede alcanzar un resultado concluyente).

Consideraremos que dentro de las cuatro categorıas ontologicas que puede

tener una palabra universal (sustantivo, verbo, adjetivo y adverbio), la car-

ga del significado, el nucleo de los grafos y los subgrafos en los que

dividiremos los grafos de cara a su mapeo, comparacion y contrastado, seran

los sustantivos y los verbos, mientras que se considera que los adverbios

y los adjetivos cumpliran fundamentalmente una funcion de modificacion

de dichos nucleos. Los sustantivos y los verbos pueden aparecer tambien

como modificadores, pero en dicho caso la relacion UNL correspondiente lo

definira como tal, por lo que estos casos no contradiran la hipotesis, ya que

seran el nucleo de otro subgrafo que realizara la modificacion (normalmente

introducida por conjunciones o preposiciones).

Los verbos sinonimos deben tener las mismas restricciones ontologicas (es

decir, que deben ser de la misma categorıa icl>do, icl>occur o icl>be), y

por tanto sus argumentos basicos (mas adelante matizaremos este termino)

deben corresponderse. Por supuesto, la misma informacion puede reescri-

birse con verbos de distinta categorıa, pero en este caso no seran verbos


sinonimos y por tanto la correspondencia debera buscarse en nodos y sub-

grafos apuntados por relaciones de distinto tipo (entrarıamos en los marcos

semanticos, que queda fuera de esta Tesis de Fin de Master).

3.3. Asunciones

Dado que, como hemos comentado ya, el alcance del problema es muy grande

y difıcil de abarcar, partiremos para la elaboracion del modelo de las siguientes

asunciones:

Al ser una representacion interlingual, asumiremos que se podrıa generali-

zar a comparaciones de grafos obtenidos a partir de cualquier lengua (los

ejemplos elegidos estan en ingles y en espanol).

Asumiremos que los grafos estan bien construidos, sin ningun tipo de am-

biguedad, y siguiendo siempre las reglas de las especificaciones del sistema

UNL. Careceran asimismo de errores ortograficos, tipograficos o sintacticos.

3.4. Restricciones y limitaciones

Dada la limitacion temporal y la complejidad del trabajo, se imponen tambien

las siguientes restricciones:

Los grafos se obtendran de textos en espanol e ingles codificados a mano

(como ya mencionamos en las asunciones, esto no supone que el modelo no

funcione para grafos obtenidos de cualquier lengua, se hace ası por cues-

tiones practicas y de disponibilidad, ya que tampoco existe un repositorio

publico de grafos UNL).

No contemplaremos dialogos, tan solo textos escritos (ya que los dialogos

pueden incluir muchos mas matices y quedan fuera del alcance de una Tesis

de Fin de Master).

Nos ceniremos al analisis de grafos sin hipernodos, con frases simples.

No cubriremos el fenomeno del textual entailment, ya que harıa necesario

el uso de bases de conocimiento.


Dado que, como ya mencionaba Javier Garcıa Sogo en su tesis [38], existen

ciertas carencias en los recursos de UNL (como que no existen ni la onto-

logıa ni una jerarquıa de palabras universales UNL), usaremos una medida

de similaridad basada en las rescticciones de las palabras universales. Las

palabras universales las codifican a mano distintos especialistas UNL de di-

versos paıses, por lo que aunque hay cierta estandarizacion, es posible que

en algunos casos no aporten suficiente informacion para determinar la simi-

laridad. En estos casos, asumiremos el uso de recursos externos por medio

de las headwords de las palabras universales.

3.5. Objetivos

En cuanto a los objetivos, se pueden extrapolar directamente de las hipotesis

mencionadas previamente:

Definicion de un modelo que permita asegurar que dos documentos tienen

el mismo significado.

Creacion de una jerarquıa de relaciones UNL (esto se ha intentado sin exi-

to previamente) y organizacion de los atributos, ası como establecimiento

formal de las relaciones entre ellos.

Creacion de una medida de similaridad sobre palabras universales.

Creacion de un repositorio de parafrasis para testar el modelo comparativo.

Automatizacion de la comparacion de grafos a nivel de la informacion que

contienen, y no solo a nivel semantico (pues esto ya se intento, ver la tesis

[38]).

3.6. Metodo de validacion

Para comprobar que se han cumplido las hipotesis planteadas en el modelo,

se buscara por un lado la aprobacion teorica de un equipo de linguistas y por

otro se realizara una implementacion parcial del modelo (dada la magnitud del

area en cuestion es imposible realizar una implementacion del total del modelo

en el tiempo concedido a la realizacion de un Trabajo de Fin de Master) de


cara a su aplicacion a un texto completo y a una version modificada del mismo,

buscando los puntos en los que dicho texto se ha modificado y comprobando si

estos cambios implican que el significado se mantiene o no. Cabe resaltar que

dada la complejidad del tema a tratar, el modelo parte de que si la parafrasis no

es clara, va a decir que puede que exista o directamente que no existe (ya que en

este contexto consideramos preferible un falso negativo que un falso positivo).

Capıtulo 4

Modelo propuesto

4.1. Bases teoricas del modelo

4.1.1. Perspectiva sintactica

A nivel sintactico, el modelo desarrollado se sustenta sobre el sistema UNL,

sobre sus atributos y sobre los roles semanticos representados en el mismo me-

diante relaciones. Estos elementos tienen a su vez una gran influencia de la Teorıa

del Texto-Significado de Igor Mel’cuck, ya que en UNL se ven realizadas algunas

de las ideas planteadas por el, como es el caso de las funciones lexicas.

Ya hemos comentado ampliamente las propiedades de UNL como sistema de

representacion del conocimiento interlingual (aunque antes de exponer el modelo

propuesto repasaremos los conceptos mas importantes sobre los que se sustenta

el mismo). No obstante, nunca se han intentado explotar estas propiedades en el

ambito de la parafrasis, orientandolo a una comprobacion de similitud de conteni-

dos (lo mas cercano que encontramos se da en una tesis de Fin de Master de anos

anteriores [38], desarrollada en el seno del mismo grupo de investigacion, donde

se intento llevar a cabo una medida de similitud entre grafos, pero exclusivamente

a nivel de similaridad semantica). Se ha intentado en numerosas ocasiones ([16])

realizar una jerarquıa de relaciones generica, pero dichos esfuerzos han sido in-

fructuosos, en parte debido a que (en opinion de la autora), esta jerarquizacion

debe basarse en el uso para el cual se esta desarrollando para poder resultar ver-

daderamente util. Es por ello que sera necesaria un estudio de dichas propiedades

(principalmente de las relaciones y los atributos UNL) de cara a la constitucion

93

Capıtulo 4. Modelo propuesto 94

del modelo desde el punto de vista sintactico y orientado concretamente a la tarea

de la parafrasis. Este estudio derivara, entre otros, en nuestra propia jerarquıa de

relaciones. Explicaremos en detalle este trabajo en la siguiente seccion.

Respecto al propio fenomeno de la parafrasis, intentaremos usar los distintos

elementos de UNL para gestionarla, ya que sus propiedades lo hacen idoneo como

sistema de representacion para intentar gestionar la parafrasis. No obstante, el

propio sistema impondra tambien ciertas limitaciones, entre las que destaca la

falta de una ontologıa o de una medida de deteccion de la similaridad semantica.

4.1.2. Perspectiva semantica

A nivel semantico, un elemento importante a tener en cuenta en la parafrasis es

sin duda la similitud semantica, dado que la sintactica vendra dada por el propio

sistema de representacion y las consideraciones anadidas al mismo en el modelo.

Como ya hemos comentado anteriormente, no existe una ontologıa de UNL en la

que poder aplicar las medidas vistas en el Estado del Arte, por lo que en trabajos

anteriores se ha recurrido a recursos externos como WordNet. En nuestro caso,

hemos considerado mas interesante para cubrir esta necesidad la creacion de una

nueva medida de similaridad basada exclusivamente en la representacion UNL,

evitando ası arrastrar los errores y limitaciones de dicho recurso. Expondremos

nuestra medida mas adelante.

4.1.3. Comparacion de grafos

Disponiendo de estas bases teoricas, lo que nos falta es un modelo que conjugue

todas ellas y permita comparar dos grafos UNL. Desarrollaremos para este fin

un algoritmo con el que poner en practica las ideas desarrolladas en el modelo

expuesto en las siguientes secciones.

4.2. Puntos claves de UNL sobre los que se asien-

ta el modelo

Antes de pasar al modelo, repasaremos los conceptos de UNL relevantes para

su constitucion, que nos llevaran intuitivamente al modelo plantado.


Figura 4.1: Un ejemplo de @entry verbal (senalado en rojo). La frase original es“Ella permanecio en silencio”.

4.2.1. Elementos de la oracion en UNL

4.2.1.1. @entry, el nucleo de la frase

A la hora de comparar dos grafos, debemos comenzar por algun punto deter-

minado. Para ello usaremos el concepto de @entry : en un grafo UNL, el @entry

es un atributo especial obligatorio que identifica “la entrada”, el punto mas rele-

vante de la frase, el nodo que tienen mas importancia. Suele ser un verbo (como

es el caso de la Figura 4.1), pero tambien puede ser un sustantivo, como en la

Figura 4.2; en casos muy concretos y poco frecuentes, los @entry tambien pueden

ser adverbios y adjetivos.

De este nodo @entry iran surgiendo distintas relaciones UNL, que apuntaran

a otros nodos que a su vez apuntaran a otros (creando ası subgrafos y dando

un orden de prioridad en el que mirar las relaciones a la hora de contrastar la

parafrasis, como podemos observar en la Figura 4.2).

4.2.1.2. Categorıas gramaticales

Para determinar la similaridad semantica entre palabras universales, debemos

fijarnos en sus dos componentes: la headword y el contenido de sus restriccio-

nes, que dependeran del tipo de palabra. Dentro de UNL encontrabamos cuatro

posibles categorıas, con distintas restricciones:

1. Verbos: que podıan ser de tres tipos (do o de accion, occcur o de proce-

so y be o de estado) y partiremos de la hipotesis de que verbos sinonimos

van a ser del mismo tipo de verbo. Ademas de esta tipologıa, las palabras

universales (o UWs) incluyen en su descripcion las relaciones argumentales


Figura 4.2: Un ejemplo de @entry sustantivo (senalado en rojo). La frase originales “Una galerıa de arte rica en pinturas de los artistas holandeses”. Podemosademas observar los distintos subgrafos que se van creando.

que le acompanan y de que tipo deben ser las mismas; opcionalmente tam-

bien puede tener otras restricciones. En definitiva, los indicios que pueden

ayudar a determinar la similaridad semantica entre dos verbos UNL son:

Headword: nos va a permitir identificar la palabra universal y, en caso

de que la jerarquıa UNL resulte insuficiente para la determinacion de

la similaridad, buscar la palabra en otros recursos (como tesauros o

redes semanticas).

Hiperonimos e hiponimos (expresados como icl, y que llegan a uno de

los tres tipos de verbos, pasando por otros), como es el caso del ejemplo

de la UW buy(icl>get>do, agt>thing), de donde extraemos que get

es un hiperonimo de buy.

Sinonimia (relacion equ) y antonimia (ant) con otros verbos (como en

sell(icl>transact>do, equ>deal, agt>thing, obj>thing)).

Las restricciones de dominio, meronimia y contexto (fld, pof y com)

no nos ayudar a determinar la sinonimia, pero pueden aportar pistas

sobre la palabra de cara a su ubicacion en un mapa semantico.


Las restricciones argumentales sobre que roles intervienen en la accion

del verbo. Si dos verbos son sinonimos en una misma situacion, deben

estar tambien relacionados con los mismos agentes de dicha relacion.

Encontramos un ejemplo de esto en los dos siguientes verbos:

demonstrate(icl>show>do,equ>exhibit,agt>thing,obj>uw,rec>thing)

expose(icl>show>do,equ>exhibit,agt>thing,obj>thing,rec>thing)

donde vemos que comparten el mismo sinonimo exhibit, la misma posicion

en la ontologıa (ambos son del tipo do e hiponimos de show), ademas de

tener las mismas relaciones; aunque en el caso de demonstrate el obj no

tiene por que ser de tipo thing, y puede ser cualquier palabra universal, la

sinonimia se conservara siempre que en las oraciones a comparar se cumplan

las restricciones de ambos (es decir, que el objeto sea thing). Podemos por

tanto concluir que en el caso de que el obj sea thing, los verbos pueden ser

sinonimos (es decir, cuando se cumpla que la interseccion de los requisitos

de los dos verbos no es vacıa).

2. Sustantivos: Ademas de los criterios anteriores (tambien aplicables a los

sustantivos), en los sustantivos UNL encontramos otra posible restriccion

ontologica: iof, o ’instancia de’. Esto se aplicara solo a las entidades, y sera

completamente discriminante (en nuestro modelo, una entidad solo puede

corresponderse consigo misma).

3. Adjetivos y adverbios: los adjetivos y los adverbios son muy parecidos

en UNL. Ambos comparten una jerarquıa muy similar:

Adjetivos: cualitativos, cardinales, ordinales, temporales y de lugar.

Adverbios: de tiempo, lugar, causa, cantidad, manera y modo.

Si pertenecen a otras subclases, simplemente se marca la clase gramatical

(adj o adv), como es por ejemplo el caso del adjetivo absent(icl>adj). Los

adjetivos y adverbios sinonimos deberan ser de la misma subclase, y pueden

tener tambien relaciones de tipo equ y ant que ayuden en la deteccion de

la similaridad.


4.2.1.3. Atributos

Por ultimo, otro punto relevante en los grafos UNL sera la presencia de los

atributos. Como ya mencionamos, los atributos son libres (hay una lista de ellos,

adjunta como Anexo B) pero cualquiera de los investigadores involucrados en el

proyecto puede crear uno y usarlo sin necesidad de consulta o consenso), por lo

que no es trivial analizarlos todos. No obstante, algunos han llegado a convertir-

se en estandar: el de negacion, el que determina el numero, el tiempo verbal...

aprovecharemos su presencia para descartar la parafrasis en algunos casos.

4.3. Modelo

Pasamos ahora a ver el modelo y los distintos elementos que lo componen. Pri-

mero, siguiendo con las caracterısticas de UNL explicadas en la seccion anterior,

veremos una jerarquıa con las equivalencias entre relaciones UNL desarro-

llada exclusivamente para el tratamiento de la parafrasis. Despues se expondran

una serie de correspondencias entre grafos con distintos tipos de verbos o

correspondencias especiales y una seleccion de atributos que pueden llevar a

descartar la parafrasis en ciertos casos. Finalmente se explicara la medida de

similaridad, creada tambien exclusivamente para la parafrasis.

4.3.1. Jerarquıa de relaciones

Como ya hemos comentado con anterioridad, un punto clave en el proceso

de corroborar la parafrasis entre dos oraciones se da a nivel sintactico. UNL re-

sulta de gran utilidad en este punto, ya que transforma y expresa las relaciones

sintacticas clasicas en una serie de relaciones clave limitadas (expuestas en detalle

en el Anexo A). No obstante, estas relaciones pueden corresponderse entre sı en

las distintas maneras de expresar la misma informacion. La pregunta, por tanto,

sera donde debemos buscar la informacion de cada parte de la frase. En el caso

por ejemplo de tener informacion de lugar, como “Ire de vacaciones a Roma”

y “Pasare mis vacaciones en Roma”, las dos frases expresan lo mismo, pero en

la primera Roma aparecerıa en UNL como la relacion PLT (place to), mientras

que en la segunda lo harıa como PLC (place), donde ocurre la accion. Debemos

por tanto establecer una organizacion de las relaciones UNL, un sistema de co-

rrespondencia que nos indique que relaciones debemos mirar en un grafo B para


Relaciones UNL

Básicas Argumentales

Modificadores

Grupo 1 OtrosGrupo 2bis Grupo 3Grupo 2 Mod1 ModSC ModS3ModS2

A nivel de subgrafo

Figura 4.3: La jerarquıa propuesta para el modelo de gestion de parafrasis sedivide en relaciones basicas argumentales y relaciones modificadoras, conteniendocada uno de estos tipos a su vez una serie de distintas clases de relaciones.

contrastar la informacion de una determinada relacion del grafo A.

Es por ello que de cara a la constitucion del modelo se ha realizado una ta-

rea de jerarquizacion de las relaciones UNL, que se expone detalladamente a

continuacion. Las relaciones se dividiran en dos grandes grupos: modificadores y

relaciones basicas argumentales, como podemos ver en la Figura 4.3.

4.3.1.1. Relaciones basicas

Por un lado tenemos las relaciones basicas de cada verbo, sus argumentos, que

describen las circunstancias y las partes que intervienen en el evento, propiedad o

accion que expresan. La informacion que representan estas relaciones aparecera,

por tanto, en cualquier otra expresion de la misma situacion; de otra manera, en-

tenderemos que no puede darse la parafrasis. Segun las guidelines de UNL, para

cada uno de los tipos de verbo en UNL existe una relacion basica obligatoria y una

serie de relaciones argumentales accesorias que pueden darse o no (pero en caso

de darse, deben tener correspondencia en un segundo grafo con parafrasis). Las

relaciones basicas y su nivel de importancia podemos encontrarlas en la Tabla 4.1.

Estas relaciones, por tanto, deben corresponderse exactamente entre una frase

y otra en caso de tener el mismo tipo de @entry. Imaginemos en este contexto las

frases “Luis (AGT) compra pan (OBJ) con Laura (PTN)” y “Luis (AGT) com-

pra pan (OBJ)”. El hecho de que en la segunda oracion no este la relacion PTN


Tipo Grupo 1 Grupo 2 Grupo 2bis Grupo 3 Otras

icl>do AGT OBJSRCGOL

COBREC

PTN

icl>occur OBJSRCGOL

COBREC

icl>be AOJ OBJSRCGOL

COBREC

Tabla 4.1: Relaciones basicas UNL para el modelo. En la primera columna encon-tramos el tipo de verbo segun las restricciones ontologicas de dicha categorıa. Lasegunda columna (Grupo 1) es la relacion argumental basica obligatoria para elcorrespondiente tipo de verbo. Las siguientes columnas son relaciones argumenta-les que pueden aparecer o no en la frase, por orden de importancia y de mencionen la forma tabular del grafo.

.

indica que es imposible que ambas puedan decir lo mismo, ya que es una relacion

argumental.

4.3.1.2. Modificadores

Dentro de los modificadores encontramos cuatro subgrupos o niveles, diferen-

ciados por el nivel de profundidad dentro del grafo en el cual los encontraremos y

por el tipo de nodo al que modifican (dentro de las categorıas gramaticales). Co-

mo veremos a continuacion, el primer grupo se distingue por ser un modificador

verbal, que actua normalmente a nivel oracional (a no ser que nos encontremos

ante una frase con varios verbos), mientras que los otros tres grupos modifican

dentro de un subgrafo, habitualmente con nucleo sustantivo.

Modificadores de primer nivel (Mod1)

Son los modificadores del verbo, actuan normalmente a nivel de la frase (o en

compuestas subordinadas o coordinadas). Intuitivamente podrıamos relacionarlos

con los complementos circunstanciales. Encontramos en este tipo de modificador

las siguientes subclases, indicando al lado de cada relacion sus posibles equivalen-

cias o mapeos en otro grafo:

Modificadores Semanticos: influyen semanticamente en la frase. Son los

siguientes.


RelacionPosibles

equivalenciasEjemplos

BEN PUR, RSN Lo compre para ti (BEN, beneficiario).PUR BEN, RSN Lo compre para regalartelo a ti (PUR, proposito).RSN PUR, BEN Lo compre por ti (RSN, razon).CON

Tabla 4.2: Correspondencias entre relaciones modificadoras semanticas, junto conalgunos ejemplos.

.

Modificadores de Lugar: indican informacion sobre el emplazamiento de

la accion. Cada relacion incluye un pequeno matiz en la informacion, y la

relacion suele depender del verbo que se use (como veıamos en el ejemplo

expuesto previamente con “pasar las vacaciones en” e “ir de vacaciones

a”).

• PLC: relacion generica de lugar. Puede implicar los siguientes matices:

◦ PLT: lugar final o destino de la accion.

◦ PLF: lugar inicial o del que surge la accion (puede equivaler tam-

bien con SRC, fuente, en algunos contextos).

◦ VIA: lugar o estado intermedio. Tambien puede indicar modo,

como veremos mas adelante.

• FRT: de-a (from-to), indica un recorrido o un transcurso.

Modificadores de Tiempo: indican la situacion temporal de la accion.

• TIM: el equivalente temporal a PLC, como en “Abre temprano” se puede

relacionar con:

◦ TMF: momento inicial (“Abre desde las 8”).

◦ TMT: momento final (“Abre hasta las 5”).

◦ DUR: duracion (“Abre durante 7 horas”).

TIM tambien puede mapearse en algunas ocasiones con las siguientes

relaciones:

• COO: coocurrencia de dos sucesos. La frase “Ver la tele mientras desa-

yuno” implica dos acciones simultaneas, pero tambien da informacion


temporal del suceso ver la tele, y podrıa considerarse equivalente a

“Ver la tele a la hora del desayuno” (que se representarıa como TIM).

El de COO es un caso controvertido, pues ademas de tiempo puede

expresar tambien modo (como en “Cruzar corriendo”).

• FMT (relacionado ademas con DUR y TMF y TMT): rango, no necesaria-

mente temporal (aunque suele serlo) (“Abre de 5 a 8”).

Modificadores de Modo: indican como se realiza la accion.

• MAN: la manera de hacer algo, se relaciona con elementos de otros gru-

pos, como PTN (companıa), OBJ (objeto, mas adelante veremos un caso

concreto de esta equivalencia), QUA (cantidad) o VAL (valor); esto se

debe a como se realice la traduccion a UNL, pues depende mucho de la

percepcion de quien codifique el proceso). Otras relaciones que tambien

pueden contener la misma informacion son las siguientes:

◦ MET: metodo (relacionado con INS): “Lo hizo a mano (MET)”.

◦ INS: instrumento (relacionado con MET): “Lo hizo con sus propias

manos (INS)”.

◦ VIA: tambien pertenecıa a los modificadores de lugar. “Llego pa-

sando por la cocina”.

◦ COO: coocurrencia; como mencionamos anteriormente, tambien pue-

de considerarse un modificador temporal.

• BAS: comparacion. La parafrasis mas evidente en este caso se da con la

doble negacion (“Es mas grande”, “Es menos pequeno” o “No es mas

pequeno”). La comprarcion es un caso con una estructura especıfica en

UNL, y se trata con mayor detalle en la Seccion 4.3.2.3.

En la Figura 4.4 podemos ver estos grupos y sus relaciones de manera mas

esquematica; podemos tambien apreciar como se relacionan dichas relaciones:

como ya hemos mencionado, algunas aparecen en mas de un grupo y otras incluso

pueden contener la misma informacion que relaciones de otros tipos.

Modificadores de subgrafos de segundo nivel (ModS2)

Dentro de los modificadores de subgrafos con nucleo sustantivo encontramos

en primer lugar los modificadores de sustantivos, que pueden ser de cantidad o


Mod1

Semántico

Lugar

Tiempo

Modo

BENPURRSNCON

FRTPLC

PLTPLFVIA

TIMTMFTMTDUR

COOFMT

BASMAN

METINSVIACOO

SRC

PTN, OBJ, QUA, VAL

Figura 4.4: Esquema de modificadores tipo Mod1.- Unidas en azul, las relaciones que pueden corresponderse entre sı dentro de ungrupo (tambien pueden corresponderse las que se desglosan de otra relacion conla misma).- En verde, correspondencias con relaciones de otro tipo en la jerarquıa.- Subrayadas, las relaciones que aparecen en dos clases distintas dentro de losmodificadores.A la hora de comparar, si por ejemplo en el grafo 1 nos encontrasemos con unarelacion PLC y en el grafo 2 no existiese, seguiendo el esquema tendrıamos quemirar tambien si existe alguna relacion tipo PLT, PLF, SRC o VIA. Para PLF,buscarıamos en SRC y PLC, para BEN en PUR y RSN, etc.


ModS

ModSC

ModS3

PERQUAVAL

MODCNTNAMPOS

OBJ, AGT, AOJPOF

ModS2

Cantidad

MAN

Otros

ANDORAPN

Figura 4.5: Tipos de modificadores de subgrafos y sus respectivas relaciones ycorrespondencias. En rojo encontramos las relaciones basicas que aparecen comomodificadores de un sustantivo en caso de norminalizar un verbo (si el verbo esicl>do, AGT, para icl>occur, OBJ, y para icl>be, AOJ).


de otro tipo, y que pueden englobar distintas descripciones del sustantivo al que

acompanan. Estas relaciones suelen venir desempenadas por adjetivos; algunos

casos podrıan ser por ejemplo “dos (QUA) patatas” o “rıo largo (MOD)”. En la

Figura 4.5 encontramos un esquema de los tres tipos de modificadores en este

nivel y las relaciones que pertenecen a cada uno de estos grupos.

Modificadores de cantidad. Pueden expresar lo mismo en distintos ti-

pos de medidas (“un (QUA) euro (VAL)” por ejemplo puede ser lo mismo

que “diez (QUA) coronas (VAL)”; aunque en esta tesis no entremos en ese

tipo de equivalencias, puede ser util en cierto tipo de documentos, como

contratos internacionales).

• PER: proporcion (Pago dos euros el kilo (PER)).

• QUA: cantidad (Pago dos (QUA) euros el kilo).

• VAL: valor (Pago dos euros (VAL) el kilo).

Otros modificadores (describen diversas caracterısticas del sustantivo al

que acompanan):

• MOD: modifica distintas caracterısticas (colores, altura...): “El nino

alto (MOD)”

◦ CNT: aposicion, introduce un grupo nominal, habitualmente entre

comas. Se relaciona con NAM: (“Rajoy, el presidente (CNT)” y “El

presidente Rajoy (NAM)”).

◦ NAM: el nombre de algo, relacionado con CNT en caso de aparecer

una entidad (como vemos en el ejemplo anterior).

◦ POS: posesivo (Mi (POS) casa).

• POF: parte de, puede aparecer rara vez como relacion en un grafo en

expresiones del tipo “tres de ellos”.

• OBJ, AOJ, AGT: son modificadores que aparecen al nominalizar un ver-

bo, como veremos mas adelante.

Modificadores de subgrafos coordinados (ModSC)

Tambien podemos tener dentro de un subgrafo relaciones que unan otros sub-

grafos a un mismo nivel; analizaremos las posibles parafrasis a las que dan lugar

en la Seccion4.3.2.3. Las relaciones que pertenecen a este grupo seran:


AND: representa la conjuncion “y”. Puede ser parafrasis reordenando la re-

lacion siempre y cuando no estemos enumerando algo (donde el orden es

relevante) o incluyamos restricciones de tiempo (“Me gustan el rojo y el

azul” es igual que “Me gustan el azul y el rojo”, pero “Fui a tu casa y me

gusto” implica cierto orden, no es lo mismo que “Me gusto y fui a tu casa”).

OR: representa “o”; el orden en este caso no es relevante, y sı se cumple la

parafrasis en la mayorıa de casos.

APN: es una concatenacion, representarıa comas y serıa equivalente a varios

AND seguidos.

Modificadores de subgrafos de tercer nivel (ModS3)

Por ultimo, tambien podemos encontrar modificadores de adverbios y de ad-

jetivos dentro de un subgrafo; esta funcion la desempenara siempre un adverbio y

vendra dada por una relacion que ya habıamos englobado dentro del grupo Mod1,

MAN. Podremos distinguir su categorıa dentro del modelo por el elemento al que

modifica en la oracion (sera Mod1 si es a un verbo y ModS3 si es otro tipo de

palabra). Un ejemplo de aparicion del modificador MAN como miembro de esta

categorıa se da en las comparaciones, con el adverbio mas (“Es mas (MAN) alto”)

.

4.3.2. Otros tipos de mapeos o correspondencias

Ademas de las posibles equivalencias entre relaciones expuestas anteriormen-

te, pueden existir otros posibles mapeos entre relaciones en ciertas situaciones

concretas que se exponen a continuacion.

4.3.2.1. Mapeo de relaciones entre verbos de distinta categorıa on-

tologica

Existe la posibilidad de que la misma informacion venga expresada por ver-

bos distintos. Este serıa por ejemplo el caso de las frases “Te recomiendo hacerlo

ası.” y “Mi recomendacion es hacerlo ası.”. Se han desarrollado por ello algunos

mapeos para los casos mas frecuentes, teniendo en cuenta para ello la siguiente

consideracion: dado que es poco habitual que los verbos icl>occur se puedan


expresar de otras maneras, y teniendo en cuenta ademas que son muy poco fre-

cuentes en UNL (tan solo 70 de 8670 palabras universales son verbos de tipo

icl>occur, ni el 1 % de ellas1), no contemplaremos mapeos desde o hasta las

relaciones de este tipo de verbos. Partiendo de esta base, se han desarrollado los

siguientes mapeos para los otros tipos de verbos:

En el caso de encontrar un verbo icl>do nominalizado como el del ejemplo

anterior en una frase con una @entry verbal icl>be, se testaran los siguien-

tes mapeos:

oracion con @entry icl>do oracion con @entry icl>be

AGT POS

MAN OBJ

verbo AOJ

atributos del verbo atributos del verbo

Tabla 4.3: Mapeos entre verbos de distintas categorıas ontologicas.

Un ejemplo de estos casos lo encontramos en frases como:

Tu (AGT) huiste rapidamente (MAN).

Tu (POS) huida (AOJ) fue rapida (OBJ).

Como ya vimos en la jerarquıa de relaciones, en muchos casos tras la nomi-

nalizacion se conservan algunas relaciones argumentales (AGT, AOJ y OBJ,

principalmente). Por ejemplo:

Los precios (AGT) subieron, lo que provoco la crisis.

La subida de los precios (AGT) (AGT) provoco la crisis.

Por ello, tambien buscaremos este tipo de correspondencias directas (dejan-

do a un margen la transformacion gramatical, salvable gracias a las medi-

das de similaridad y la comparacion cadenas de caracteres) en el modelo.

Ademas, debemos considerar que cuando nominalizamos un verbo, habitual-

mente sus modificadores (los del grupo Mod1, especialmente los de modo)

1 Informacion consultada en mayo de 2016


suelen pasar a modificar al sustantivo, transformandose en modificadores

del sustantivo (del grupo ModS2). En este caso mapearemos los adjetivos

y los adverbios segun su tipo (los adverbios de modo y manera correspon-

deran a los adjetivos cualificativos, los adverbios de tiempo y lugar con los

adjetivos temporales y de lugar, etc).

4.3.2.2. Mapeo de relaciones entre subgrafos con nucleo sustantivo-

verbo y sustantivo-sustantivo

El caso anterior se centraba en comparar dos grafos cuyos nucleos (@entry)

eran verbos, pero tambien es posible que uno o ambos sean sustantivos. En este

caso se realizara la comparacion como si se tratase de buscar la identidad entre

subgrafos (mas adelante, en la Seccion 4.3.5.3, comentaremos como ha de hacerse

esta comparacion), partiendo de que los @entry mantienen algun tipo de relacion

de sinonimia o de similaridad a nivel de caracteres. De nuevo, habitualmente el

contenido de las relaciones de tipo Mod1 se reflejara en el grafo nominalizado en

relaciones de tipo ModS2.

4.3.2.3. Casos especiales: la comparacion, los superlativos y la coor-

dinacion

En UNL encontramos algunos casos especiales de parafrasis que requieren un

mapeo especial. Algunos de ellos se exponen a continuacion:

La comparacion

La comparacion (expresada en UNL mediante la relacion BAS), implica el uso

de las UWs more, less y as as (a los que llamaremos comparativos). La estructura

sera la expuesta en la Figura 4.6.

Las posibles parafrasis se pueden dar de las siguientes maneras en el caso de

less y more:

Negar el verbo (atributo @not) e intercambiar los conceptos: “Luis corre

mas rapido que Juan” y “Juan no corre mas rapido que Luis”.

Intercambiar los conceptos y usar una caracterıstica antonima: “Luis corre

mas rapido que Juan” y “Juan corre mas despacio que Luis”.


Figura 4.6: Estructura de la comparacion. Las relaciones basicas aoj y obj puedenser otras (dependeran del tipo de verbo con el que tratemos). Ademas, en algunoscasos puede no mencionarse la caracterıstica (por ejemplo, en “10 es mas que 5”,aunque en ese caso ya no aparecerıa la relacion BAS y no entrarıa en este caso),y hay que tener en cuenta que tanto los conceptos como la caracterıstica puedenser nodos independientes o nucleos de subgrafos.

Intercambiar los conceptos y usar el comparativo opuesto: “Luis corre mas

rapido que Juan” y “Juan corre menos rapido que Luis”.

Mantener los conceptos y usar el comparativo opuesto y la caracterıstica

antonima: “Luis corre mas rapido que Juan” y “Luis corre menos despacio

que Juan”.

Otro posible caso de parafrasis vendrıa con la aparicion de @not y la negacion

de la caracterıstica o el comparador, pero son casos algo extremos y que suelen

implicar cierta intencion, por lo que no contemplaremos ese caso. Si encontramos

en cambio una comparacion de igualdad (con as as), la unica posibilidad de

parafrasis pasa por intercambiar los conceptos, pero dependera tambien de la

situacion, ası que no lo consideraremos tal. En los ejemplos de aplicacion del

modelo (Seccion 4.3.6) encontramos un caso practico de comparacion.


Los superlativos

En el caso de tratar con superlativos (least y most), estas UWs actuaran sobre

la caracterıstica mediante la relacion MAN. La unica parafrasis posible (ademas de

la sinonimia) es que se de el superlativo opuesto y un antonimo (“Luis es el mas

alto” y “Luis es el menos bajo”).

La coordinacion

Como ya hemos comentado al explicar los modificadores ModSC en la Seccion

4.3.1.2, en ocasiones se pueden intercambiar los subgrafos a los que unen las rela-

ciones de coordinacion; es lo mismo, por ejemplo “Comprar patatas y manzanas”

que “Comprar manzanas y patatas”. No obstante, hay casos en los que el orden

es relevante “Compro eso y voy a tu casa” no es lo mismo que “Voy a tu casa y

compro eso”, pues implica algun tipo de preferencia o informacion temporal. Es

por ello que en lo respectivo a la coordinacion (aplicable a las relaciones del grupo

ModSC: AND, OR y APN), consideraremos que un cambio en el orden puede producir

parafrasis, pero solo la verificaremos si lo que une no son verbos o subgrafos con

nucleo verbal. Ademas, consideramos que si se dan AND y APN, u OR y APN juntos

con sustantivos, pueden intercambiarse los conceptos, pues en una enumeracion

de sustantivos el orden no es relevante (“patatas, manzanas y peras” equivale a

“manzanas, peras y patatas”).

4.3.3. Seleccion de atributos

Como ya mencionamos previamente, los atributos en UNL son libres (los ex-

pertos UNL de cada lengua pueden introducir nuevos atributos cuando lo consi-

deren necesario) y en muchos casos subjetivos; esta falta de estandarizacion en

comparacion con las relaciones UNL provoca que el tratamiento de los atributos

solo pueda sistematizarse hasta cierto punto. La idea tras la seleccion realizada

es, por tanto, decidir que atributos deben coincidir necesariemente en caso de

darse; un ejemplo claro es el tiempo verbal: aunque tengamos exactamente el

mismo contenido en dos grafos, si tienen distinto tiempo verbal no puede exis-

tir la parafrasis (“Yo voy a comer patatas” y “Yo comı patatas”, por ejemplo).

Tras analizar los atributos mas habituales dentro de las guidelines, extraemos las


siguientes consideraciones en cuanto a atributos que deben coincidir obligatoria-

mente:

Numero (@pl): si en un nodo aparece el plural, en su correspondencia

con el grafo a comparar debe aparecer tambien. Existen ciertos matices

en esta afirmacion, pero dependeran de la propia relacion que mantengan

las palabras; por ejemplo, el equipo y los jugadores, o la poblacion y los

habitantes, dependiendo del contexto, pueden referirse a lo mismo, pero

consideramos esto parte del sentido comun, fuera por tanto de nuestro area

de actuacion (como indicamos en las hipotesis de trabajo).

Determinacion (@def, @indef y @generic): si en una oracion hablase-

mos de un concepto indefinido y en otra del mismo concepto pero determi-

nado, no hablarıamos de lo mismo (“Un nino juega” y “El nino juega”, por

ejemplo, no tienen por que referirse al mismo nino). Sin embargo, aquı tam-

bien entramos (al igual que en el caso de los plurales) en el tipo de relacion

que une dos conceptos: un perro y el animal en frases consecutivas pueden

referirse a lo mismo, ya que mantienen una relacion de hiperonimia. No

obstante, a nivel de comparacion frase a frase no necesitaremos mantener

el llamado “foco del discurso”2.

Negacion (@not): si una frase esta en negativo, debe estarlo tambien

la otra (o bien debe expresar lo contrario por medio de antonimia). Es el

caso de “Es alto” y “No es alto”, donde en el grafo UNL encontrarıamos

los mismos nodos con las mismas palabras universales pero en el segundo

caso vendrıa anadido el atributo @not. En los ejemplos de la Seccion 4.3.6

encontramos un caso donde la parafrasis no se da precisamente por esta

razon.

Atributos verbales y de tiempo: entendemos que si dos oraciones se

expresan en distinto tiempo o modo verbal no van a poder decir lo mismo,

ası como sucesos con distintos tempos. Por tanto, los siguientes atributos

deberan coincidir necesariamente:

• Tiempo: @present, @past, @progress, @begin, @end, @complete, @con-

tinue, @custom. Ademas, existen tiempos que pueden resultar sinoni-

2 Extraemos este termino de la tesis doctoral [24], refiriendonos a un termino para determinarel concepto aludido en caso de correferencia y anaforas.


mos en ciertos casos, como el futuro o el condicional, que puede ex-

presarse en presente o con @future (es decir, que si encontramos una

frase con @future y otra en presente, aun puede existir la parafrasis).

En estos casos, se marcara como posible parafrasis.

• Modo: @imperative, @ability, @may, @obligation, @obligation.not, @pos-

sibility, @probability, @should y las posibles correspondencias entre

ellas.

• Tempo: @just, @soon, @yet, @although, podrıan corresponderse tam-

bien con algunas relaciones UNL del tipo TIM.

4.3.4. Medida de similaridad

En el marco de la tesis, hemos observado que no existe ninguna medida de

similaridad semantica asociada a UNL. Es por ello que parte del trabajo se ha

destinado al estudio de las palabras universales y a la creacion de una medida que

se ajuste a sus caracterısticas pertinentes (repasadas anteriormente en 4.2.1.2).

Obviamente, esta medida devolvera para una misma UW el valor 1, que se con-

sidera el umbral a partir del cual los UWs son sinonimos (siendo -1 el umbral

inferior para la antonimia, pero no estando acotada por dichos valores). Esta fun-

cion de similaridad no cumplira por tanto las condiciones matematicas para ser

considerada distancia (pues puede tomar valores negativos, no toma valor 0 para

una misma UW y no tiene por que cumplir la desigualdad triangular).

La medida de similaridad entre dos verbos UW se dara por medio de pesos,

que dependen de la comparacion de las restricciones de las palabras universales

de la siguiente manera:

4.3.4.1. Verbos

1. El tipo de verbo debe ser igual; si no, se descarta la sinonimia (el resultado

es 0).

2. Si se da la condicion anterior, tambien puede ser que entre icl y el tipo de

verbo (do, be, occur) haya algun caso de hiperonimia o hiponimia (como

veıamos por ejemplo con show en expose(icl>show>do,equ>exhibit,agt>

thing,obj>thing,rec>thing)). Si se diese una coincidencia en ese nivel se


le darıa un peso extra entre 0 y 0,5 (cuanto mas a profunda se diese dicha

coincidencia, mayor peso, siendo mas profunda cuanto mas a la izquierda

este en la jerarquıa de flechas). Mas tarde veremos la funcion especıfica.

3. El siguiente punto a observar es la propia restriccion de sinonimia, equ.

Entre dos UW, esta sinonimia puede ser:

Bidireccional: ambos verbos tienen la misma UW en equ (como en

el caso de expose(icl>show>do,equ>exhibit,...) y demonstrate(

icl>show>do,equ>exhibit,...) ), o se tienen mutuamente entre sı.

Esto da un peso de 1 a la similaridad.

Unidireccional: uno de los verbos tiene como equ al otro, pero no

a la inversa. En este caso, podrıan ser necesarios modificadores para

que se diese la parafrasis. Pensemos por ejemplo en el caso “Para

cenar comı patatas” y “Cene patatas”: cenar es un caso concreto de

comer (serıa pues un hiponimo), pero la modificacion dada por para

cenar complementa al hiperonimo en la frase, provocando la parafrasis.

No obstante, este tipo de comprobaciones necesitarıan de una base

del conocimiento, una de las limitaciones que mencionabamos en el

planteamiento de la tesis. Dado que no entramos en ese terreno, en caso

de encontrar un equ unidireccional, daremos un 0,75 de similaridad,

pues no podemos asegurarla al no poder comprobar los modificadores

necesarios.

Las ideas anteriores se aplican igual para ant, la restriccion de

antonimia. Si un verbo fuese antonimo del otro, daremos valor negativo

a la medida (-1 en caso de ser bidireccional y -0,75 en caso de ser

unidireccional). Esto sera util si en caso de la comparacion encontramos

por ejemplo el atributo @not o la doble negacion.

Diferentes equ o ant: en este caso miraremos sucesivamente las res-

tricciones de las UWs relacionadas hasta encontrar relacion o hasta un

determinado nivel de profundidad. Puede que por ejemplo que morada

y hogar no aparezcan como sinonimos, pero que morada se considere

sinonimo de refugio, hogar de casa y que refugio y casa sı se relacionen

de alguna manera. En este caso sumaremos tan solo 0,25.

Ninguna relacion de equ o ant: si no encontramos ninguna rela-

cion de tipo sinonimia, no podemos descartar la existencia de la misma.


Una posible solucion es buscar la relacion entre las headwords en un

recurso externo, como un tesauro o una red semantica. Tambien po-

demos recurrir a lematizadores y distancia en cadenas de caracteres.

En este caso, las restricciones tipo fld y com pueden ayudar en la

desambiguacion.

4. Restricciones argumentales: dos verbos sinonimos deben tener las mis-

mas restricciones argumentales. Es posible que alguno cubra mas relaciones

o permita que dichas relaciones las desempenen UWs mas genericas en la

jerarquıa (siendo por ejemplo, thing mas generico que person y menos que

uw); bastara en este caso con que la interseccion de los argumentos cubiertos

en la frase no sea vacıa. Si tenemos por ejemplo que en un verbo el agt>uw

y en otro que agt>person, puede darse la parafrasis, pero entre agt>plant

y agt>person no es posible (pues asumimos que el contexto de aplicacion

no es el mismo, imposibilitando la parafrasis).

La funcion sim(UW1, UW2), siendo las UWs de la forma UWi = HWi(icl >

aiKi> ... > ai2 > ai1 > tipo, equ > bi, ant > ci, rel1 > uwi1, ..., relN > uwiNi

)

para verbos (y en general), quedara segun lo expuesto previamente de la siguiente

manera:

sim(UW1, UW2) = simicl(UW1, UW2)·(simequ(UW1, UW2) + simant(UW1, UW2)) · simrel(UW1, UW2)

con

simicl(UW1, UW2) =

{0 si UW1 y UW2 son verbos de distinto tipo.

1 + k2·K si son del mismo tipo.

siendo k = max(x, x′) el mayor ındice en el que coincidan las restricciones de

ambas UWs, es decir, a1x = a2x′ , y K = max(K1, K2).


simequ(UW1, UW2) =

1 si b1 = b2 o b1 = HW2, b2 = HW1

0,75 si b1 = HW2 o b2 = HW1

0,25 si ∃j ≤ J tal que con j concatenaciones

encontramos una equivalencia comun.

f(HW1, HW2) si no hay ningun equ ni ant

donde J es un parametro que indica a que profundidad queremos buscar

la similaridad (intuitivamente, el maximo de equ que concatenaremos buscando

iterativamente en los equ de cada UW hasta dar con algun punto comun) y f(x, y)

una funcion de similaridad aplicable en recursos externos o cadenas de caracteres,

normalizada a 1.

simant(UW1, UW2) =

−1 si c1 = c2 o c1 = HW2, c2 = HW1

−0,75 si c1 = HW2 o c2 = HW1

−0,25 si ∃j ≤ J tal que con j concatenaciones

encontramos una antonimia comun.

f(HW1, HW2) si no hay ningun equ ni ant

simrel(UW1, UW2) =

{1 si ∀relin tal que in ≤ Ni, rel1n ∩ rel2n 6= ∅0 si no

si alguno de los dos verbos tiene mas relaciones que otro, bastara con que no

aparezcan en el grafo en cuestion (dependera de la forma de aplicar el verbo).

4.3.4.2. Adjetivos, adverbios y sustantivos

Los adjetivos y los adverbios usaran la misma medida que la previamente ex-

puesta para los verbos (aunque en este caso las restricciones relacionales se podran

referir a que rol desempena la UW en un grafo). En el caso de los sustantivos,

encontramos la particularidad de las instancias, que en vez de icl contienen en

sus restricciones iof, que son unicos y solo son sinonimos de sı mismos. Por lo

demas, la medida de similaridad sera igual a la general expuesta previamente,

aunque dada la escasez de restricciones relacionales en comparacion con los ver-

bos, esta parte de la funcion aportara informacion en menos ocasiones:


La funcion sim(UW1, UW2)sust, con UWi = HWi(icl > aiKi> ... > ai2 > ai1 >

tipo, equ > bi, ant > ci, rel1 < uwi1, ..., relN < uwiNi) o UWi = HWi(iof > ai)

quedara de la siguiente manera:

simsust(UW1, UW2) =

0 si ambos son iof y HW1 6= HW2

1 si ambos son iof y HW1 = HW2

sim(UW1, UW2) en otro caso.

4.3.4.3. Similaridad entre palabras de distinta categorıa

Si en algun caso de mapeo debemos comparar la similaridad entre palabras

de distintas clase (por ejemplo en el caso de “huir” y “huida”), usaremos como

ayuda un lematizador de UWs y alguna de las distancias propuestas en el Estado

del Arte para cadenas de caracteres (no hay ninguna que prevalezca sobre las

demas en este contexto).

4.3.4.4. Ejemplos de aplicacion de la medida

A continuacion exponemos algunos ejemplos de como actua la medida desa-

rrollada:

UW1: green(icl>qual adj,val<color), UW2: red(icl>qual adj,val<color)

simicl(UW1, UW2) = 1, pues ambos son adjetivos cualificativos pero no contienen

ningun otro indicio intermedio comun en la jerarquıa.

simrel(UW1, UW2) = 1, ambos tienen la misma restriccion (desempenan la rela-

cion VAL, valor).

simequ(UW1, UW2) = simant(UW1, UW2) = f(HW1, HW2), en cualquier recurso

veremos que rojo y verde no son lo mismo, por lo que el resultado sera:

sim(UW1, UW2) = 1 · 0 · 1 = 0, luego no son ni sinonimos ni antonimos.

UW1: count(icl>do,equ>calculate,agt>thing,obj>thing),

UW2: calculate(icl>do,equ>count,agt>thing,obj>thing)

simicl(UW1, UW2) = 1, pues ambos son verbos tipo icl>do pero no contienen

ningun otro indicio intermedio.


simrel(UW1, UW2) = 1, ambos tienen las mismas restricciones en las relaciones

argumentales.

simequ(UW1, UW2) = 1, pues la equivalencia es bidireccional:

sim(UW1, UW2) = 1 · 1 · 1 = 1, luego son sinonimos.

UW1: demonstrate(icl>show>do,equ>exhibit,agt>thing,obj>uw,rec>thing)

UW2: exhibit(icl>show>do,equ>expose,agt>thing,obj>thing)

simicl(UW1, UW2) = 1,5, pues ambos son verbos tipo icl>do y tienen un ele-

mento intermedio comun.

simrel(UW1, UW2) = 1, pues no hay intersecciones vacıas entre sus relaciones

comunes.

simequ(UW1, UW2) = 0,75, pues la equivalencia es unidireccional;

sim(UW1, UW2) = 1,5 · 0,75 · 1 = 1,125, luego son sinonimos.

UW1: poor(icl>adj,ant>rich), UW2: rich(icl>adj,ant>poor)

simicl(UW1, UW2) = 1

simrel(UW1, UW2) = 1, pues no existen restricciones.

simant(UW1, UW2) = −1, pues la antonimia es bidireccional;

sim(UW1, UW2) = 1 · (−1) · 1 = −1, luego son antonimos.

UW1: poor(icl>adj,equ>bad), UW2: rich(icl>adj,ant>poor)


simrel(UW1, UW2) = 1, pues no existen restricciones.

simant(UW1, UW2) = −0,75, pues la antonimia es unidireccional;

sim(UW1, UW2) = 1·(−0,75)·1 = −0,75, luego son antonimos hasta cierto punto.

4.3.5. Algoritmo de comparacion de grafos

Veamos por ultimo el algoritmo disenado para la comparacion de grafos, que

utiliza los elementos expuestos hasta ahora.


4.3.5.1. Distincion de casos del modelo comparativo

En el modelo de comparacion dividiremos los casos en funcion de las @entry

de los grafos que estemos tratando, pudiendo ser ambos verbos, ambos sustan-

tivos, un verbo y un sustantivo, u otra categorıa gramatical. En la Figura 4.7

encontramos un diagrama con los cuatro casos contemplados, a saber:

Caso 1: el @entry de ambos grafos es un verbo; es el caso mas comun, en

el que nos centraremos principalmente.

Caso 2: un @entry es un sustantivo y el otro un verbo; para que se de la

parafrasis debe existir por tanto un cambio profundo en la estructura de

una frase con respecto a la otra, siguiendo alguna de las regla de mapeo

expuestas 4.3.2 para ver donde buscar las correspondencias en la frase. Un

ejemplo muy sencillo de este caso es la parafrasis entre “Gracias por tu

ayuda” y “Te agradezco tu ayuda”, donde la similaridad a nivel de cadena

de caracteres y de similaridad semantica (“agradecer” es igual que “dar

gracias”) permiten ver la equivalencia.

Caso 3: ambos @entry son sustantivos. La clave en estas oraciones suele

encontrarse en la sinonimia, las cadenas de caracteres y los modificadores

que acompanan al sustantivo (por ejemplo, en “Gracias por tu ayuda” y

“Mis agradecimientos por tu ayuda”).

Caso 4: caso en el que algun @entry no es ni sustantivo ni verbo. Suelen ser

casos concretos o frases muy cortas (como por ejemplo las frases “Encima

de la mesa” y “Sobre la mesa” o “Cordialmente,” y “Suyo,” en un correo).

4.3.5.2. Casos del modelo comparativo

A continuacion veremos en mayor detalle cada uno de los casos, poniendo

especial enfasis en el caso 1 (donde los dos verbos son @entry). Contemplamos

tres posibles resultados de la comparacion: o bien se corrobora la parafrasis, o

bien se descarta, o bien se considera que no hay suficientes indicios para afirmar o

negar su existencia (por ejemplo, en casos como la presencia de textual entailment

u otros fenomenos que no cubrimos en esta tesis).


g1.@entry

¾qué es?

grafo 1

(g1)

grafo 2

(g2)

caso 4g2.@entry

¾qué es?

g2.@entry

¾qué es?

caso 1 caso 3caso 2

verbo

sustantivo

verbo

otro

otro

sustantivo

otro

verbo sustantivo

Figura 4.7: Los cuatro casos que podemos encontrar dependiendo de los @entryde las frases a comparar. El caso 1 son dos @entry verbales, el caso 2 un @entryverbal y otro nominal, el caso 3 dos @entry nominales y el caso 4 se da cuandoalgun @entry no pertenece a ninguna de estas dos categorıas gramaticales.


g1.@entryvs

g2.@entry

grafo 1(g1)

grafo 2(g2)

¾caso demapeo enclases deverbos?

g1.@entry=

g2.@entry

¾mismomarco

semántico?

PUEDEEXISTIR

PARÁFRASIS

NO HAYPARÁFRASIS

1. Comprobación derelaciones básicas

¾coincideno es uncaso

especial?

2. Comprobaciónmodi�cado-res por orden

¾coinciden?

¾la infor-mación nomapeadano es

relevante?

HAYPARÁFRASIS

3. Comproba-ción de mapeoentre relaciones

distinto tipode verbo

mismo tipode verbo

no

no sinónimos

sinónimos

sí

no / no sepuede

determinar

sí

correspondenciainexacta

no

sícorrespondencia

exacta

no

no

sí

sí

Figura 4.8: Los pasos a seguir en el modelo de comparacion para el Caso 1 (ambos@entry son verbos).


Caso 1

Como hemos mencionado en el apartado anterior, el caso 1 (verbo-verbo) es

uno de los mas frecuentes, por lo que sera en el que mas profundicemos. El modelo

comparativo para esta situacion se puede encontrar en la Figura 4.8, y los pasos

de los que se compone se desglosan a continuacion:

1. En primer lugar, miramos si la categorıa ontologica de los verbos @entry

es la misma. Si lo es, miraremos si los verbos son sinonimos (segun nuestra

medida de similaridad, expuesta en 4.3.4); si no tienen la misma categorıa,

miraremos si se pueden mapear siguiendo las pautas explicadas previamente

en la Seccion 4.3.2 entre verbos icl>do y icl>be.

a) Si tienen la misma categorıa y son sinonimos, las relaciones basicas

argumentales deben corresponderse (paso 1). Si no lo hiciesen, y no se

debiese a alguna de los casos especiales expuestos en la previamente

en la Seccion 4.3.2.3 (comparacion o superlativo), no podrıa existir la

parafrasis. En caso de corresponderse, pasamos a mirar los modifica-

dores.

b) Si tienen la misma categorıa y no son sinonimos, la unica posi-

bilidad de parafrasis pasa por que los verbos pertenezcan al mismo

marco semantico. Para ver si es el caso, basta con mirar la medida

de similaridad: si los verbos tienen cierta relacion pero no llegan a

ser sinonimos o antonimos (es decir, que usamos como medida uni-

camente la componente simicl(UW1, UW2) esperando que sea mayor

que 1), existe la posibilidad del marco semantico. Si no, descartamos

la parafrasis (aunque es posible que exista pero las restricciones de

las UWs no sean suficientes para detectarla, siendo necesario algun

recurso externo tipo FrameNet).

c) Si son de distinta categorıa pero el mapeo icl>do y icl>be no se

cumple, aun queda la posibilidad de equivalencia dentro de un marco

semantico (volverıamos al punto anterior).

d) Por ultimo, si las pautas del mapeo sı se cumpliesen, pasarıamos

a comparar las relaciones de los grafos (paso 1) siguiendo las equiva-

lencias marcadas en la seccion de mapeos (Seccion 4.3.2).


2. Una vez llegamos al paso 1, comparamos las relaciones argumentales basi-

cas o las de mapeo, que deben cumplirse (si no, considerarıamos que no hay

parafrasis). Si lo hacen, pasamos al paso 2.

3. En el paso 2 compararemos los modificadores y los subgrafos en el or-

den explicado en la siguiente seccion (identificacion de subgrafos). Si se

cumpliesen todas las correspondencias, admitirıamos la parafrasis. Si no,

tendrıamos que ver si realizando cierto mapeo entre las relaciones (siguien-

do las equivalencias de la jerarquıa y teniendo en cuenta la peculiaridad

de las relaciones coordinadas del grupo ModSC) se solucionarıa este pro-

blema, o si la informacion no coincidente no es relevante o es imposible de

determinar (un ejemplo de relacion no relevante se da con NAM y CNT, pues

decir “Barack Obama, el presidente de EEUU” y “Barack Obama” es lo

mismo). En estos casos podrıa haber parafrasis; si no, rechazarıamos esta

posibilidad.

Casos 2, 3 y 4

En el caso de tener @entry sustantivos o de otras categorıas, como ya co-

mentamos anteriormente, usarıamos la medida de similaridad, los lemas y las

medidas de cadenas de caracteres partiendo de que, a priori, los @entry de-

berıan corresponderse aunque sean de distinta categorıa gramatical. Las rela-

ciones semanticas y argumentales se conservarıan en todos los casos, pero habrıa

que tener en cuenta que si el nucleo de un subgrafo es un sustantivo y ma-

pea con otro subgrafo cuyo nucleo es un verbo, los modificadores del primero

seran ModS y mapearan en el segundo grafo con modificadores Mod1; ocurre

igual con los adjetivos y los verbos (aunque en este caso las relaciones seran

siempre ModS3, MAN). Es el caso por ejemplo de “Agradecer” y “gracias”,

cuyas UWs son distintas (thank(icl>convey>do, agt>thing, obj>thing) y

thank you(icl>thanks>thing), respectivamente) pero para las cuales la aplica-

cion de medidas de cadenas de caracteres prueba la similaridad (obteniendo por

ejemplo, 0,5 en la medida derivada de la distancia de Levenshtein y 0,87 en la de

Jaro-Winkler con p = 0,1 y l = 4).


4.3.5.3. Identificacion de subgrafos

Cuando nos encontremos con un verbo, comprobaremos la similaridad entre

los subgrafos igual que en el Caso 1 (considerando el verbo nucleo como si fuese

el @entry). Para comprobar la correspondencia (que dos nodos o subgrafos dicen

lo mismo) entre otros tipos de palabra, seguiremos los siguientes pasos en la

comprobacion:

1. Named Entities Recognition: si existen entidades en un subgrafo (repre-

sentadas por medio de la restriccion iof) y no en el otro, va a ser imposible

que ambos subgrafos digan lo mismo (recordemos que trabajamos frase a

frase, en textos completos podrıa identificarse la entidad con un hiperoni-

mo, por ejemplo). Este sera por tanto un paso clave en la identificacion

de correspondencias entre dos grafos. Debemos considerar tambien que en

el caso de no existir una correlacion directa, es posible que sean la misma

entidad pero que debamos usar tecnicas de equivalencia como las usadas

por ejemplo en las busquedas extendidas, para lo cual serıa necesario te-

ner acceso a bases del concimiento y otros recursos similares (por ejemplo,

para establecer la relacion entre “UPM” y “Universidad Politecnica de Ma-

drid”). Ya hemos comentado que esto queda fuera del alcance de la tesis, y

se plantea como futura mejora del modelo.

2. Similitud entre nodos: usando la medida desarrollada previamente en la

Seccion 4.3.4. En este paso la similitud se buscara a su vez en el siguiente

orden:

a) Sinonimia semantica: medida de similaridad.

b) Antonimia semantica: si el resultado de aplicar la medida de simi-

laridad es negativo y menor de -1, se consideraran antonimo. En este

caso la similaridad estara relacionada con la presencia del atributo

@not (“No es mas alto que yo” y “Es mas bajo que yo” por ejem-

plo expresarıan lo mismo) o el orden de los conceptos involucrados en

una comparacion (“Es mas alto que yo” y “Yo soy mas bajo que el”).

En cualquier otro caso implicarıa que los subgrafos son diferentes y se

rechazarıa la equivalencia.

c) Correspondencia entre cadenas de caracteres y lemas: como

ya mencionamos en el apartado de similaridad semantica, en ocasiones


puede que comparemos UWs que no sean de la misma categorıa (recor-

demos el ejemplo de “gracias” y “agradecer”). En este caso, podemos

recurrir a las distancias de cadenas de caracteres o a la comparacion

de lemas para ver si las palabras expresan lo mismo.

3. Presencia de modificadores en el subgrafo que puedan aportar matices

relevantes a la frase (por ejemplo, si decimos “el coche rojo” y “el coche

azul”, los subgrafos seran similares pero no es una parafrasis, no hay equi-

valencia).

4. Revision de atributos: Si se ha comprobado la existencia de una rela-

cion de similaridad, quedara por verificar la presencia de ciertos atributos.

Encontramos dos casos posibles de atributo:

Obligatorios: como por ejemplo @past o @not ; en el caso de existir

la negacion en uno de los grafos, debe darse en el otro o existir cierta

diferencia que lo compense (por ejemplo, en el caso de la comparacion

puede ser la presencia de un antonimo).

Dependientes del contexto: la correspondencia sera en este caso

mas difıcil de establecer. Un ejemplo muy comun, por ejemplo, se da

en la correspondencia entre grupos y el plural de sus individuos: “El

equipo se alegro de la victoria” y “Los jugadores del equipo se alegraron

de la victoria”, donde en el segundo caso encontramos el atributo @pl.

No obstante, tambien puede haber quien opine que no se da la parafra-

sis, pues un equipo puede involucrar, por ejemplo, al entrenador, por

lo que generalmente estos casos devolveran en el modelo ausencia o

posibilidad de parafrasis como resultado. En el presente modelo solo

nos preocupamos por los atributos obligatorios.

4.3.6. Ejemplos de aplicacion del modelo

A continuacion se exponen unos ejemplos del funcionamiento del modelo, cada

uno con una particularidad. Uno de ellos contiene entidades, otro muestra la

importancia de los atributos en la deteccion de la parafrasis y el ultimo implica

una comparacion (un caso con una estructura UNL particular). Comentamos

ademas en algunos de los ejemplos como la introduccion de algunas pequenas

modificaciones podrıa cambiar el resultado de la aplicacion del modelo.


4.3.6.1. Presencia de entidades

En este ejemplo usaremos dos frases extraıdas de [35]. En ella encontramos

entidades (nombres de personas y una marca de coches) y un caso de sinonimia:

Figura 4.9: Grafo de la frase: “Tom bought a Honda from John.”

Figura 4.10: Grafo de la frase: “Tom purchased a Honda from John.”

1. Lo primero que vemos es que ambas @entry son verbos, por lo que esta

comparacion seguira los pasos del Caso 1 (ver Figura 4.8).

2. El siguiente paso es ver si ambos @entry son el mismo tipo de verbo. Tanto

buy como purchase son icl>do, por lo que solo quedarıa ver si dicen lo

mismo.

3. Para ver si ambos verbos dicen lo mismo aplicamos la medida de similaridad

desarrollada para el modelo:

UW1: purchase(icl>get>do, equ>buy, agt>thing),

UW2: buy(icl>get>do, agt>thing)

simicl(UW1, UW2) = 1,5, pues ambos tienen get en su jerarquıa.

simrel(UW1, UW2) = 1

simequ(UW1, UW2) = 0,75, pues la sinonimia es unidireccional;

sim(UW1, UW2) = 1,5 · (0,75) · 1 = 1,125, luego son sinonimos.


4. Ahora que sabemos que son sinonimos, falta ver si existen atributos obli-

gatorios y, en tal caso, si los comparten. Ambos tienen el mismo atributo

temporal (@past), por lo que ambos expresan exactamente lo mismo.

5. En el siguiente paso del modelo debemos comprobar las relaciones basicas.

En el caso de verbos tipo icl>do, son las siguientes:

a) agt: ¿el contenido del subgrafo al que apunta la relacion agt es el

mismo? Para comprobarlo seguimos los pasos expuestos en la Seccion

4.3.5.3 para la identificacion de subgrafos. Lo primero es ver la presen-

cia de entidades; en caso de darse, deben ser exactamente las mismas.

Vemos que este es el caso, pues en ambos encontramos la misma en-

tidad (Tom(iof>person)). No existen modificadores, ni atributos, ni

nada mas aparte de la entidad, por lo que significan lo mismo.

b) obj: repetimos el proceso anterior y vemos que ambos verbos tienen

como obj la entidad Honda(iof>car) con el atributo @indef, por lo

que se verifica tambien esta relacion.

c) src: ocurre lo mismo con John(iof>person).

6. El siguiente paso serıa ver si se cumplen los modificadores. Al no haber,

confirmamos la existencia de la parafrasis.

Posibles variaciones

Imaginemos que en uno de los grafos hubiese existido algun modificador, por

ejemplo “Tom bought a Honda from John today” (lo que anadirıa una relacion

TIM entre el verbo y today), y en el otro no. En ese caso, al no haber ninguna

correspondencia en el otro grafo con dicha informacion, y sin saber si esa informa-

cion es relevante (igual el contexto de la situacion hace que sea obvio), el modelo

arrojarıa como resultado que la parafrasis puede existir.

Si en cambio ambas frases tuviesen modificadores, la parafrasis podrıa depen-

der de ellas:

Pongamos por ejemplo que una frase tiene informacion temporal “Tom

bought a Honda from John today” y otra espacial “Tom purchased a Honda

from John here” (relacion PLC). En la jerarquıa de relaciones del modelo,


PLC y TIM no estan juntas, es decir, que no pueden nunca expresar la misma

informacion. Por ello, la parafrasis no puede existir.

Ahora imaginemos que ambas tienen la relacion TIM, pero con distinto con-

tenido: “Tom bought a Honda from John today” y “Tom purchased a Honda

from John tomorrow”. La medida de similaridad entre today y tomorrow

es 0, por lo que no podemos determinar que sean sinonimos ni antonimos

(aunque podemos recurrir a recursos externos para verificarlo) y rechazamos

por tanto la existencia de la parafrasis.

Pensemos en relaciones del mismo tipo (en este caso, modales): “Tom bought

a Honda from John with cash payment” (INS, instrumento) y “Tom purcha-

sed a Honda from John paying with cash” (podrıa considerarse MAN o COO).

Una vez verificado que el contenido del modificador es el mismo (dado que

tanto por cadenas de caracteres como por lema se corroborarıa la simila-

ridad entre payment y pay, los nucleos de los subgrafos, y que ambos son

modificados por cash), veremos que no tienen los mismos modificadores,

pero que segun nuestra jerarquıa puede existir un mapeo entre INS, MAN y

COO (esto se verıa en el paso 3 del Caso 1, ver la Figura 4.8), dandose la

correspondencia exacta y concluyendo por tanto el modelo que la parafrasis

existe.

Por ultimo, veamos que ocurrirıa si cambiasemos el verbo dentro del mar-

co semantico de la frase. Como seres humanos, sabemos que “Tom bought

a Honda from John” es lo mismo que “John sold a Honda to Tom”. Sin

embargo, a nivel maquina y sin recursos externos, no podrıamos recono-

cer esta situacion, y el modelo decidirıa que los verbos no son sinonimos.

Ddado que las UWs sell(icl>exchange>do, agt>thing, obj>thing) y

buy(icl>get>do, agt>thing) no se relacionarıan segun la medida de simi-

laridad semantica, determinarıa que no hay parafrasis (en caso de consultar

a un recurso de marcos semanticos, dirıa que puede existir). Una manera

de solucionar esto serıa transcribir marcos semanticos ya testados a estruc-

turas UNL (por ejemplo, ser capaces de mapear que el agt de buy sera el

rec de buy, y que src pasara a ser agt, debiendo mantenerse el contenido

de obj igual en ambos grafos), pero se deja planteado como trabajo futuro.


4.3.6.2. Similaridad semantica con varios verbos

El siguiente (extraıdo de [9]) es un ejemplo con frases que incluyen varios

verbos (y por tanto varios subgrafos).

Figura 4.11: Grafo de la frase: “Me comento que no pensaba participar en elconcurso.”

Figura 4.12: Grafo de la frase: “Me dijo que pensaba participar en el concurso.”

1. De nuevo, ambas @entry son verbos, por lo que esta comparacion seguira

los pasos del Caso 1.

2. Los dos @entry, say y tell, son icl>do, pasamos pues al siguiente punto.

3. Es el momento de aplicar la medida de similaridad desarrollada para el

modelo:

UW1: say(icl>express>do, equ>state, agt>thing, obj>thing),

UW2: tell(icl>express>do, equ>state, agt>thing, obj>thing)

simicl(UW1, UW2) = 1,5, pues ambos tienen express en su jerarquıa.


simrel(UW1, UW2) = 1

simequ(UW1, UW2) = 1, pues la sinonimia es bidireccional.

sim(UW1, UW2) = 1,5 · (1) · 1 = 1,5, luego son sinonimos.

4. Ahora que sabemos que son sinonimos, falta ver si existen atributos obli-

gatorios y, en tal caso, si los comparten. Ambos tienen el mismo atributo

temporal (@past), por lo que expresan exactamente lo mismo.

5. En el siguiente paso del modelo debemos comprobar las relaciones basicas.

La primera sera agt, que vemos que en ambos casos es la misma UW.

Despues miramos obj, que es un verbo (es decir, que estamos ante una

oracion subordinada), nucleo de su propio subgrafo (en las Figura 4.13 se

ilustran los subgrafos de la oracion para facilitar el seguimiento del proceso).

Volvemos a iniciar por tanto el proceso de comparacion del Caso 1 tratando

al verbo como si fuese la @entry del subgrafo (el 1 segun la nomenclatura

en la Figura 4.13):

a) Lo primero sera ver si los verbos son del mismo tipo y si son sinoni-

mos. Dado que son la misma UW (intend(icl>will>do, agt>thing,

obj>thing)), es evidente que sı. Miramos ahora los atributos. Ambos

tienen el mismo atributo temporal (@past), pero uno de ellos tiene

@not y el otro no, por lo que no expresan lo mismo. No obstante, no

podemos descartar la parafrasis, pues puede que alguna de las relacio-

nes de este verbo contengan la antonimia que compense la negacion

(podrıamos encontrar por ejemplo una relacion de comparacion BAS).

b) Miremos ahora las relaciones: en ambos grafos el verbo comparte el

mismo agt (he(icl>thing)) y el mismo obj, que de nuevo es un

verbo, por lo que comenzamos otra vez el proceso de comparacion

entre subgrafos con nucleos verbales, tomando participate(icl>do,

equ>enter, agt>thing) como @entry.

1) Dado que son la misma UW y que tienen los mismos atributos,

participate(icl>do, equ>enter, agt>thing) quieren decir lo

mismo. Miramos a continuacion las relaciones.

2) Tambien coincide el obj (contest(icl>competition>thing)),

siendo la misma UW con los mismos atributos (@def ).


3) El siguiente paso es mirar los modificadores. Existe en ambos un

modificador del verbo de lugar (PLC), con el mismo contenido.

Concluimos por tanto que este subgrafo (el 2 en la Figura 4.13)

dice exactamente lo mismo.

Una vez comprobadas ambas relaciones y visto que contienen exacta-

mente la misma informacion pero no contiene la relacion BAS, no existe

nada que pueda compensar el atributo @not que encontrabamos en el

verbo. Por tanto, en el subgrafo 1 negamos la parafrasis.

Aunque la equivalencia en la relacion rec que nos quedaba por mirar se

cumple (en ambos casos es la UW i(icl>thing)), dado que la relacion obj

(el subgrafo 1) de ambos @entry no se corresponde, negamos la existencia

de la parafrasis.

Figura 4.13: Subgrafos en el proceso de comparacion entre dos oraciones. Conside-raremos el subgrafo 1 el mayor y de color mas claro, siendo por tanto el subgrafo2 el menor y de tonalidad mas oscura.


4.3.6.3. Caso de comparacion

Por ultimo, veamos uno de los casos especiales expuesto en la Seccion 4.3.2.3,

la comparacion, con un ejemplo parecido al expuesto en [9].

Figura 4.14: Grafo de la frase: “Las ciudades del norte son mas ricas que lasciudades del sur.”. Las expresiones tipo :01 y :02 responden a notacion internade UNL y sirven para distinguir la aparicion repetida de una misma UW endistintas partes del grafo, ya que pueden tener distintos atributos, por ejemplo(no afectara para la comparacion).

Figura 4.15: Grafo de la frase: “Las ciudades del sur son mas pobres que lasciudades del norte.”

Comenzamos como siempre por el @entry de las oraciones. Ambos son del

mismo tipo y son de hecho la misma UW, be(icl>be,aoj>thing,obj>thing),

por lo que son sinonimos. Faltarıa solo mirar los atributos; en ambos grafos tie-

nen @present como unico atributo obligatorio, con lo que pasamos a mirar las

relaciones.


Las relaciones basicas argumentales de los verbos tipo icl>be son aoj y obj,

ası que pasamos a examinarlas. Lo primero que nos encontramos con dos aoj.

Esto solo puede significar que nos encontramos ante un caso de comparacion, por

lo que pasamos a enfocarlo como tal, siguiendo lo explicado en la Seccion 4.3.2.3.

Recordemos que tenıamos varios posibles casos de parafrasis y una estructura

(expuesta en la Figura 4.6). Miraremos uno por uno si se cumple alguno de ellos:

1. Negacion del verbo e intercambio de conceptos: en ambas oraciones el verbo

estaba sin negar, ası que no puede ser este caso.

2. Intercambio de conceptos y usar una caracterıstica antonima. Este caso sı es

posible en nuestro ejemplo, ası que comenzamos la comprobacion. Primero

miramos el obj. Son distintas palabras universales, ası que procedemos a

aplicar la medida de similaridad.

UW1: rich(icl>adj, ant>poor),

UW2: poor(icl>adj, ant>rich)


simrel(UW1, UW2) = 1, pues no tienen restricciones en este aspecto.

simant(UW1, UW2) = 1, pues la antonimia es bidireccional.

sim(UW1, UW2) = 1 · (1) · 1 = 1, luego son antonimos.

Miramos ahora la correspondencia entre los atributos obligatorios (en am-

bas @pl) y las relaciones que salen de nuestra caracterıstica (pues podrıa

ser tambien un subgrafo, por ejemplo “descaradamente rico”, y serıa nece-

sario comprobar que no modifican la antonimia y que se corresponden en

ambos). Visto que la unica relacion saliente es la del comparativo (que es

la misma UW), se cumple la antonimia, y solo nos queda por ver si los con-

ceptos se intercambian. Siguiendo la relacion saliente BAS del comparativo

encontramos el concepto 2, unido tambien al @entry por la relacion aoj.

Comparemos entonces el concepto 2 del grafo 1 con el concepto 1 del grafo

2, y viceversa:

concepto 2 - grafo 1 VS concepto 1 - grafo 2 : segun el proceso de identi-

ficacion de subgrafos, miramos si el nucleo del subgrafo es una entidad.

No lo es, ası que pasamos a ver si hay una relacion de similaridad segun

nuestra medida. Vemos que es la misma UW city(icl>administrati

ve district>thing,equ>town, y con los mismos atributos obligato-

rios, @def y @pl. Debemos ahora si tambien se corresponden los modifi-


cadores; el unico que encontramos en cada grafo es un MOD con la misma

UW y mismos atributos, south(icl>cardinal compass point>thing)

y @def, sin modificadores propios, ası que podemos concluir que el

nucleo es el mismo y con los mismos modificadores, por lo que conclui-

mos que ambos subgrafos expresan lo mismo.

concepto 1 - grafo 2 VS concepto 2 - grafo 1: seguimos el mismo proceso

y vemos que tambien se corresponden.

Se da por tanto el caso de comparacion de antonimia e intercambio de

conceptos, por lo que pasamos al siguiente punto del algoritmo para el Caso

1, la comprobacion de modificadores. Al no haberla, el modelo concluye que

hay parafrasis.

Posibles variaciones

Algunas posibles variantes sobre el mismo grafo:

Modificadores dentro de subgrafos: si por ejemplo en una de las frases

hubiesemos encontrado “ciudades del este”, o simplemente “ciudades”, no

se hubiese dado la parafrasis.

Modificadores oracionales: si hubiesemos anadido informacion del tipo

“Las ciudades del sur son habitualmente mas pobres que las ciudades del

norte.”, tendrıamos que haber seguido comparando despues de establecer

la correspondencia.

Sinonimos: el concepto no tiene por que ser igual, tambien se hubiese

dado la parafrasis en el caso de que en un grafo el concepto fuese “ciudad

del norte” y en el otro “poblacion del norte”.

4.4. Resumen final sobre el modelo

En el presente capıtulo hemos presentado el modelo desarrollado para la tesis,

desglosando los distintos componentes que lo conforman por separado. A conti-

nuacion se expone un breve repaso de estos elementos:


La jerarquıa de relaciones, donde se agrupan las relaciones UNL por el

tipo de informacion que expresan y se relacionan entre sı respondiendo a

cuales de ellas pueden contener la misma informacion en caso de parafrasis.

Mapeos y correspondencias entre distintos tipos de verbos, grafos no

verbales y algunos casos especiales de relaciones en UNL (comparacion,

superlatividad y coordinacion).

Una seleccion de los atributos que deben coincidir para que se de la

parafrasis.

Una medida de similaridad creada para estudiar la sinonimia y la an-

tonimia entre UWs.

El algoritmo de comparacion entre grafos, junto con los pasos para la

identificacion de los subgrafos con nucleo no verbal.

Finalmente, se han expuesto algunos ejemplos de como actuarıa en frases

sencillas, semanticamente muy parecidas, con y sin parafrasis. En el siguiente

capıtulo veremos un caso de aplicacion practica a un documento completo, con

oraciones mucho mas complejas.

Capıtulo 5

Experimentacion y resultados

5.1. Implementacion

Para la validacion formal del modelo se ha implementado una version parcial

del mismo (que no incluye los casos en los que se usan recursos externos al modelo

ni la base de datos de las todas las UWs existentes o la comparacion de cadenas de

caracteres) en Java. Esta implementacion, al no depender de recursos externos,

funciona de manera independiente y requiere solo los grafos UNL a comparar,

ya que unicamente usa la informacion contenida en los mismos. Esta implemen-

tacion permite procesar los grafos UNL y efectuar la deteccion de la parafrasis,

devolviendo paso a paso las distintas etapas del algoritmo y el resultado final. A

grandes rasgos, esta implementacion se compone de cuatro clases:

Una para las UWs, que incorpora la medida de similaridad desarrollada

y el tratamiento de los atributos (si son obligatorios o no, si una UW es

@entry, etc).

Otra para el procesamiento de las relaciones dentro del grafo.

Una tercera clase para la lectura de los grafos.

Una ultima clase, mas compleja, para el modelo, que incluye la identifi-

cacion del caso, el algoritmo (implementado de forma recursiva a traves de

los distintos nucleos de los subgrafos) y el proceso de comparacion de los

distintos subgrafos.

135

Capıtulo 5. Experimentacion y resultados 136

5.2. Validacion

Como ya se comento en el apartado correspondiente de la definicion del trabajo

(Seccion 3.6), para la validacion se ha usado un documento ajeno elegido por un

linguista, a quien tambien se le ha solicitado que introduzca cambios (distintas

palabras, negaciones...) para modificar el significado del mismo. El texto original

y su version modificada se muestran a continuacion:

Texto original

Los espanoles no confıan en que los Gobiernos esten usando bien sus datos

Los ciudadanos afirman que no saben ni quien, ni donde, esta capturando y alma-

cenando sus datos. Es decir, solo el 33 % de los espanoles cree que los Gobiernos

respetan la privacidad y el 22 % sostiene que confıan en que lo esten haciendo

las empresas. Ademas, cuando aumenta la edad y baja el nivel de instruccion

disminuye drasticamente las ventajas percibidas sobre el Big Data.

Texto modificado

Los espanoles no confıan en que los Gobiernos no esten usando bien sus datos

Los ciudadanos niegan que no saben ni quien, ni donde, esta capturando y alma-


respetan la privacidad y el 22 % sostiene que confıan en que no lo esten haciendo

las empresas. Ademas, cuando disminuye la edad y aumenta el nivel de instruccion

aumenta drasticamente las ventajas percibidas sobre el Big Data.

Aplicaremos ahora la implementacion realizada del modelo de comparacion

desarrollado sobre las cuatro frases del texto original y sus correspondientes en

la version modificada para ver si ambos textos dicen lo mismo. Por cuestiones de

legibilidad, los resultados del algoritmo se muestran en el Anexo C.

Aunque para validar el funcionamiento del modelo vamos a mirar todas las frases

por orden, cabe destacar que no es necesario hacerlo ası, pues hallar una diferencia

ya implicarıa que ambos textos son distintos, por lo que a la primera discrepancia

podrıamos parar la comparacion sin necesidad de revisar mas oraciones. Ademas,


el orden no es relevante, y una posible opcion para intentar tardar el mınimo

tiempo posible en la comprobacion serıa por ejemplo buscar primero entidades

y corroborar si las frases en las que aparecen se corresponden; si no lo hacen, se

descartarıa la parafrasis.

5.2.1. Tıtulo

Las frases a comparar son las siguientes, expuestas tambien en forma de grafo

UNL:

Figura 5.1: Verificacion: Grafo del tıtulo del texto original. “Los espanoles noconfıan en que los Gobiernos esten usando bien sus datos”

Figura 5.2: Verificacion: Grafo del tıtulo del texto modificado. “Los espanoles noconfıan en que los Gobiernos no esten usando bien sus datos”

Es evidente que estas dos frases no expresan lo mismo. El cambio viene dado

por una negacion en la relacion obj, el nucleo del primer subgrafo, por lo que

sera en ese punto en el que el algoritmo decidira que no hay parafrasis (despues

de detectar internamente que no se trata de un caso especial, como podrıa ser

por ejemplo la comparacion). El resultado arrojado por la implementacion del


modelo es por tanto que no hay parafrasis, pues como podemos ver en la Figura

C.1, el algoritmo detecta la negacion y niega en consecuencia la existencia de la

parafrasis.

5.2.2. Oracion 1

Los grafos de la primera oracion del texto y su version modificada son los

siguientes:

Figura 5.3: Verificacion: Grafo de la oracion 1 del texto original. “Los ciudadanosafirman que no saben ni quien, ni donde, esta capturando y almacenando susdatos”

Figura 5.4: Verificacion: Grafo de la oracion 1 del texto modificado. “Los ciuda-danos niegan que no saben ni quien, ni donde, esta capturando y almacenandosus datos”

Estas dos oraciones tampoco dicen lo mismo. El modelo devuelve el como re-


sultado que no hay parafrasis al no encontrar similaridad entre los verbos de las

oraciones (es un caso que requerirıa de marcos semanticos, pues “afirmar A(obj)”

equivale a nivel logico a “negarA.@not(obj)”), como podemos ver en la Figura

C.2.

Aunque el resultado es correcto (pues no hay parafrasis), vemos que ha sido

propiciado por la limitacion impuesta sobre los marcos semanticos. No obstan-

te, como ya hemos comentado, es preferible que no detecte los marcos y rechace

la parafrasis a que la diese por valida no existiendo, por lo que dentro de las

limitacion prefijadas del modelo el resultado es correcto.

5.2.3. Oracion 2

Dado que la siguiente oracion y su correspondiente modificacion son particu-

larmente complejas en lo referente a cantidad de verbos, los grafos son excesiva-

mente extensos, por lo que no los adjuntamos como imagen:

Es decir, solo el 33 % de los espanoles cree que los Gobiernos respetan la pri-

vacidad y el 22 % sostiene que confıan en que lo esten haciendo las empresas.

Es decir, solo el 33 % de los espanoles cree que los Gobiernos respetan la pri-

vacidad y el 22 % sostiene que confıan en que no lo esten haciendo las empresas.

Como vemos en el resultado (ver la Figura C.3), tampoco estas dos frases di-

cen lo mismo, pues se ha introducido un no que cambia el final de la frase. Este

es un buen ejemplo de como el algoritmo se va introduciendo recursivamente

en los distintos subgrafos, comprobando la similaridad hasta que descubre algun

punto conflictivo, momento en el que va devolviendo este descubrimiento a los

subgrafos que contienen esta la discrepancia y que han ido llamandole.

5.2.4. Oracion 3

Por ultimo, las terceras oraciones (cuyos grafos se muestran a continuacion)

sı mantienen una relacion de parafrasis, ya que el hecho de que al darse ciertas

condiciones en una funcion estadıstica aumente un resultado implica que de darse


las contrarias bajara. No obstante, esto pertenece a la logica y nuestro modelo no

tiene por que detectarlo.

Figura 5.5: Verificacion: Grafo de la oracion 3 del texto original. “Ademas, cuan-do aumenta la edad y baja el nivel de instruccion disminuye drasticamente lasventajas percibidas sobre el Big Data.”

Figura 5.6: Verificacion: Grafo de la oracion 3 del texto modificado. “Ademas,cuando disminuye la edad y aumenta el nivel de instruccion aumenta drastica-mente las ventajas percibidas sobre el Big Data”

En el resultado (Figura C.4) vemos como la medida de similitud identifica

cierta relacion en las restricciones de los verbos aumentar y disminuir, por lo que

considera que pertenecen al mismo marco semantico y devuelve que puede existir

parafrasis (como es efectivamente el caso).


5.3. Conclusiones sobre la validacion

En el proceso de comparacion de los textos hemos comprobado como el mo-

delo es capaz de detectar cambios en el contenido, ya sea por falta de sinonimia o

por la introduccion de diferentes modificadores. Ademas, podemos observar que

en los casos en que la posible parafrasis viene dada por fenomenos no contem-

plados en esta tesis (como los marcos semanticos), el modelo devolvera que la

parafrasis puede existir si es capaz de detectar cierto marco semantico comun

(como es el caso de la ultima oracion), o que no existe si no encuentra dicha

relacion (como ocurre en la primera oracion), lo que se corresponde con lo desea-

do: si no se puede verificar, mejor negar o decir que puede existir la parafrasis.

Concluimos por tanto que el modelo funciona correctamente en el texto analizado.

Por ultimo, para testar el correcto comportamiento del modelo en otros casos

de posible parafrasis no presentes en el texto, se adjuntan otros casos de prueba

usados para la validacion de la implementacion en el Anexo D.

Capıtulo 6

Conclusiones y futuros caminos

El modelo presentado en esta tesis ofrece una solucion al problema de la

parafrasis linguıstica. En el Estado del Arte hemos visto como algo tan basico

como la propia definicion del concepto de parafrasis no esta completamente es-

tandarizado, y distintos autores ofrecen diferentes tolerancias a lo que es o no el

mismo significado; ademas, existen multitud de maneras de expresar la misma

informacion en cada lengua, por lo que la parafrasis en un idioma no tiene por

que serlo en otro. Es por ello que hemos limitado el alcance de nuestro modelo

a los casos mas comunes e independientes de la lengua. Cabe destacar, ademas,

que las propuestas existentes suelen ser funcionar solo para una lengua, y aun-

que el procedimiento sea en ocasiones aplicable a corpus de distintos idiomas o

se use alguna lengua pivote intermedia en el proceso, estos modelos no podran

comparar frases en cualquier idioma, caso que sı contempla nuestro modelo. Pre-

sentamos por tanto el que es que hasta la fecha (y hasta donde sabemos) el primer

modelo de deteccion de parafrasis interlingual existente, si bien este modelo su-

fre aun de ciertas limitaciones que se espera eliminar en una futura tesis doctoral.

Pasamos a continuacion a enumerar las contribuciones del trabajo realizado, ası

como las lıneas futuras de investigacion a las que da pie (y que se planea abordar

en la tesis doctoral derivada de esta tesis de master).

6.1. Contribuciones

Las principales contribuciones de la presente tesis de cara a investigacion

futura en el ambito de la parafrasis son las siguientes:

142

Capıtulo 6. Conclusiones y futuros caminos 143

La redaccion de un extenso Estado del Arte relativo tanto a la parafrasis

como a dos areas fundamentales relacionadas con la misma: los sistemas de

representacion del conocimiento y el concepto de similaridad.

Definicion de un modelo de comparacion y deteccion de parafrasis

entre dos oraciones expresadas como grafos UNL, tarea que ha llevado a

la creacion de una jerarquıa de relaciones UNL organizadas en funcion

de la informacion que contienen y a la seleccion de los atributos UNL

imprescindibles para que se de la parafrasis entre dos oraciones. Este mo-

delo ha sido tambien parcialmente implementado para verificar el correcto

funcionamiento del algoritmo que propone, en combinacion con los distintos

elementos desarrollados que lo componen.

Definicion de una distancia semantica sobre palabras universales de

UNL, la primera de la que se tiene conocimiento, para suplir la carencia

de una ontologıa UNL.

Construccion de un repositorio de casos de parafrasis (tanto originales

como recopilados de distintos artıculos sobre la parafrasis) de cara a la

continuacion de la investigacion en una futura tesis doctoral, para la cual se

han esbozado ademas los principales obstaculos a superar y algunos posibles

caminos a seguir, que se exponen en la siguiente seccion.

6.2. Futuras lıneas a seguir

De cara a la continuacion del tema presentado, estos son algunos de los posibles

caminos que se plantean:

Creacion de un corpus mayor de oraciones con y sin parafrasis en formato

de grafo UNL para una mayor y mas exhaustiva verificacion del modelo y

su implementacion.

Ampliacion del funcionamiento del modelo. Algunas ideas que se barajan

son:

• Buscar mas casos de parafrasis y otros posibles vınculos entre las re-

laciones y los atributos.


• Reforzar las equivalencias entre las relaciones por medio de pesos cuan-

titativos y patrones concretos, como por ejemplo el uso de palabras

clave, como ciertos verbos (la relacion INS y MOD puede verse reforzada

en caso de aparecer verbos como emplear, utilizar o usar).

• Subordinar la similaridad entre ciertas palabras a la presencia de cier-

tos modificadores que complementen (positiva o negativamente) dicha

similaridad (como ocurre en tomar o comer algo de cena, que equivale

a cenar), creando patrones para las distintas expresiones.

• Ampliar el alcance de las entidades: actualmente solo contemplamos

nombres propios o numeros ya clasificados como tal en UNL gracias a

la restriccion iof; no obstante, podemos encontrar entidades no clasi-

ficadas, como serıa el caso de “la Universidad Politecnica de Madrid”.

Podrıan usarse para identificar estos casos los patrones linguısticos

sobre grafos UNL desarrollados en una tesis doctoral de este mismo

ano [24], ideados para el Ontology Learning pero aplicables tambien

en este contexto, o alguna tecnica de expansion de consultas como las

expuestas en el Estado del Arte adaptandola a UNL.

Profundizacion e incorporacion de algunos de los fenomenos relacionados,

como el ya mencionado textual entailment y la logica (para lo que necesi-

tarıamos adaptar recursos externos a UNL o crear algunos nuevos). Otro

fenomeno importante a nivel de documentos completos es el tratamiento de

la correferencia, ya tratado en UNL en [24] y cuyo enfoque podrıa adaptarse

tambien al tratamiento de la parafrasis en UNL.

El tratamiento de los marcos semanticos tambien ofrece una interesante

lınea de investigacion a seguir. La creacion de marcos en forma de plan-

tillas del tipo “A(agt) buy B(obj) C(src) = C(agt) sell B(obj) A(rec)”

nos permitirıa tratar algunas de las parafrasis que en nuestro caso no se

corroboran (ver el ultimo caso de los ejemplos de validacion del Anexo D).

Otra limitacion que serıa interesante eliminar es la de la correspondencia

frase a frase, permitiendo por ejemplo la segmentacion de una oracion en

dos (para este caso serıa imprescindible abordar el tratamiento de la corre-

ferencia comentado en lıneas anteriores).

Una de las principales carencias que hemos sufrido en este trabajo es la


falta de una ontologıa UNL. Aunque no se ha llevado a cabo por la falta de

tiempo, se considera que podrıa crearse una automaticamente teniendo en

cuenta las mismas consideraciones contempladas en la medida de similari-

dad, permitiendo ademas que esta fuese mas rapida (pues no serıa necesario

ir concatenando equivalencias y antonimias). La necesidad de una posterior

revision manual del resultado ha impedido realizarla en el plazo de esta

Tesis de Fin de Master, pero se perfila como una de las primeras tareas a

abordar en el futuro.

Por ultimo, dada la magnitud del trabajo a llevar a cabo, se plantea para

la continuacion del trabajo la limitacion del modelo a un area determinada (se

esta considerando concretamente la validacion de contratos), lo que permitirıa

una correcta y exhaustiva creacion de todos los recursos necesarios (plantillas,

marcos...) dentro de un ambito controlado (serıa inabordable crear todos estos

recursos de cero para absolutamente cualquier contexto). Esto, en combinacion

con la consecucion de las lıneas anteriores, darıa lugar a un modelo completo de

deteccion de la parafrasis a nivel interlingual, con todas las ventajas y posibili-

dades que esto implica y con el rigor que permitirıa la independencia de recursos

externos.

Anexo A

Relaciones UNL

Relacion UNL Descripcion

agt agent a thing which initiates an action

and conjunction a conjunctive relation between concepts

aojthing with attribu-

tea thing which is in a state or has an attribute

apn concatenation

bas basisa thing used as the basis(standard) for expres-

sing degree

ben beneficiarya not directly related beneficiary or victim of an

event or state

cnt content an equivalent concept

cob affected co-thing

a thing which is directly affected by an implicit

event done in parallel or an implicit state in

parallel

con conditiona non-focused event or state which conditioned

a focused event or state

coo co-occurrencea co-occurred event or state for a focused event

or state

dur durationa period of time during an event occurs or a

state exists

fmt range a range between two things

frm origin an origin of a thing

146

Anexo A. Relaciones UNL 147

gol goal/final statethe final state of object or the thing finally as-

sociated with object of an event

ins instrument the instrument to carry out an event

man mannerthe way to carry out event or characteristics of

a state

met method a means to carry out an event

mod modification a thing which restrict a focused thing

nam name a name of a thing

obj affected thinga thing in focus which is directly affected by an

event or state

or disjunction disjunctive relation between two concepts

perproportion, rate or

distributiona basis or unit of proportion, rate or distribution

plc placethe place an event occurs or a state is true or a

thing exists

plf initial placethe place an event begins or a state becomes

true

plt final place the place an event ends or a state becomes false

pof part-of a concept of which a focused thing is a part

pos possessor the possessor of a thing

ptn partneran indispensable non-focused initiator of an ac-

tion

purpurpose or objecti-

ve

the purpose or an objective of an agent of an

event or a purpose of a thing which exist

qua quantity a quantity of a thing or unit

rec recipient a participant that recieves something

rsn reason a reason that an event or a state happens

scn scenea virtual world where an event occurs or state

is true or a thing exists

seq sequence a prior event or state of a focused event or state

src source/initial statethe initial state of an object or thing initially

associated with the object of an event

tim time the time an event occurs or a state is true

Anexo A. Relaciones UNL 148

tmf initial time the time an event starts or a state becomes true

tmt final time the time an event ends or a state becomes false

val value describes the value of a parameter

viaintermediate place

or statean intermediate place or state of an event

Tabla A.1: Atributos de UNL, version actualizada de los originales de [121].

Anexo B

Atributos UNL

Time

@past happened in the past

ex) He went there yesterday.

ex) It was snowing yesterday

@present happening at present

ex) It’s raining hard.

@future will happen in future

ex) He will arrive tomorrow

Speaker’s view of Aspect

@begin beginning of an event or a state

ex) It began to work again.

@complete finishing/completion of a (whole) event.

ex) I’ve looked through the script

@continue continuation of an event

ex) He went on talking.

@custom customary or repetitious action

ex) I used to visit [I would often go] there when I was a

boy

@end end/termination of an event or a state

ex) I have done it.

@experience Experience

ex) Have you ever visited Japan?

ex) I have been there.

149

Anexo B. Atributos UNL 150

@experience Experience

ex) Have you ever visited Japan?

ex) I have been there.

@progress an event is in progress

ex) I am working now.

@repeat repetition of an event

ex) He is jumping.

@state final state or the existence of the object on which an

action has been taken

ex) It is broken.

@just ex) He has just come.

@soon ex) The train is about to leave.

@yet feeling of not yet begin or end/complete

ex) I have not yet done it.

Speaker’s view of Reference

@generic generic concept

@def already referred

@indef non-specific class

@not complement set

@ordinal ordinal number

Speaker’s Focus

@emphasis Emphasis

ex) “I do like it”

@entry Entry point or main UW of whole UNL expressions or

in a hyper (scope) node

@qfocus The focused UW of a question

@theme Instantiates an object from different class

@title Title

@topic The topic UW of a sentence

Speaker’s attitudes

@confirmation Confirmation

ex) “You won’t say that, will you?”

ex) “sou desu ne?” (In Japanese)


@exclamation Feeling of exclamation

ex) “kirei na!”(“How beautiful (it is)!”In Japanese)

ex) “Oh!, look out!”, “Ow!”

@imperative Imperative

ex) “Get up!”

ex) “You will please leave the room.”

@interrogative Interrogation

ex) “Who is it?”

@invitation Inducement to do something

ex) “Will / Won’t you have some tea?”

ex) “Let’s go, shall we?”

@polite Polite feeling

ex) “Could you (please)...”

ex) “If you could . . . I would . . . ”

@request Request

ex) “ please don’t forget (@request)

@respect Respectful feeling

ex) “o taku(@respect)”(“(your) house” in Japanese)

ex) “Good morning(@respect), sir.”

@vocative Vocative

ex) “Boys(@vocative), be ambitious!”

Speaker’s view point

@ability ability, capability of doing things

ex) He can speak English but he can’t write it very well.

@admire express speaker’s admiration

@although ex) Quit smoking but he still smoke

@apodosis-real apodosis: reality in the first person

ex) We should (would) love to go abroad if we had the

chance

@apodosis-unreal apodosis: A supposed result from a supposition contrary

to reality

ex) If we had more money, we could buy a car.

@apodosis-cond apodosis: A supposed result from an assumed condition

ex) He would smoke too much if I did not stop him


@ask-back ask back

@conclusion ex) He is her husband ; she is his wife.

@doubt have doubt

@expectation expectation to other’s

ex) He’ll help you if you ask him. Will you have another

cup of coffee? Will you (please, kindly, etc.) open the

window? Would you excuse me ?

@grant to give consent to do

ex) Can I smoke in here? Could I smoke in here ? You

may borrow my car if you like.

@grant-not to not give consent to ex ) You mustn’t/are not allowed

to/may not borrow my car.

@induce induce to do

@inevitability supposition that something is inevitable

ex) They should be home by now. The game will (must

/ should) be finished by now. Oil will float (floats) on

water. He’ll (always) talk for hours if you give him the

chance. There must be a mistake. Mustn’t there be anot-

her reason for his behavior? They ought to be here by

now.

@insistence strong will to do

ex) You shall do as I say. He shall be punished. It’s your

own fault; you would take the baby with you.

@intention will, intention to do

ex) He shall get this money. You shall do exactly as you

wish. I’ll write as soon I as can.. We won’t stay longer

than two hours. He will do it, whatever you say. He will

keep interrupting me.

@may supposition of actual possibility

ex ) We could go to the concert. The road may be bloc-

ked. We might go to the concert. What you say might

be true.


@obligation to oblige someone

ex) The vendor shall maintain the equipment in good

repair.

@obligation-not forbid to do

ex) You must be back by 10 o’clock. Yesterday you had

to be back by 10 o’clock. Yesterday you said you must

had to be back by 10 o’clock. You needn’t/don’t have

to/are not obliged to be back by 10 o’clock.

@possibility assume reasonable possibility

ex ) Anybody can make mistakes. The road can be bloc-

ked. The road could be blocked.

@probability assume probability

ex) That would be his mother.

@regret feel sorry

@should to feel duty

ex) You should do as he says.

@unexpected-

presumption

presumption contrary to a wish or expectation

ex) It is odd that you should say this to me. I am sorry

that this should have happened.

@unexpected-

consequence

consequence contrary to a wish or expectation

ex) I made a draft, but it still needs another work.

@will will to do

ex) I shall not be long. We shall let you know our deci-

sion. We shall overcome.

UNL Convention

@pl Plural

@angle bracket <> is used

@double parenthesis (( )) is used

@double quotation “ ” is used

@parenthesis ( ) is used

@single quotation ‘ ’ is used

@square bracket [ ] is used

Tabla B.1: Relaciones conceptuales de UNL segun [121].

Anexo C

Validacion del documento

Los resultados de la validacion del texto devueltos por la implementacion se

exponen a continuacion:

Texto original

Los espanoles no confıan en que los Gobiernos esten usando bien sus datos

Los ciudadanos afirman que no saben ni quien, ni donde, esta capturando y alma-


respetan la privacidad y el 22 % sostiene que confıan en que lo esten haciendo

las empresas. Ademas, cuando aumenta la edad y baja el nivel de instruccion

disminuye drasticamente las ventajas percibidas sobre el Big Data.

Texto modificado

Los espanoles no confıan en que los Gobiernos no esten usando bien sus datos

Los ciudadanos niegan que no saben ni quien, ni donde, esta capturando y alma-


respetan la privacidad y el 22 % sostiene que confıan en que no lo esten haciendo

las empresas. Ademas, cuando disminuye la edad y aumenta el nivel de instruccion

aumenta drasticamente las ventajas percibidas sobre el Big Data.

154

An

exoC

.V

alidaciondel

docum

ento

155

run:

Caso 1: (dos @entry verbales)

---------------------------------------

Comparación de subgrafo verbal con núcleos: trust[@present, @not, @entry] y trust[@present, @not, @entry]

---------------------------------------

Sinonimia correcta entre: trust[@present, @not, @entry] y trust[@present, @not, @entry]

PASO 1: comparación de relaciones básicas de: trust[@present, @not, @entry] y trust[@present, @not, @entry]

Comprobación de la relación obj:

---------------------------------------

Comparación de subgrafo verbal con núcleos: use[@progress, @present] y use[@not, @progress, @present]

---------------------------------------

Sinonimia correcta entre: use[@progress, @present] y use[@not, @progress, @present]

Detectada negación unilateral entre use[@progress, @present] y use[@not, @progress, @present]

No se cumple una relación obligatoria: obj

-----------------------------

RESULTADO: NO HAY PARÁFRASIS

-----------------------------

Figura C.1: Resultado de la verificacion del tıtulo del texto: NO HAY PARAFRASIS

An

exoC

.V

alidaciondel

docum

ento

156

run: Caso 1: (dos @entry verbales) --------------------------------------- Comparación de subgrafo verbal con núcleos: affirm[@present, @entry] y deny[@present, @entry] --------------------------------------- Miramos los marcos Según los marcos, NO HAY PARÁFRASIS ----------------------------- RESULTADO: NO HAY PARÁFRASIS -----------------------------

Figura C.2: Resultado de la verificacion de la primera oracion del texto: NO HAY PARAFRASIS

An

exoC

.V

alidaciondel

docum

ento

157

run:

Caso 1: (dos @entry verbales)

---------------------------------------

Comparación de subgrafo verbal con núcleos: hold[@present, @entry] y hold[@present, @entry]

---------------------------------------

Sinonimia correcta entre: hold[@present, @entry] y hold[@present, @entry]

PASO 1: comparación de relaciones básicas de: hold[@present, @entry] y hold[@present, @entry]

Comprobación de la relación aoj:

---------------------------------------

Comparación de subgrafo nominal con núcleos: spanish:02[@pl, @def] y spanish:02[@pl, @def]

---------------------------------------

---------------------------------------

Comparación de subgrafo nominal con núcleos: percent:20[] y percent:20[]

---------------------------------------

---------------------------------------

Comparación de subgrafo nominal con núcleos: 22[] y 22[]

---------------------------------------

Todos los modificadores se corresponden en el subgrafo con núcleos: 22[] y 22[]

Todos los modificadores se corresponden en el subgrafo con núcleos: percent:20[] y percent:20[]

Todos los modificadores se corresponden en el subgrafo con núcleos: spanish:02[@pl, @def] y spanish:02[@pl, @def]

Comprobación de aoj OK


---------------------------------------

Comparación de subgrafo verbal con núcleos: trust[@present] y trust[@present]

---------------------------------------

Sinonimia correcta entre: trust[@present] y trust[@present]

PASO 1: comparación de relaciones básicas de: trust[@present] y trust[@present]


---------------------------------------

Comparación de subgrafo verbal con núcleos: do[@progress, @present] y do[@progress, @present, @not]

---------------------------------------

Sinonimia correcta entre: do[@progress, @present] y do[@progress, @present, @not]

Detectada negación unilateral entre do[@progress, @present] y do[@progress, @present, @not]



-----------------------------

RESULTADO: NO HAY PARÁFRASIS

-----------------------------

Figura C.3: Resultado de la verificacion de la segunda oracion del texto: NO HAY PARAFRASIS

An

exoC

.V

alidaciondel

docum

ento

158

run: Caso 1: (dos @entry verbales) --------------------------------------- Comparación de subgrafo verbal con núcleos: decrease[@present, @entry] y increase[@present, @entry] --------------------------------------- Miramos los marcos Según los marcos, PUEDE EXISTIR LA PARÁFRASIS ----------------------------- RESULTADO: PUEDE EXISTIR PARÁFRASIS -----------------------------

Figura C.4: Resultado de la verificacion de la tercera oracion del texto: PUEDE EXISTIR LA PARAFRASIS

Anexo D

Otros ejemplos de validacion

A continuacion se exponen algunas de las frases que se han usado para validar

la implementacion del modelo, incluidos casos que no respetan las limitaciones

impuestas para el modelo, junto con el resultado arrojado por la implementacion:

Frases Resultado

¿Cual es la ciudad mas grande de la India?

¿Cual es la ciudad menos pequena de la India?SI (SI)


¿Cual es la ciudad mas grande de Japon?NO (NO)


¿Cual es la ciudad menos grande de la India?NO (NO)


¿Cual es la ciudad mas pequena de la India?NO (NO)

¿Cual es la ciudad menos pequena de la India?

¿Cual es la ciudad menos grande de la India?NO (NO)

¿Cual es la ciudad menos pequena de la India?

¿Cual es la ciudad mas pequena de la India?NO (NO)

Honda abre en 1980.

Honda abre desde 1980.SI (SI)

Honda abre en 1980.

Honda abre en Japon.NO (NO)

Tom compro el Toyota y un Honda a John.

Tom compro un Honda y el Toyota a John.SI (SI)

159

Anexo D. Otros ejemplos de validacion 160

Tom compro el Toyota y un Honda a John.

Tom compro un Toyota y el Toyota a John.NO (NO)

Las ciudades del norte son mas ricas que las ciudades del sur.

Las ciudades del norte son menos ricas que las ciudades del sur.NO (NO)


Las ciudades del sur son menos ricas que las ciudades del norte.SI (SI)


Las ciudades del norte son menos pobres que las ciudades del sur.SI (SI)


Las ciudades del sur son menos pobres que las ciudades del norte.NO (NO)


Las ciudades del norte no son mas ricas que las ciudades del sur.NO (NO)


Las ciudades del norte no son mas pobres que las ciudades del sur.NO (SI)

Las ciudades del norte son tan ricas como las ciudades del sur.

Las ciudades del norte son tan rica como las ciudades del sur.NO (NO)

Tom compro un Honda a John.

Tom no compro un Honda a John.NO (NO)

Me dijo que pensaba participar en el concurso.

Me comento que pensaba participar en el concurso.SI (SI)

Me comento que pensaba participar en el concurso.

Me comento que no pensaba participar en el concurso.NO (NO)

Me dijo que pensaba participar en el concurso.

Me comento que no pensaba participar en el concurso.NO (NO)

La casa azul y blanca.

La casa blanca y azul.SI (SI)

Tom compro un Honda a John.

John vendio un Honda a Tom.NO (SI)

Tabla D.1: Algunos de las oraciones usadas para validar el modelo. En la primeracolumna encontramos las oraciones comparadas y en la segunda el resultado arro-jado por la implementacion, junto con el resultado considerado correcto (entreparentesis).

.

Bibliografıa

[1] Palakorn Achananuparp, Xiaohua Hu, y Xiajiong Shen. The Evaluation of

Sentence Similarity Measures. En Data warehousing and knowledge disco-

very, pags. 305–316. Springer, 2008.

[2] Maytham Alabbas y Allan Ramsay. Dependency Tree Matching with Exten-

ded Tree Edit Distance with Subtrees for Textual Entailment. En 2012 Fe-

derated Conference on Computer Science and Information Systems (FedC-

SIS), pags. 11–18. 2012.

[3] Sameh Alansary. Interlingua-based Machine Translation Systems : UNL

versus Other Interlinguas. 11th International Conference on Language En-

gineering, Ain Shams University, 2011.

[4] Boanerges Aleman-meza, Christian Halaschek-wiener, Satya Sanket Sahoo,

Amit Sheth, y I. Budak Arpinar. Template Based Semantic Similarity for

Security Applications. En Intelligence and Security Informatics, pags. 621–

622. 2005.

[5] Saif AlZahir, Qandeel Fatima, y Martin Cenek. New Graph-Based Text

Summarization Method. En 2015 IEEE Pacific Rim Conference on Com-

munications, Computers and Signal Processing (PACRIM), pags. 396–401.

2015.

[6] Ion Androutsopoulos y Prodromos Malakasiotis. A survey of paraphrasing

and textual entailment methods. Journal of Artificial Intelligence Research,

38:135–187, 2010.

[7] Ricardo Baeza-Yates y Berthier Ribeiro-Neto. Modern information retrie-

val. ACM press New York, 1999.

161

Bibliografıa 162

[8] Satanjeev Banerjee y Alon Lavie. METEOR: an automatic metric for MT

evaluation with improved correlation with human judgments. En Procee-

dings of Workshop on Intrinsic and Extrinsic Evaluation Measures for MT

and/or Summarization at the 43rd Annual Meeting of the Association of

Computational Linguistics (ACL-2005), June, pags. 65–72. 2005.

[9] Alberto Barron-Cedeno, Marta Vila, y Paolo Rosso. Deteccion automatica

de plagio : de la copia exacta a la parafrasis. (2007):1–19, 2010.

[10] Stephen Beale, Sergei Nirenburg, y Kavi Mahesh. Semantic analysis in

the Mikrokosmos machine translation project. En Proceedings of the 2nd

Symposium on Natural Language Processing, pags. 297–307. 1995.

[11] Ronald Brachman y Hector Levesque. Knowledge Representation and

Reasoning. Morgan Kaufmann Publishers Inc., 2004.

[12] Ronald J. Brachman. What’s in a concept: structural foundations for se-

mantic networks. International Journal of Man-Machine Studies, 9(2):127–

152, 1977.

[13] Alexander Budanitsky y Graeme Hirst. Evaluating WordNet-based Measu-

res of Lexical Semantic Relatedness. Computational Linguistics, 32(1):13–

47, 2006.

[14] Horst Bunke. On a relation between graph edit distance and maximum

common subgraph. Pattern Recognition Letters, 18(8):689–694, 1997.

[15] Jesus Cardenosa, Carolina Gallardo, y Miguel Angel de la Villa. Interlingual

information extraction as a solution for multilingual QA systems. En Pro-

ceedings of the 8th international conference on Flexible Query Answering

Systems, pags. 500–511. Springer-Verlag, 2009.

[16] Jesus Cardenosa, Carolina Gallardo, y Luis Iraola. Interlinguas : A classical

Approach for the Semantic Web. A Practical Case. En Mexican Interna-

tional Conference on Artificial Intelligence, pags. 932–942. Springer, 2006.

[17] Jesus Cardenosa, Carolina Gallardo, y Luis Iraola. UNL as a Text Content

Representation language for Information Extraction. En Proceedings of the

7th international conference on Flexible Query Answering Systems, pags.

507–518. Springer Berlin Heidelberg, 2006.

Bibliografıa 163

[18] Claudio Carpineto y Giovanni Romano. A Survey of Automatic Query

Expansion in Information Retrieval. ACM Computing Surveys, 44(1):1–50,

2012.

[19] Jackie Chi Kit Cheung. Distributional Semantics for Robust Automatic

Summarization. Tesis Doctoral, University of Toronto, 2014.

[20] Courtney Corley y Rada Mihalcea. Measuring the semantic similarity of

texts. Proceedings of the Association for Computational Linguistics Works-

hop on Empirical Modeling of Semantic Equivalence and Entailment, pags.

13–18, 2005.

[21] Madalina Croitoru, Sebastien Ferre, y Dickson Lukose. Conceptual Structu-

res: From Information to Intelligence, tomo 9 de Lecture Notes in Computer

Science. Springer Berlin Heidelberg, 2010.

[22] Krzysztof Czuba, Teruko Mitamura, y Eric Nyberg. Can Practical Interlin-

guas Be Used for Difficult Analysis Problems? En Proceedings of AMTA-98

Workshop on Interlinguas. 1998.

[23] Stefanescu Dan, Rajendra Banjade, y Vasile Rus. A Sentence Similarity

Method Based on Chunking and Information Content. En International

Conference on Intelligent Text Processing and Computational Linguistics,

pags. 442–453. Springer, 2014.

[24] Miguel Angel de la Villa. Metodo para la construccion automatica de on-

tologıas basado en patrones linguısticos. Tesis Doctoral, Universidad Po-

litecnica de Madrid, 2016.

[25] Michael Denkowski y Alon Lavie. Meteor Universal: Language Specific

Translation Evaluation for Any Target Language. En Proceedings of the

Ninth Workshop on Statistical Machine Translation, pags. 376–380. 2014.

[26] Mike Dillinger. Semantic Roles & Interlinguas. 2005.

[27] Bonnie J. Dorr. UNITRAN: An Interlingual Approach to Machine Trans-

lation. En AAAI-87 Proceedings, pags. 534–539. 1987.

[28] David Dowty. On the Semantic Content of the Notion of Thematic Role.

En Properties Types and Meaning, tomo 39, pags. 69–130. 1989.

Bibliografıa 164

[29] David Dowty. Thematic proto-roles and argument selection. Language,

67(3):547–619, 1991.

[30] Philip Edmonds y Graeme Hirst. Near-Synonymy and Lexical Choice.

Computational Linguistics, 28(2):105–144, 2002.

[31] Gunes Erkan y Dragomir R. Radev. LexRank: Graph-based lexical cen-

trality as salience in text summarization. Journal of Artificial Intelligence

Research, 22:457–479, 2004.

[32] David Farwell, Stephen Helmreich, Bonnie J. Dorr, et al. Interlingual an-

notation of multilingual text corpora. Proceedings of The North Ameri-

can Chapter of the Association for Computational Linguistics Workshop

on Frontiers in Corpus Annotation, pags. 55–62, 2004.

[33] Mirtha Lina Fernandez y Gabriel Valiente. A graph distance metric com-

bining maximum common subgraph and minimum common supergraph.

Pattern Recognition Letters, 22(6-7):753–758, 2001.

[34] Andrew Finch, Young-Sook Hwang, y Eiichiro Sumita. Using Machine

Translation Evaluation Techniques to Determine Sentence-level Semantic

Equivalence. En Proceedings of the Third International Workshop on Pa-

raphrasing (IWP 2005), pags. 17–24. 2005.

[35] Atsushi Fujita. Automatic Generation of Syntactically Well-formed and

Semantically Appropriate Paraphrases. Tesis Doctoral, Nara Institute of

Science and Technology (NAIST), 2005.

[36] Brian Gallagher. Matching Structure and Semantics : A Survey on Graph-

Based Pattern Matching. Technical Report FS-06-02, pags. 45–53, 2006.

[37] Xinbo Gao, Bing Xiao, Dacheng Tao, y Xuelong Li. A survey of graph edit

distance. Pattern Analysis and Applications, 13(1):113–129, 2010.

[38] Javier Garcıa Sogo. Medida de distancia semantica en grafos UNL. Tesis

de Master. Universidad Politecnica de Madrid. 2015.

[39] Alexander F. Gelbukh y Igor A. Bolshakov. The Meaning - Text Model :

Thirty Years After. En International Forum on Information and Documen-

tation, tomo 1, pags. 10–16. 2000.

Bibliografıa 165

[40] Asuncion Gomez-Perez, Mariano Fernandez-Lopez, y Oscar Corcho. On-

tological Engeenering: with examples from the areas of knowledge manage-

ment, e-commerce and the Semantic Web. 2004.

[41] Richard Wesley Hamming. Error Detecting and Error Correcting Codes.

Bell System Technical Journal, 29(2):147–160, 1950.

[42] Zellig Sabbettai Harris. Distributional Structure. Word, 10(2-3):146–162,

1954.

[43] Michael Heilman y Noah A. Smith. Tree edit models for recognizing textual

entailments, paraphrases, and answers to questions. En The 2010 Annual

Conference of the North American Chapter of the ACL, pags. 1011–1019.

2010.

[44] Jesus Herrera, Anselmo Penas, y Felisa Verdejo. Textual Entailment Recog-

nision Based on Dependency Analysis and WordNet. En Machine Learning

Challenges. Evaluating Predictive Uncertainty, Visual Object Classification,

and Recognising Tectual Entailment, pags. 231–239. 2006.

[45] Djoerd Hiemstra, Nicholas Kushmerick, Carlotta Domeniconi, et al. Light-

weight Ontologies. En Encyclopedia of Database Systems, pags. 1613–1619.

Springer US, Boston, MA, 2009.

[46] Graeme Hirst. Paraphrasing paraphrased. Invited talk at the Second In-

ternational Workshop on Paraphrasing. En 41st Annual Meeting of the

Association for Computational Linguistics. 2003.

[47] Graeme Hirst y David St-Onge. Lexical chains as representations of con-

text for the detection and correction of malapropisms. En WordNet - An

Electronic Lexical Database, pags. 305–332. 1998.

[48] ChukFong Ho, Masrah Azrifah Azmi Murad, Shyamala C. Doraisamy, y

Rabiah Abdul Kadir. Measuring sentence similarity from both the perspec-

tives of commonalities and differences. En Proceedings of the International

Conference on Tools with Artificial Intelligence, ICTAI, tomo 1, pags. 318–

322. 2010.

Bibliografıa 166

[49] Jay J. Jiang y David W. Conrath. Semantic Similarity Based on Corpus

Statistics and Lexical Taxonomy. Proceedings of International Conference

Research on Computational Linguistics, pags. 19–33, 1997.

[50] Simon Kasper. A comparison of thematic role theories. Tesis Doctoral,

2008.

[51] Kevin Knight y Steve K Luk. Building a Large-Scale Knowledge Base

for Machine Translation. En AAAI 94 Proceedings of the twelfth national

conference on Artificial Intelligence, tomo 94, pags. 773–778. 1994.

[52] Milen Kouylekov y Bernardo Magnini. Tree edit distance for recognizing

textual entailment: Estimating the cost of insertion. En Proceedings of the

PASCAL RTE-2 Challenge, pags. 68–73. 2006.

[53] Claudia Leacock y Martin Chodorow. Combining Local Context and Word-

Net Similarity for Word Sense Identification. WordNet: An electronic lexical

database., 49(2):265–283, 1998.

[54] Fritz Lehmann. Semantic networks. Computers & Mathematics with Ap-

plications, 23(2-5):1–50, 1992.

[55] Xiao Li y Qingsheng Li. Calculation of Sentence Semantic Similarity Based

on Syntactic Structure. Mathematical Problems in Engineering, 2015.

[56] Yuhua Li, David McLean, Zuhair A. Bandar, James D. O’Shea, y Keeley

Crockett. Sentence similarity based on semantic nets and corpus statistics.

IEEE Transactions on Knowledge and Data Engineering, 18(8):1138–1150,

2006.

[57] Dekang Lin. Using syntactic dependency as local context to resolve word

sense ambiguity. En Proceedings of the 35th annual meeting on Association

for Computational Linguistics, pags. 64–71. 1997.

[58] Dekang Lin. Automatic retrieval and clustering of similar words. En Pro-

ceedings of the 17th international conference on Computational linguistics,

pags. 768–774. 1998.

[59] Xiaoying Liu y Chuan-Lun Ren. Similarity measures based on sentence se-

mantic structure for recognizing paraphrase and entailment. En Proceedings

Bibliografıa 167

of the 2013 International Conference on Machine Learning and Cybernetics,

tomo 4, pags. 1601–1607. 2013.

[60] Xiaoying Liu, Yiming Zhou, y Ruoshi Zheng. Sentence Similarity based on

Dynamic Time Warping. International Conference on Semantic Computing

(ICSC 2007), pags. 250–256, 2007.

[61] Elena Lloret. Text summarization: an overview. 2008.

[62] Steven L. Lytinen. Conceptual dependency and its descendants. Computers

& Mathematics with Applications, 23(2):51–73, 1992.

[63] Nitin Madnani y Bonnie J. Dorr. Generating Phrasal and Sentential Pa-

raphrases: A Survey of Data-Driven Methods. Computational Linguistics,

36(3):341–387, 2010.

[64] Nitin Madnani, Joel Tetreault, y Martin Chodorow. Re-examining Machine

Translation Metrics for Paraphrase Identification. En Proceedings of the

2012 Conference of the North American Chapter of the Association for

Computational Linguistics: Human Language Technologies (NAACL HLT

’12), pags. 182–190. 2012.

[65] Alexander Maedche y Valentin Zacharias. Clustering Ontology-Based Me-

tadata in the Semantic Web. Principles of Data Mining and Knowledge

Discovery, 2431:383–408, 2002.

[66] Ana G. Maguitman, Filippo Menczer, Heather Roinestad, y Alessandro

Vespignani. Algorithmic detection of semantic similarity. En Proceedings

of the 14th international conference on World Wide Web, pags. 107–116.

2005.

[67] P. Maher. A similarity measure for conceptual graphs. Journal of Intelligent

Systems, 8:819–819, 1993.

[68] Prodromos Malakasiotis. Paraphrase and Textual Entailment. Tesis Doc-

toral, 2011.

[69] S. Mangairkarasi y S. Gunasundari. Semantic based Text Summarization

using Universal Networking Language. International Journal of Applied

Information Systems, 3(8):18–23, 2012.

Bibliografıa 168

[70] Igor A. Mel’cuk. Meaning-Text Models: A Recent Trend in Soviet Linguis-

tics. En Annual Review of Anthropology, pags. 27–62. 1981.

[71] Igor A. Mel’cuk. Paraphrase et lexique: la theorie Sens-Texte et le Diction-

naire explicatif et combinatoire. 1992.

[72] Igor A. Mel’cuk. The Meaning-Text Approach to the Study of Natural

Language and Linguistic Functional Models. En LACUS Forum, tomo 24,

pags. 3–20. 1998.

[73] Igor A. Mel’cuk y A. K. Zholkovskij. Towards a Functioning “Meaning-

Text” Model of Language. Linguistics, 8(57):10–47, 1970.

[74] Lingling Meng, Runqing Huang, y Junzhong Gu. A Review of Semantic

Similarity Measures in WordNet. International Journal of Hybrid Informa-

tion Technology, 6(1):1–12, 2013.

[75] Rada Mihalcea, Courtney Corley, y Carlo Strapparava. Corpus-based and

knowledge-based measures of text semantic similarity. En Proceedings of the

21st national conference on Artificial Intelligence, tomo 1, pags. 775–780.

2006.

[76] Rada Mihalcea y Paul Tarau. TextRank: Bringing order into texts. Pro-

ceedings of EMNLP, 4(4):404–411, 2004.

[77] George A. Miller. WordNet : A Lexical Database for English. Communi-

cations of the ACM, 38(11):39–41, 1995.

[78] Marvin Minsky. A framework for representing knowledge. 1974.

[79] Teruko Mitamura, Eric Nyberg, Enrique Torrejon, et al. Pronominal anap-

hora resolution in KANTOO English-to-Spanish machine translation sys-

tem. En Proceedings of MT Summit, pags. 235–239. 2001.

[80] Michael Mohler, Marc Tomlinson, y David Bracewell. Applying textual

entailment to the interpretation of metaphor. En Proceedings - 2013 IEEE

7th International Conference on Semantic Computing, ICSC 2013, pags.

118–125. 2013.

Bibliografıa 169

[81] Manuel Montes y Gomez, Alexander Gelbukh, Aurelio Lopez-Lopez, y Ri-

cardo Baeza-Yates. Flexible Comparison of Conceptual Graphs. Database

and Expert Systems Applications, pags. 102–111, 2001.

[82] Manuel Montes y Gomez, Alexander F. Gelbukh, y Aurelio Lopez-Lopez.

Comparison of conceptual graphs. En MICAI 2000: Advances in Artificial

Intelligence, pags. 548–556. Springer, 2000.

[83] Kazunori Muraki. PIVOT: Two-Phase Machine Translation System. En

Machine Translation Summit, pags. 81–83. 1989.

[84] David Nadeau y Satoshi Sekine. A survey of named entity recognition and

classification. Lingvisticae Investigationes, 1(30):3–26., 2007.

[85] Felix Naumann. Similarity measures. 2013.

[86] Roberto Navigli y Simone Paolo Ponzetto. BabelNet : The automatic cons-

truction, evaluation and application of a wide-coverage multilingual seman-

tic network. Artificial Intelligence, 193:217–250, 2012.

[87] Ani Nenkova y Kathleen McKeown. A survey of text summarization tech-

niques. En Mining Text Data, pags. 43–76. Springer, 2012.

[88] Akitoshi Okumura, Kazunori Muraki, y Susumu Akamine. Multi-lingual

sentence generation from the PIVOT interlingua. En Proceedings of the

MT Summit ’91, July, pags. 67–71. 1991.

[89] Partha Pakray, Soujanya Poria, y Sivaji Bandyopadhyay. Semantic Textual

Entailment Recognition using UNL. Polibots. Research journal on Com-

puter science and computer engineering with applications, 43(Ml):23–27,

2011.

[90] S. Lakshmana Pandian y S. Kalpana. UNL based document summarization

based on level of users. International Journal of Computer Applications,

66(24):28–36, 2013.

[91] Maria Teresa Pazienza, Marco Pennacchiotti, y Fabio Massimo Zanzotto.

Textual Entailment as Syntactic Graph Distance: a rule based and a SVM

based approach. Recognizing Textual Entailment, 2005.

Bibliografıa 170

[92] Maria Teresa Pazienza, Marco Pennacchiotti, y Fabio Massimo Zanzotto.

Learning textual entailment on a distance feature space. En Machine Lear-

ning Challenges. Evaluating Predictive Uncertainty, Visual Object Classifi-

cation, and Recognising Textual Entailment, pags. 240–260. Springer Berlin

Heidelberg, 2006.

[93] Diana Perez y Enrique Alfonseca. Application of the Bleu algorithm for re-

cognising textual entailments. En Proceedings of the First Challenge Works-

hop Recognising Textual Entailment, pags. 9–12. 2005.

[94] Roy Rada, Hafedh Mili, Ellen Bicknell, y Maria Blettner. Development and

applications of a metric on semantic nets. Transactions on Systems, Man

and Cybernetics, 19(1):17–30, 1989.

[95] Marta Recasens y Marta Vila. On Paraphrase and Coreference. Compu-

tational Linguistics, 36(4):639–647, 2010.

[96] Florence Reeder, Bonnie J. Dorr, David Farwell, et al. Interlingual an-

notation for MT development. Machine Translation: From Real Users to

Research. 6th Conference of the Association for Machine Translation in the

Americas, AMTA 2004. Proceedings (Lecture Notes in Artificial Intelligence

Vol.3265), pags. 236–245, 2004.

[97] Philip Resnik. Using Information Content to Evaluate Semantic Similarity

in a Taxonomy. En Proceedings of the 14th international joint conference

on Artificial intelligence - IJCAI’95, tomo 1, pag. 6. 1995.

[98] Miguel Rios, Wilker Aziz, y Lucia Specia. TINE: A Metric to Assess MT

Adequacy. En Proceedings of the Sixth Workshop on Statistical Machine

Translation (WMT 2011), pags. 116–122. 2011.

[99] Miguel Rios, Wilker Aziz, y Lucia Specia. UOW: Semantically Informed

Text Similarity. En Proceedings of the First Joint Conference on Lexical

and Computational Semantics (*SEM), pags. 673–678. 2012.

[100] Josef Ruppenhofer, Michael Ellsworth, y Mrl Petruck. FrameNet II: Exten-

ded theory and practice. pag. 118, 2010.

[101] Alfredo Sanchez Alberca. Modelado y Comparacion de Colecciones en la

Web Semantica. Tesis Doctoral, Universidad Politecnica de Madrid, 2015.

Bibliografıa 171

[102] Roger C. Schank y Robert P. Abelson. Scripts, Plans, and Knowledge. En

Proceedings of the 4th International Joint Conference on Artificial Intelli-

gence, pags. 151–157. 1975.

[103] Roger C. Schank y Lawrence G. Tesler. A conceptual parser for natural lan-

guage. En Proceedings of the 1st international joint conference on Artificial

intelligence, pags. 569–578. Morgan Kaufmann Publishers Inc., 1969.

[104] D. Shen y M. Lapata. Using semantic roles to improve question answering.

En Proceedings of EMNLP, pags. 12–21. 2007.

[105] Andre Shenk. Idioms in the Rosetta Machine Translation System. En

Proceedings of the 11th Conference on Computational Linguistics, 16, pags.

319–324. 1986.

[106] Sherry y Parteek Bhatia. Multilingual text summarization with UNL. En

In Computer Engineering and Applications (ICACEA), 2015 International

Conference on Advances in, pags. 740–745. 2015.

[107] Matthew Snover, Bonnie Dorr, Richard Schwartz, Linnea Micciulla, y John

Makhoul. A Study of Translation Edit Rate with Targeted Human An-

notation. En Proceedings of Association for Machine Translation in the

Americas, pags. 223–231. 2006.

[108] John F. Sowa. Conceptual Graphs for a Data Base Interface. IBM Journal

of Research and Development, 20(4):336–357, 1976.

[109] John F. Sowa. Principles of Semantic Networks: Explorations in the Re-

presentation of Knowledge, tomo 8. Morgan Kaufmann Publishers Inc.,

1991.

[110] John F. Sowa. Conceptual graphs as a universal knowledge representation.

Computers and Mathematics with Applications, 23(2-5):75–93, 1992.

[111] John F. Sowa. Knowledge representation: logical, philosophical, and compu-

tational foundations. 2000.

[112] John F. Sowa. Conceptual Graphs. En Handbook of Knowledge Represen-

tation, tomo Volume 3, cap. 5, pags. 213–237. 2008.

Bibliografıa 172

[113] John F. Sowa y Eileen C. Way. Implementing a semantic interpreter using

conceptual graphs. IBM Journal of Research and Development, 30(1):57–

69, 1986.

[114] Robert Speer y Catherine Havasi. ConceptNet 5: A Large Semantic Network

for Relational Knowlwdge. En Oliver Ferschke, Johannes Daxenberger, y

Iryna Gurevych, eds., The People’s Web Meets NLP: Theory and Applica-

tions of Natural Language Processing., pags. 121–160. 2013.

[115] Maja Stanojevic. Cognitive synonymy: A general overview. Linguistics and

Literature, 7:193–200, 2009.

[116] Michael Sussna. Word Sense Disambiguation for Free-text Indexing Using

a Massive Semantic Network. Proceedings of the Second International Con-

ference on Information and Knowledge Management, pags. 67–74, 1993.

[117] George Tsatsaronis, Iraklis Varlamis, y Michalis Vazirgiannis. Text related-

ness based on aword thesaurus. Journal of Artificial Intelligence Research,

37:1–39, 2010.

[118] Peter D. Turney y Patrick Pantel. From frequency to meaning: Vector space

models of semantics. Journal of Artificial Intelligence Research, 37:141–188,

2010.

[119] Amos Tversky y Eldar Shafir. Preference, Belief, and Similarity: selected

writings. MIT Press, 2004.

[120] Hiroshi Uchida. ATLAS II: A Machine Translation System Using Con-

ceptual Structure as an Interlingua. Second International Conference on

Theoretical and Methodological Issues in Machine Translation of Natural

Languages, 1988.

[121] Hiroshi Uchida y Meiying Zhu. The universal networking language beyond

machine translation. En International Symposium on Language in Cybers-

pace. Seul, 2001.

[122] Hiroshi Uchida, Meiying Zhu, y Tarcisio Della Senta. A Gift for a Millen-

nium. JANUARY. 1999.

Bibliografıa 173

[123] Lucy Vanderwende y William B Dolan. What Syntax can Contribute in

the Entailment Task. En Machine Learning Challenges. Evaluating Pre-

dictive Uncertainty, Visual Object Classification, and Recognising Textual

Entailment, pags. 205–216. Springer Berlin Heidelberg, 2006.

[124] Bernard Vauquois y Christian Boitet. Automated translation at Grenoble

University. Computational Linguistics, 11(1):28–36, 1985.

[125] Marta Vila, M. Antonia Martı, y Horacio Rodrıguez. Is This a Paraphra-

se? What Kind? Paraphrase Boundaries and Typology. Open Journal of

Modern Linguistics, pags. 205–218, 2014.

[126] Marta Vila Rigat. Paraphrase Scope and Typology . A Data-Driven Ap-

proach from Computational Linguistics A Data-Driven Approach from

Computational Linguistics. Tesis Doctoral, Univesitat de Barcelona, 2013.

[127] Ellen M. Voorhees. Query Expansion using Lexical-Semantic Relations. En

Proceedings of the 17th Annual International ACM SIGIR Conference on

Research and Development in Information Retrieval, pags. 61–69. Springer-

Verlag New York, Inc., 1994.

[128] William E. Winkler. String Comparator Metrics and Enhanced Decision

Rules in the Fellegi-Sunter Model of Record Linkage. En Proceedings of the

Section on Survey Research, pags. 354–359. 1990.

[129] Toon Witkam. DLT: an industrial R & D project for multilingual MT.

En Association for Computational Linguistics, ed., Journal of Chemical

Information and Modeling, pags. 756–759. 1988.

[130] Zhibiao Wu y Martha Palmer. Verb semantics and lexical selection. 32nd

annual meeting on Association for Computational Linguistics, pags. 133–

138, 1994.

[131] J. W. Zhong, H. P. Zhu, J. M. Li, y Y. Yu. Conceptual graph matching for

semantic search. Conceptual Structures: Integration and Interfaces, Procee-

dings, 2393:92–106, 2002.

[132] Ingrid Zukerman y Bhavani Raskutti. Lexical query paraphrasing for do-

cument retrieval. En Proceedings of the 19th international conference on

Computational linguistics -Volume 1, pags. 1–7. 2002.

Bibliografıa 174

[133] Ingrid Zukerman, Bhavani Raskutti, y Yingying Wen Yingying Wen. Query

expansion and query reduction in document retrieval. En Proceedings of the

15th IEEE International Conference on Tools with Artificial Intelligence.

2003.

Documents

MODELO DE PARAFRASIS SEM ANTICA - Archivo Digital …oa.upm.es/43048/1/TFM_MARIA_NAVAS_LORO.pdf · MODELO DE PARAFRASIS SEM ANTICA ... La mayor a de esfuerzos relacionados se han