analisis sintactico

Embed Size (px)

Citation preview

B

Anlisis sintctico conducido por un diccionario de patrones de manejo sintctico para lenguaje espaolTesis doctoral Presenta: M. en C. Sofa Natalia Galicia Haro

Director de tesis: Dr. Alexander Gelbukh Codirector: Dr. Igor Bolshakov

Mxico, D.F. Agosto 2000

1

CONTENIDOVISTA GENERAL DE LA TESISINTRODUCCIN CAPTULO 1. RESTROSPECTIVA HISTRICA DE LOS FORMALISMOS GRAMATICALES Y ALGUNAS HERRAMIENTAS EN LINGSTICA COMPUTACIONAL CAPTULO 2. COMPILACIN DEL DICCIONARIO DE VERBOS ESPAOLES CON SUS ESTRUCTURAS DE VALENCIAS CAPTULO 3. ANLISIS SINTCTICO Y DESAMBIGUACIN BASADA EN PATRONES DE MANEJO AVANZADOS CAPTULO 4. COLECCIN DE ESTADSTICAS DE LAS COMBINACIONES DE SUBCATEGORIZACIN COMO MTODO PRCTICO CONCLUSIONES LISTA DE PUBLICACIONES DE LA TESISTA SOBRE EL TEMA DE TESIS REFERENCIAS APNDICE CONJUNTO DE PRUEBA LISTA DE TRMINOS

TABLA DETALLADA DE CONTENIDOINTRODUCCIN mbito Lenguaje natural y lingstica terica Proceso lingstico de textos Sintaxis Peculiaridades sintcticas del espaol Ambigedades en lenguaje natural Objetivo Aplicacin del modelo de dependencias al espaol Algoritmo de adquisicin de patrones de manejo Compilacin del diccionario de patrones de manejo Algoritmo de desambiguacin sintctica Organizacin de la tesis CAPTULO 1. RESTROSPECTIVA HISTRICA DE LOS FORMALISMOS GRAMATICALES Y ALGUNAS HERRAMIENTAS EN LINGSTICA COMPUTACIONAL 1.1 Gramticas generativas y la tradicin estructuralista europea Gramtica generativa en su primera etapa Los sucesores y la paliacin de los defectos del modelo transformacional De las reglas a las restricciones Gramticas de dependencias. Mtodos sin estructura sintctica Convergencia de los dos enfoques 1.2 Valencias sintcticas: enfoques diversos Subcategorizacin en GB Subcategorizacin en GPSG Subcategorizacin en LFG Subcategorizacin en CG Subcategorizacin en HPSG Valencias Sintcticas en DUG Valencias Sintcticas en la MTT Mtodos lexicogrficos tradicionales de compilacin de diccionarios Revisin de los enfoques diversos para la descripcin de valencias sintcticas 1.3 Mtodos estadsticos: una herramienta para bsqueda de regularidades Distribucin de rangos de frecuencias Prediccin estadstica de secuencias aleatorias de palabras 1.4 Redes semnticas CAPTULO 2. COMPILACIN DEL DICCIONARIO DE VERBOS ESPAOLES CON SUS ESTRUCTURAS DE VALENCIAS 2.1 Diversidad numrica de valencias 2

2.2 Ejemplos de patrones de manejo para verbos. Verbos sin valencias Verbos con una valencia Verbos con dos valencias Verbos con tres valencias. Verbos con cuatro valencias Verbos con cinco valencias 2.3 Ejemplos de patrones de manejo para sustantivos y adjetivos 2.4 Dependencia del objeto directo en la animidad, como una peculiaridad del espaol 2.5 Otra definicin de la nocin de animidad y su uso 2.6 Repeticin limitada de los objetos como otra peculiaridad del espaol. 2.7 El complemento beneficiario en el espaol y su duplicacin 2.8 Otras complejidades de la representacin de valencias Estado incompleto en el nivel sintctico Correspondencia desigual entre valencias sintcticas y semnticas Mapeo de valencias semnticas a sintcticas 2.9 Ejemplos de complicaciones de patrones de manejo para verbos del espaol 2.10 Mtodos tradicionales para caracterizar formalmente las valencias Subcategorizacin Patrones de manejo 2.11 Los patrones de manejo avanzados, como un mtodo alternativo CAPTULO 3. ANLISIS SINTCTICO Y DESAMBIGUACIN BASADA EN PATRONES DE MANEJO AVANZADOS 3.1 Antecedentes del sistema propuesto Modelos empleados Idea de combinacin de mtodos 3.2 Estructura general del analizador Patrones de manejo Reglas ponderadas. Proximidad semntica. Mdulo de votacin. 3.3 Creacin de la gramtica generativa experimental Marcas morfolgicas Desarrollo y ampliacin de cobertura de la gramtica Mejora en la gramtica Verificacin preliminar de la gramtica 3.4 Compendio de reglas gramaticales Signos convencionales de la gramtica Reglas de la gramtica 3.5 Algoritmo de transformacin de rboles de constituyentes a rboles de dependencias Condiciones de transformacin Algoritmo bsico de transformacin 3.6 Consideracin de las reglas ponderadas Evaluacin cuantitativa 3.7 Consideracin de la proximidad semntica Desambiguacin sintctica Evaluacin cuantitativa 3.8 Anlisis sintctico en su versin ltima Ejemplos de evaluacin cuantitativa Caractersticas de votacin del analizador sintctico CAPTULO 4. COLECCIN DE ESTADSTICAS DE LAS COMBINACIONES DE SUBCATEGORIZACIN COMO MTODO PRCTICO 4.1 Mtodos lexicogrficos tradicionales de compilacin de diccionarios en oposicin a los mtodos automatizados 4.2 Informacin sintctica para los PMA Trabajos relacionados: Enlace de frases preposicionales Trabajos relacionados: Obtencin de marcos de subcategorizacin 4.3 Bases del mtodo de obtencin y evaluacin de estadsticas de opciones de anlisis sintctico Deduccin del modelo 3

Limitaciones del modelo Afinidades con otros mtodos Proceso iterativo 4.4 Conversin del mtodo en su aplicacin a textos modelados Experimentos 4.5 Conversin del mtodo en su aplicacin a textos reales Proceso general Pesos de las combinaciones y su uso 4.6 Ejemplos de verbos con combinaciones compiladas automticamente Tipos de elementos novedosos Ruido de informacin. 4.7 Sinopsis de estadsticas obtenidas y comparacin de textos modelados y reales 4.8 Comparacin de resultados de la obtencin de estructuras de las valencias en forma tradicional y en forma automatizada 4.9 Algunas conclusiones a favor de la automatizacin 4.10 Realizacin del software 4.11 Resultados de la aplicacin de los pesos de combinaciones en el analizador bsico CONCLUSIONES Motivacin Contribuciones Rumbos de investigacin posteriores LISTA DE PUBLICACIONES DE LA TESISTA SOBRE EL TEMA DE TESIS Revistas indexadas por SCI Otrasrevistas Captulos en libros de memorias de Springer Captulos en libros de Selected Papers Congresos internacionales Congresos nacionales Informes Tcnicos Conferencias impartidas REFERENCIAS APNDICE CONJUNTO DE PRUEBA LISTA DE TRMINOS

4

TABLA DE FIGURASFigura 1. Estructuras sintcticas Figura 2. Categoras vacas Figura 3. Organizacin de la GB Figura 4. Fragmento de clusula relativa Figura 5. Estructura para el pronombre she Figura 6. Estructura de caractersticas mediante MAV Figura 7. Estructura de caractersticas mediante MAV Figura 8. Niveles de Representacin en la MTT Figura 9. Ejemplo de estructura de dependencias en la MTT Figura 10. Relacin indirecta entre sujeto y verbo Figura 11. Relacin indirecta entre sujeto y verbo Figura 12. Descripcin del verbo force Figura 13. Ejemplo de una representacin sintctica superficial. Figura 14 Red semntica para la frase Juan bebe bebidas alcohlicas con sus amigos. Figura 15 Patrones de manejo avanzados Figura 16.Estructura formal para el verbo acusar Figura 17. Estructura del analizador con resolucin de ambigedad Figura 18 Algoritmo de transformacin de un rbol de constituyentes a uno de dependencias Figura 19 Anlisis sintctico de dependencias para la frase Los alumnos solicitaron becas al director. Figura 20 Anlisis sintctico de constituyentes para la frase: Los alumnos solicitaron becas al director. Figura 21. Representaciones de rbol y de tabla para el grupo nominal El nio pequeo. Figura 22. Algoritmo de anlisis sintctico ascendente de tabla. Figura 23. Diferentes longitudes en los enlaces de la jerarqua. Figura 24 Red semntica para la frase, Juan ve un gato con un telescopio Figura 25 Ambigedad sintctica. Figura 26. Modelo de anlisis sintctico y desambiguacin Figura 27 Multievaluacin del modelo de multigeneracin sintctica. Figura 28. Variantes de la estructura sintctica para la frase Trasladaron la filmacin desde los estudios hasta el estadio universitario. Figura 29 Modelo de dos fuentes de generacin Figura 30 Algoritmo para calcular los pesos de combinaciones Figura 31. Las combinaciones como estructuras locales de los nodos para el ejemplo Trasladaron la filmacin desde los estudios hasta el estadio universitario. Figura 32. Esquema de prueba del algoritmo Figura 33. Una entrada del diccionario simulado. Figura 34. El procedimiento iterativo con corpus de textos. Figura 35. Estructura final formal de los PMA Figura 36. PMA para el verbo acusar1

5

INTRODUCCIN

6

MBITOLenguaje natural y lingstica tericaEl lenguaje se considera como un mecanismo que nos permite hablar y entender. Los lenguajes naturales[1], es decir, el ingls, el francs, el espaol, etc. son una herramienta genuina para la comunicacin entre los seres humanos, ya sea en forma oral o escrita. Actualmente, el avance tecnolgico en los medios de comunicacin impresos y electrnicos nos permite obtener grandes volmenes de informacin en forma escrita. La mayora de esta informacin se presenta en forma de textos en lenguajes naturales. Toda esa informacin contenida en los textos es muy importante ya que permite analizar, comparar, entender el entorno en el que vive el ser humano. Sin embargo, se presentan dificultades por la imposibilidad humana de manejar esa enorme cantidad de textos. Entre las herramientas que ayudan en las tareas diarias, la computadora es, hoy en da, una herramienta indispensable para el procesamiento de grandes volmenes de datos. Pero todava no se logra que una mquina al capturar una coleccin de textos los comprenda suficientemente bien; por ejemplo, para que pueda aconsejar qu hacer en determinado momento basndose en toda la informacin proporcionada, para que pueda responder a preguntas acerca de los temas contenidos en esa informacin pero no explcitamente descritos, o para que pueda elaborar un resumen de la informacin. Para lograr esta enorme tarea de procesamiento de lenguaje natural por computadora, analizando oracin por oracin para obtener el sentido de los textos, es necesario conocer las reglas y los principios bajo los cuales funciona el lenguaje, a fin de reproducirlos y adecuarlos a la computadora, incluyendo posteriormente el procesamiento de lenguaje natural en el proceso general del conocimiento y el razonamiento. El estudio del lenguaje, est relacionado con diversas disciplinas. De entre ellas, la Lingstica General es el estudio terico que se ocupa de los mtodos de investigacin y de las cuestiones comunes a las diversas lenguas. Esta disciplina a su vez comprende una multitud de aspectos (temporales, metodolgicos, sociales, culturales, de aprendizaje, etc.). Los aspectos metodolgicos y de aplicacin brindan los principios y las reglas necesarios en el procesamiento de textos. Los principios y las reglas de la lingstica general, aunados a los mtodos de la computacin forman la Lingstica Computacional. Esta es la rea dentro de la cul se han desarrollado y discutido muchos formalismos adecuados para la computadora a fin de reproducir el funcionamiento del lenguaje con la finalidad de extraer sentido a partir de textos y viceversa, transformando los conceptos de sentidos especficos a los correspondientes textos correctos. El proceso que se realiza con las herramientas proporcionadas por la Lingstica Computacional para realizar las tareas necesarias para pasar del texto a la estructura conceptual, y de sta a los textos, lo denominamos, de aqu en adelante, proceso lingstico de textos.

Proceso lingstico de textosEl proceso lingstico considera anlisis y sntesis de textos, es decir, comprensin y generacin de oraciones en lenguaje natural. Tanto en la generacin como en la comprensin se realizan diferentes transformaciones o cambios de una estructura a otra para llegar al objetivo correspondiente, obtener los conceptos del texto o crear textos, respectivamente.7

La generacin de texto dentro de este mbito empieza con la conceptualizacin del mensaje que se transmitir y con la definicin del nivel de generalizacin o de detalle en que se realizar. A continuacin se sigue con la planeacin de las estructuras. Los problemas especficos para construir estas estructuras estn relacionados con las elecciones para representar un sentido especfico, y con las elecciones de las estructuras particulares que se enlazan a las palabras. Existen otros criterios que intervienen en la construccin de la estructura, que no se consideran en el nivel de oracin sino en el nivel del discurso completo, como la coherencia, expuesta mediante enlaces entre oraciones. La comprensin en el proceso lingstico, ms compleja que la generacin, parte de la representacin de la informacin textual, es decir, de la cadena de palabras, y la traduce a diversas estructuras lingsticas en varias etapas. Las transformaciones que se requieren en el anlisis y la sntesis son tan complejas que se dividen, tanto en la teora como en la aplicacin, en etapas generales. Para que la computadora realice estas etapas se requieren mtodos adecuados para la descripcin y construccin de las estructuras correspondientes, es decir, se requieren formalismos lingsticos de representacin y computacionales. En la lingstica general se considera que tres niveles generales componen el procesamiento lingstico: la morfologa, la sintaxis y la semntica. En el procesamiento lingstico de textos, entre estos niveles, se elaboran descripciones y transformaciones computacionales de estructuras, al menos en dos etapas, en la primera a una estructura sintctica y en la segunda a la estructura conceptual. Estos niveles no estn totalmente delimitados, investigadores diversos difieren un poco en los puntos de vista para esta delimitacin pero las diferencias no son cruciales. Cada uno de los niveles, tanto en la generacin como en la comprensin, tiene sus propias reglas y requiere colecciones de datos (diccionarios) apropiadas, aunque ciertas tareas pueden compartir recursos en el anlisis y en la sntesis de textos. De hecho, en la construccin de recursos para el procesamiento lingstico de textos un concepto importante es compartir recursos, dados los grandes esfuerzos que normalmente se requieren para su compilacin. Nuestra investigacin se centra en el anlisis y en el nivel sintctico. Por lo que los niveles morfolgico y semntico se consideran como los niveles adyacentes, cada uno apoyado en sus propias caractersticas. La sintaxis tiene estrechas relaciones con ambos niveles. En el nivel morfolgico, las caractersticas que estn relacionadas con el nivel sintctico son las categoras gramaticales (las partes del habla y sus subclases), y algunas caractersticas morfolgicas. Las partes del habla (part of speech en ingls, POS) son: sustantivo, verbo, artculo, etc. En el anlisis se realiza un marcaje de POS cuando se asignan estas categoras gramaticales a cada palabra dada, es decir, cuando se indica la funcin de cada palabra en el contexto especfico de la oracin. Este marcaje se hace considerando caractersticas morfolgicas y sintcticas del lenguaje. Las caractersticas morfolgicas relacionadas con la sintaxis son las combinaciones que pueden caracterizar paradigmas. Los paradigmas aqu se refieren a los grupos de palabras relacionadas por su semejanza de significantes (la mnima forma significativa en la palabra) o por alguna relacin entre sus significados (idea contenida en el significante). Entre las caractersticas morfolgicas que caracterizan paradigmas estn las formas de conjugacin de los verbos (amo, amas, ama, aman, etc.), las variantes que expresan gnero y nmero de sustantivos, etc. Por ejemplo, la palabra comen, donde la inflexin en describe tiempo presente, modo indicativo, tercera persona del plural. Estas caractersticas se utilizan para relacionar palabras, frases u oraciones entre s, es decir, para la coordinacin; por ejemplo, del verbo con el sujeto (ellos comen), del sustantivo con el adjetivo (casa roja), etc. Otra caracterstica morfolgica con repercusiones sintcticas y semnticas es la relacionada a las formas homnimas. Existen diferentes palabras morfolgicas, como banco, bancos, que son variantes de un mismo lexema (la parte constante de una palabra variable que expresa la idea principal contenida) y existen formas homnimas de un lexema, con diferente sentido, que conforman un vocablo comn. Estas formas homnimas se numeran para describir sus sentidos. De esta forma, por ejemplo, se tiene banco1 y banco2, mientras el primero se refiere al sentido8

relacionado a guardar algo (banco de ojos, banco comercial), el segundo se refiere al sentido de asiento para una sola persona. Formas homnimas como: querer1 tener el deseo de obtener algo, y querer2 amar o estimar a alguien, se distinguen por sus construcciones sintcticas, como se ver ms adelante.

SintaxisLa tarea principal en este nivel es describir cmo las palabras de la oracin se relacionan y cul es la funcin que cada palabra realiza en esa oracin, es decir, construir la estructura de la oracin de un lenguaje. Las normas o reglas para construir las oraciones se definen para los seres humanos en una forma prescriptiva, indicando las formas de las frases correctas y condenando las formas desviadas, es decir, indicando cules se prefieren en el lenguaje. En contraste, en el procesamiento lingstico de textos, las reglas deben ser descriptivas, estableciendo mtodos que definan las frases posibles e imposibles del lenguaje especfico de que se trate. Las frases posibles son secuencias gramaticales, es decir, que obedecen leyes gramaticales, sin conocimiento del mundo, y las no gramaticales deben postergarse a niveles que consideren la nocin de contexto, en un sentido amplio, y el razonamiento. Establecer mtodos que determinen nicamente las secuencias gramaticales en el procesamiento lingstico de textos ha sido el objetivo de los formalismos gramaticales en la Lingstica Computacional. En ella se han considerado dos enfoques para describir formalmente la gramaticalidad de las oraciones: las dependencias y los constituyentes. ENFOQUE DE CONSTITUYENTES Los constituyentes y la suposicin de la estructura de frase, sugerida por Leonard Bloomfield en 1933, es el enfoque donde las oraciones se analizan mediante un proceso de segmentacin y clasificacin. Se segmenta la oracin en sus partes constituyentes, se clasifican estas partes como categoras gramaticales, despus se repite el proceso para cada parte dividindola en subconstituyentes, y as sucesivamente hasta que las partes sean las partes de la palabra indivisibles dentro de la gramtica (morfemas). La suposicin de frase y la nocin de constituyente, se aplica de la siguiente forma. La frase los nios pequeos estudian pocas horas se divide en el grupo nominal los nios pequeos ms el grupo verbal estudian pocas horas, este ltimo a su vez, se divide en el verbo estudian ms el grupo nominal pocas horas y as sucesivamente.En la perspectiva de constituyentes, la lnea ms importante de trabajo es la desarrollada por el eminente matemtico y lingstica Noam Chomsky, desde los aos cincuenta. [Chomsky, 57] dice que lo que nosotros sabemos, cuando conocemos un lenguaje, es un conjunto de palabras y reglas con las cules generamos cadenas de esas palabras. Bajo este enfoque, aunque existe un nmero finito de palabras en el lenguaje, es posible generar un nmero infinito de oraciones mediante esas reglas, que tambin se emplean para la comprensin del lenguaje. Como una subclase, muy importante, de las gramticas formales, estas reglas definen gramticas independientes del contexto (Context Free Grammars en ingls, CFG). Sin embargo, existen al menos dos cuestiones principales cuando se trata de la cobertura amplia de un lenguaje natural: el nmero de reglas y la definicin concreta de ellas. El nmero requerido de reglas para analizar las oraciones de un lenguaje natural no tiene lmite predeterminado porque debe haber tantas reglas como sean requeridas para expresar todas las variantes posibles de las secuencias de palabras que los hablantes nativos pueden realizar. En cuanto a la definicin, se generan mucho ms secuencias de palabras de las que realmente quieren producirse. Por ejemplo, una regla para definir grupos nominales en el espaol es: un artculo indefinido, seguido de un sustantivo y a continuacin un grupo preposicional. Sin embargo, esta regla define tanto la pltica sobre la libre empresa como *la solidaridad sobre la libre empresa[2]siendo sta ltima una secuencia no gramatical.

En este enfoque, una informacin importante para el anlisis sintctico es la definida como subcategorizacin, referida a los complementos que una palabra rectora puede tener y la categora gramatical de ellos. Los complementos, en la lingstica general, se definen como palabras, o9

grupos de elementos lingsticos que funcionan como una unidad que completa el significado de uno o de varios componentes de la oracin, e incluso de la oracin entera. Esta informacin se ha agrupado en patrones que describen la composicin de los complementos posibles para diferentes verbos, conocida como marcos de subcategorizacin. Principalmente se considera que los verbos son las palabras del lenguaje que requieren estos marcos de subcategorizacin, los cuales pueden ser de diferentes tipos, simples como grupos nominales, o ms complejos como por ejemplo, el verbo dar que subcategoriza un grupo nominal y un grupo preposicional, en ese orden, Da un libro a Mara. Tambin se considera que la descripcin de los complementos puede realizarse en trminos sintcticos o en trminos semnticos. En trminos sintcticos, se describen por su estructura y partes del habla. Por ejemplo: en diez pesos es un grupo preposicional compuesto de preposicin, adjetivo numeral y sustantivo, en una tienda tambin es un grupo preposicional pero compuesto de una preposicin, un artculo y un sustantivo. En este caso, como tanto adjetivo numeral seguido de sustantivo y artculo seguido de sustantivo forman un grupo nominal, el mismo marco: preposicin seguida de grupo nominal, describe ambos complementos. La descripcin en trminos semnticos, por no estar considerada en una forma ligada a la descripcin sintctica, en este enfoque, se ha complementado con los papeles temticos. Estos papeles temticos tienen su antecedente en los casos, que son relaciones abstractas semnticas entre los verbos y sus argumentos, establecida en la Gramtica de Casos [Fillmore, 77]. Intentan explicar las diferencias en las distintas estructuras para un verbo, por ejemplo: Juan rompi la ventana con el martillo, El martillo rompi la ventana, La ventana se rompi. Con los papeles temticos se establece que Juan, el martillo y la ventana, hacen el papel de agente, y el martillo en la primera frase es una herramienta. Las combinaciones de los distintos complementos en la oracin presentan otra complejidad. Por ejemplo, en la frase Compr el nio un libro en diez pesos en la tienda XX a un lado del metro Jurez a un vendedor alto de mal humor, existen seis grupos preposicionales (en la tienda, del metro Jurez, etc.) introducidos con solo tres preposiciones, a, en, de, y aparecen dos grupos nominales (el nio, un libro). Las posibles combinaciones no son aleatorias pero estos complementos o grupos lingsticos pueden ir enlazados en diferentes combinaciones, unidos al verbo o a algunos sustantivos de los diferentes grupos de la oracin, por ejemplo: Compr el nio, Compr un libro, Compr en diez pesos, Compr en la tienda XX, Compr a un vendedor alto, la tienda XX a un lado del metro Jurez. Mientras para un hablante nativo es obvio cmo se relacionan los complementos, para una computadora son posibles todas las variantes: Compr a un lado, Compr del metro Jurez, Compr de mal humor, el nio en la tienda XX, etc. ENFOQUE DE DEPENDENCIAS El primer intento real para construir una teora que describiera las gramticas de dependencias fue el trabajo de Lucien Tesnire en 1959. Las dependencias se establecen entre pares de palabras, donde una es principal o rectora y la otra est subordinada a (o dependiente de) la primera. Si cada palabra de la oracin tiene una palabra propia rectora, la oracin entera se ve como una estructura jerrquica de diferentes niveles, como un rbol de dependencias. La nica palabra que no est subordinada a otra es la raz del rbol. Es importante notar que la motivacin de muchas dependencias sintcticas es el sentido de las palabras. Por ejemplo en la frase Los nios pequeos estudian pocas horas, las palabras pequeos y pocas son modificadores de atributo de las palabras nios y horas respectivamente, y nios es el sujeto de estudiar. Un rasgo muy importante de las dependencias es que no son iguales: una sirve para modificar el significado de la otra, as la secuencia los nios pequeos denota ciertos nios, y estudian pocas horas denota una clase de estudio.En el enfoque de dependencias, la lnea de trabajo ms importante es la desarrollada por el investigador Igor Melcuk desde los aos sesenta, la Meaning Text Theory (MTT). Para [Melcuk, 79], 10

en la sintaxis se describen los medios lingsticos por los cuales se expresan todos los participantes que estn implicados en el sentido mismo de los lexemas. Bajo esta perspectiva, la descripcin de conocimiento lingstico es primordial. La descripcin de los medios lingsticos con los que se expresan los objetos del lexema se insertan junto con l en un diccionario, de esta forma se conoce de antemano cmo se relaciona el lexema con los distintos grupos de palabras en la oracin. Por ejemplo, para el lexema pltica aparecer que utiliza la preposicin sobre para introducir el tema, que solidaridad utiliza la preposicin con, y que el verbo dar emplea un sustantivo para expresar el objeto donado y para introducir el receptor emplea la preposicin a. Estas descripciones se denominan patrones de manejo.[3] Una cuestin principal cuando se trata de la cobertura amplia de un lenguaje natural, empleando los patrones de manejo, se refiere al establecimiento de todo este conocimiento lingstico que no se basa en lgica y que por lo tanto conlleva el enorme trabajo manual de la descripcin de la coleccin completa de todos los posibles objetos de las palabras especficas (verbos, sustantivos o adjetivos). Por ejemplo, establecer la manera en que el lexema comprar expresa los participantes, en la accin de hacer que alguna cosa pase de una persona o entidad, a ser propiedad de otra persona o entidad, a cambio de una cantidad de dinero.

Con la sola descripcin sintctica de los complementos no hay una manera de establecer reglas para la computadora que definan las preposiciones especficas de cada verbo, por ejemplo la preposicin en para el verbo comprar y no un grupo preposicional introducido por la preposicin sobre. Y an cuando se especificara particularmente para el verbo comprar que un complemento se introduce con la preposicin en, se tiene que diferenciar entre grupos preposicionales como en diez pesos que expresa la cantidad de dinero y otros grupos preposicionales que expresan otros sentidos como en una tienda. Esta diferencia que implica un descriptor semntico est contemplada en la MTT.En la MTT se relacionan los participantes semnticos con los complementos del verbo, es decir, la valencia semntica con la valencia sintctica. Por ejemplo, la realizacin sintctica en diez pesos se refiere a la cantidad de dinero por la cul se compr algo si est relacionado con comprar o se trata de la cantidad en la cul disminuye un precio si se trata de reducir, etc. En la MTT, la idea es establecer las valencias, es decir, los participantes referidos a la accin del verbo en cuestin, establecer quin realiza la accin, a quin est dirigida, qu se hace, etc. Por ejemplo, en la accin de beber, los participantes son quin bebe y qu bebe; en la accin comprar los participantes son: quin compra, qu compra, en cuanto lo compra, a quin se lo compra.

En este enfoque, tambin se considera necesario establecer la diferencia de los complementos seleccionados semnticamente, de los que expresan las circunstancias en las que se da la accin, que se denominan circunstanciales. Los complementos circunstanciales estn relacionados al contexto local de la oracin pero no expresan participantes en la accin del verbo, aaden informacin no relacionada directamente al sentido del lexema. Por ejemplo, en la frase, compr contra su voluntad un traje nuevo, el grupo preposicional contra su voluntad expresa un modificador a la accin comprar, pero no es un participante de la accin del verbo.

Peculiaridades sintcticas del espaolExisten caractersticas dependientes del lenguaje que simplifican o vuelven ms compleja la relacin entre los grupos de palabras. Reconocer las combinaciones posibles de los verbos y sus complementos es menos complejo cuando en el lenguaje existen posiciones fijas de ocurrencia de ellos. Sin embargo esto vara, la estructura de la oracin en diferentes lenguajes tiene diversos rdenes bsicos y diferentes grados de libertad en el orden de palabras. Por ejemplo, el ingls y el espaol tienen un orden bsico sujeto-verbo-complemento (SVC).

Esto no quiere decir que siempre se cumpla ese orden. Algunos lenguajes, como el ingls, tienen un orden ms estricto, otros, como el espaol, tienen un grado de libertad mayor. Por ejemplo, la oracin en espaol Juan vino a mi casa (SVC) se acepta sintcticamente en las siguientes variantes: A mi casa vino Juan (CVS), Vino Juan a mi casa (VSC), A mi casa Juan vino (CSV), Juan a mi casa vino (SCV), Vino a mi casa Juan (VCS), por lo que los participantes de las acciones pueden ocurrir en distintas posiciones respecto al verbo.

11

En espaol, al igual que en algunos otros lenguajes, el uso de las preposiciones es muy amplio. Este empleo, origina una gran cantidad de combinaciones de grupos preposicionales, pero tambin sirve para diferenciar, en muchos casos, la introduccin de los participantes de una accin. Por ejemplo, en la frase Compr el nio un libro en diez pesos, los hablantes nativos reconocen que se utiliza la preposicin en para introducir la expresin del precio del artculo comprado. En espaol, el uso de preposiciones permite introducir sustantivos animados en el papel sintctico de objeto directo, distinguir entre significados de verbos, distinguir participantes. Realmente, la preposicin a entre otros usos, sirve para diferenciar el significado del complemento directo de algunos verbos, por ejemplo, querer algo (tener el deseo de obtener algo) y querer a alguien (amar o estimar a alguien). Si este conocimiento se omite en el nivel sintctico entonces el anlisis en el nivel semntico se vuelve ms complejo. Esta informacin tambin es til en la generacin de lenguaje natural porque dado el sentido que se quiere transmitir existe la posibilidad de seleccionar la estructura precisa para l. Otra peculiaridad del espaol es la repeticin restringida de valencias. Por ejemplo en la frase: Arturo le dio la manzana a Victor, dnde le se emplea para establecer a quin le dieron la manzana y el grupo preposicional a Victor tambin representa al mismo participante. Otro ejemplo es: El disfraz de Arturo lo dise Victor, donde tanto lo como el disfraz de Arturo corresponden al objeto directo de disear. Esta repeticin se da en forma de pronombres y sustantivos. Las implicaciones lxicas y sintcticas en cuanto a que algunos verbos presentan estas estructuras, a que se deben relacionar las dos expresiones de valencias sintcticas con la misma valencia semntica, y a posibles diferencias semnticas, competen al anlisis sintctico.

Ambigedades en lenguaje naturalLa ambigedad, en el proceso lingstico, se presenta cuando pueden admitirse distintas interpretaciones a partir de la representacin o cuando existe confusin al tener diversas estructuras y no tener los elementos necesarios para eliminar las incorrectas. Para desambiguar, es decir, para seleccionar los significados o las estructuras, ms adecuados, de un conjunto conocido de posibilidades, se requieren diversas estrategias de solucin en cada caso. Relacionada a la sintaxis, existe ambigedad en el marcaje de partes del habla, esta ambigedad se refiere a que una palabra puede tener varias categoras sintcticas, por ejemplo ante puede ser una preposicin o un sustantivo, etc. Conocer la marca correcta para cada palabra de una oracin ayudara en la desambiguacin sintctica, sin embargo la desambiguacin de este marcaje requiere a su vez cierta clase de anlisis sintctico. En el anlisis sintctico es necesario tratar con diversas formas de ambigedad. La ambigedad principal ocurre cuando la informacin sintctica no es suficiente para hacer una decisin de asignacin de estructura. La ambigedad existe an para los hablantes nativos, es decir, hay diferentes lecturas para una misma frase. Por ejemplo, en la oracin Javier habl con el profesor del CIC, puede pensarse en el profesor del CIC como un complemento de hablar o tambin puede leerse que Javier habl con el profesor sobre un tema, habl con l del CIC. Tambin existe ambigedad en los complementos circunstanciales. Por ejemplo, en la frase Me gusta beber licores con mis amigos, el grupo con mis amigos es un complemento de beber y no de licores. Mientras un hablante nativo no considerar la posibilidad del complemento licores con mis amigos, para la computadora ambas posibilidades son reales. Como mencionamos, la informacin lxica puede ayudar a resolver muchas ambigedades, en otros casos la proximidad semntica puede ayudar en la desambiguacin. Por ejemplo: Me gusta beber licores con menta y Me gusta beber licores con mis amigos; en ambas frases la clase semntica del sustantivo final ayuda a resolver la ambigedad, es decir con que parte de la frase estn enlazadas las frases preposicionales, con menta y con mis amigos. Ni menta ni amigos son palabras ambiguas pero amigos est ms cercana semnticamente a beber que a licores y menta est ms cercana a licor que a beber. La ambigedad es el problema ms importante en el procesamiento de textos en lenguaje natural, por lo que la resolucin de ambigedades es la tarea ms importante a llevar a cabo y el punto12

central de esta investigacin. Debido a que existe ambigedad an para los humanos, no es una tarea de la resolucin de ambigedades lograr una nica asignacin de estructuras en el anlisis sintctico de textos, sino eliminar la gran cantidad de variantes que normalmente se producen. Con los resultados de esta tesis, logramos promover las variantes con mayor posibilidad de ser las correctas hacia el grupo inicial en la clasificacin de las variantes sintcticas generadas para cada oracin.

13

OBJETIVOEsta tesis propone un modelo para resolver el problema del anlisis sintctico relacionado a la gran cantidad de variantes generadas cuando se analizan textos sin restricciones. El modelo considera un algoritmo de desambiguacin basado en tres diferentes fuentes de conocimiento del lenguaje, de las cuales la fuente principal dirige el anlisis mediante conocimiento lingstico. El algoritmo de desambiguacin sintctica restringe la gran cantidad de variantes que normalmente se generan, as que la base del anlisis sintctico pasa de la tarea infinita de definir una gramtica de cobertura total para el lenguaje, la forma tradicional, a la tarea principal de buscar los objetos de cada palabra. La primera fuente de conocimiento es lingstica y se describe en una coleccin de patrones de manejo sintctico que renen informacin de cmo las palabras del espaol especifican lxicamente sus objetos, la segunda fuente se describe en una gramtica extendida independiente del contexto para el espaol, y la tercera fuente se basa en proximidad semntica entre palabras. Para lograr este objetivo, primero analizamos las caractersticas del espaol, principalmente las que difieren de los lenguajes cuyo orden de palabras es ms estricto, para describirlas bajo un enfoque generalizado de descripcin de valencias, con mayor nfasis en el formalismo de la MTT. Basndonos en este anlisis proponemos una forma nueva de descripcin de los Patrones de manejo, la denominamos Patrones de manejo avanzados, con informacin cualitativa para el anlisis sintctico. Debido al conocimiento lingstico que se requiere en dichos patrones, proponemos un mtodo semiautomtico de adquisicin de esa informacin, a partir de un corpus de textos. Por ltimo, proponemos un algoritmo para reducir el nmero de variantes posibles de anlisis, es decir, de desambiguacin sintctica.

Por lo que la investigacin descrita en esta tesis incluye nuevas contribuciones en los aspectos explicados en las siguientes secciones.

Aplicacin del modelo de dependencias al espaolLos formalismos para anlisis sintctico basados en constituyentes han sido ms apropiados para el ingls, principalmente por su orden de palabras ms estricto. Debido al apoyo y a la cantidad de investigadores que trabajan en esta lnea, se ha aplicado a muchos otros lenguajes, an cuando no comparten la mayora de las caractersticas del ingls. Los modelos de dependencias que representan una continuacin de las tradiciones europeas antiguas en lenguajes con un orden de palabras ms libre, se han orientado ms hacia un trabajo descriptivo, por lo que se han empleado muy restringidamente y en pocos lenguajes. De entre los modelos de dependencias la Meaning Text Theory, que representa la tradicin gramatical rusa, es la teora ms desarrollada, por su sistema formal que en alcance y contenido es comparable con la escuela generativa, de constituyentes. Al espaol solamente se han aplicado formalismos basados en constituyentes. Una lista de los trabajos realizados basados en dependencias se encuentra en [DG Website, 99]. La aplicacin de la MTT al espaol permite describir algunas caractersticas del espaol de una manera ms natural y adecuada, como el orden ms libre de palabras (comparado con el ingls), el uso de palabras especficas para introducir complementos seleccionados semnticamente y tambin para establecer la relacin entre valencias sintcticas y semnticas.

Algoritmo de adquisicin de patrones de manejo

14

La aplicacin de la MTT se ha realizado en forma limitada porque la compilacin de los recursos necesarios, diccionarios principalmente, requiere un esfuerzo enorme, por la necesidad de descripcin del lenguaje en trminos lingsticos en todos los niveles. Para eliminar esta desventaja elaboramos un algoritmo que emplea mtodos estadsticos y lingsticos. Los mtodos puramente lingsticos tienen el defecto de requerir por mucho tiempo la participacin de recursos humanos calificados. Los mtodos estadsticos, se han empleado con buenos resultados, en diferentes lneas de investigacin. Una rea importante de aplicacin para los mtodos estadsticos es la adquisicin de informacin lxica. Los sistemas basados solamente en mtodos estadsticos no han logrado el xito total para resolver la mayora de los problemas de procesamiento de lenguaje natural para los cuales fueron aplicados, sin embargo han sido muy tiles, y combinados con conocimiento lingstico han demostrado cierta superioridad. En esta investigacin se combinan mtodos lingsticos que permiten extraer estructuras sintcticas, y mtodos estadsticos para la seleccin de variantes de estructuras con la finalidad de obtener los complementos de palabras especficas (verbos, adjetivos y sustantivos).

Compilacin del diccionario de patrones de manejoLa compilacin de un diccionario de patrones de manejo avanzados para el espaol permite abarcar una cobertura amplia del lenguaje porque rene conocimiento puramente lingstico que no es posible reproducir mediante razonamiento ni mediante algoritmos. Se han compilado muy pocos diccionarios de este tipo, principalmente porque se han compilado manualmente y porque los diccionarios desarrollados incluyen el modelo completo de la MTT. La compilacin de los patrones mediante el algoritmo lingstico estadstico desarrollado permite incluir informacin estadstica adicional para eliminar cierta ambigedad en el anlisis sintctico y para favorecer determinadas realizaciones que aparecen con mayor frecuencia en corpus de textos, lo cual no ha sido considerado en compilaciones de este tipo de diccionarios. Este diccionario es un recurso para el procesamiento del espaol que servir tanto para el anlisis como para la sntesis en el nivel sintctico.

Algoritmo de desambiguacin sintcticaLa principal contribucin de este trabajo es en el avance del anlisis sintctico de textos en espaol sin restriccin. En el espaol, la ambigedad sintctica se ve magnificada por la cantidad de frases preposicionales que se emplean, lo que ocasiona una mayor cantidad de variantes generadas en el anlisis sintctico. Diversos formalismos se han desarrollado para tener una cobertura total en el anlisis sintctico de lenguajes naturales, sin embargo la principal dificultad que se ha presentado es reconocer las estructuras reales de entre una enorme cantidad de variantes generadas en dichos anlisis. Se han propuesto mtodos que utilizan un solo modelado del lenguaje, por ejemplo con gramticas independientes del contexto (CFG), con gramticas de estructura de frase generalizada, con gramticas de adjuncin de rboles (TAG), etc. Tambin se ha propuesto la combinacin de formalismos con estadsticas, por ejemplo CFG con probabilidades, TAG con probabilidades, entre otros. El algoritmo de desambiguacin sintctica que aqu presentamos se basa en la transformacin a una forma compatible de las variantes sintcticas generadas mediante diversos modelos del lenguaje, en la evaluacin cuantitativa de ellas y finalmente en una votacin que clasifique las variantes para determinar las de mayor posibilidad de ser las correctas. Este algoritmo emplea como base principal el diccionario y los pesos de los patrones de manejo.

15

ORGANIZACIN DE LA TESISEn el captulo uno presentamos los antecedentes para el desarrollo de la investigacin sobre anlisis sintctico, los formalismos gramaticales que se han desarrollado dentro de la lingstica computacional y las herramientas requeridas. A partir del captulo dos presentamos nuestras aportaciones. En el captulo dos desarrollamos la aplicacin del modelo de dependencias al espaol, en el captulo tres presentamos nuestro algoritmo de anlisis y desambiguacin sintctica, y en el captulo cuatro el algoritmo de adquisicin del diccionario de patrones de manejo sintctico. En el captulo uno, en la primera seccin, revisamos las gramticas generativas y las estructurales en su evolucin histrica. Por una parte, la evolucin de las teoras derivadas de los constituyentes para superar los problemas generados por las transformaciones y cmo se paliaron estos problemas mediante las restricciones. Por otra parte las teoras derivadas de las dependencias y los formalismos desarrollados. Por ltimo, la tendencia lexicista como la convergencia de ambas descripciones. Despus presentamos la descripcin de las estructuras sintcticas de los objetos de las palabras segn cada uno de los formalismos representativos para comparar la informacin que cada uno propone y el nivel en el que sita su descripcin. En la tercera seccin del captulo uno presentamos los mtodos estadsticos para detectar regularidades en las secuencias de palabras en las oraciones, y en la ltima seccin la nocin de redes semnticas como descripcin de conocimiento semntico. En el captulo dos presentamos la descripcin detallada de las valencias, las complejidades que se presentan, las peculiaridades semnticas y sintcticas del espaol que se describen en los patrones de manejo y ejemplos de estos patrones para verbos, sustantivos y adjetivos. Describimos la informacin que proponemos para los nuevos patrones de manejo y la descripcin de su notacin formal. Presentamos tambin las diferencias entre la descripcin de valencias en los enfoques considerados. Presentamos primero la descripcin del modelo general de anlisis y desambiguacin sintctica, y posteriormente el algoritmo de compilacin del diccionario ya que en ambos empleamos el analizador bsico construido, basado en gramticas generativas. Este analizador bsico, representa una de las fuentes de conocimiento para el modelo general y en este contexto se describe detalladamente. En cambio, en la implantacin del algoritmo de compilacin del diccionario lo empleamos como herramienta de construccin de variantes. En el captulo tres describimos el modelo general de anlisis sintctico y desambiguacin, propuesto, es decir, el modelo completo y cada uno de sus subsistemas. Describimos la gramtica generativa experimental que desarrollamos, su creacin, caractersticas y verificacin. Presentamos el algoritmo seleccionado para realizar el anlisis sintctico con la gramtica generativa. Describimos el algoritmo desarrollado para la transformacin a una forma compatible de dependencias. Describimos tambin el empleo de la red semntica para la desambiguacin sintctica. Presentamos finalmente la formulacin de la evaluacin cuantitativa de las variantes sintcticas, el algoritmo de votacin y su expansin a un multimodelo. El algoritmo de adquisicin de los patrones de manejo se describe en el captulo cuatro. Presentamos primero la deduccin del modelo, enseguida presentamos la evolucin de su desarrollo, en su aplicacin a textos modelados y posteriormente a textos reales, las estadsticas en16

ambos y su comparacin. A continuacin presentamos ejemplos de los patrones compilados, las estadsticas obtenidas y la comparacin entre mtodos de compilacin en forma tradicional y en forma automatizada. Por ltimo presentamos las pruebas realizadas sobre un conjunto de prueba para dar una medida de la efectividad del empleo del diccionario compilado. Finalmente presentamos las conclusiones, que incluyen el motivo y las aportaciones de esta tesis, adicionalmente presentamos rumbos posteriores a esta investigacin.

17

CAPTULO 1. RESTROSPECTIVA HISTRICA DE LOS FORMALISMOS GRAMATICALES Y ALGUNAS HERRAMIENTAS EN LINGSTICA COMPUTACIONAL

18

1.1 GRAMTICAS GENERATIVAS Y LA TRADICIN ESTRUCTURALISTA EUROPEAEn muchas disciplinas, la retrospectiva histrica y el estado actual permiten una visin ms clara de cada disciplina, desde el punto de vista de los principales enfoques y ejemplos representativos de cada una. Entonces presentamos de esta manera los formalismos gramaticales en la Lingstica Computacional. Consideramos los dos enfoques que por mucho tiempo se han considerado opuestos y que en aos recientes tienen ms coincidencias: la gramtica generativa cuyo principal representante es la teora desarrollada por Chomsky en sus diversas variantes, y la tradicin estructuralista europea que proviene de Tesnire, con el ejemplo ms representativo, la teora Sentido Texto de I. A. Melcuk. El sistema formal de esta ltima, en alcance y contenido es comparable con la escuela generativa. Se tiende a creer que las palabras componen una oracin como una progresin en una sola dimensin. Sin embargo, la propiedad del lenguaje natural que es de importancia central en la sintaxis es que tiene dos dimensiones. La primera es explcita, el orden lineal de palabras, y la segunda es implcita, la estructura jerrquica de palabras. El orden lineal es lo mismo que la secuencia de las palabras en la oracin. El papel de la estructura jerrquica se refiere a menudo como una dependencia, podemos ejemplificarla con las siguientes frases: una persona sola en la construccin una persona interesada en la construccin

En la primera frase, el grupo de palabras en la construccin se une al grupo una persona indicando el lugar donde se encuentra la persona, mientras que en la segunda frase el mismo grupo se une a interesada indicando cul es su inters. Lo que hace la diferencia en las interpretaciones, no es evidentemente un orden lineal puesto que el grupo en la construccin se encuentra en el final de ambas frases, y tampoco se trata de la distancia lineal en las dos frases. Tanto el orden lineal como la estructura jerrquica, aunque principalmente esta ltima, son el tema principal en los formalismos para el anlisis sintctico. Los enfoques que presentamos consideran esa jerarqua como relaciones entre combinaciones de las palabras o entre palabras mismas.Siguiendo el paradigma de Chomsky se han desarrollado muchos formalismos para la descripcin y el anlisis, sintcticos. El concepto bsico de la gramtica generativa es simplemente un sistema de reglas que define de una manera formal y precisa un conjunto de secuencias (cadenas a partir de un vocabulario de palabras) que representan las oraciones bien formadas de un lenguaje especfico. Las gramticas bien conocidas en otras ramas de la ciencia de la computacin, las expresiones regulares y las gramticas independientes del contexto, son gramticas generativas tambin.

Chomsky y sus seguidores desarrollaron y formalizaron una teora gramatical basada en la nocin de generacin [Chomsky, 65]. El trabajo que se realiza en la gramtica generativa descansa en la suposicin acerca de la estructura de la oracin de que est organizada jerrquicamente en frases (y por consiguiente en estructura de frase). Un ejemplo de la segmentacin y clasificacin que se realiza en este enfoque se presenta en la Figura 1 A en el rbol de constituyentes para la frase los nios pequeos estudian pocas horas, donde O significa oracin. Un rbol de estructura de frase revela la estructura de una expresin en trminos de agrupamientos (bloques) de palabras, que consisten de bloques ms pequeos, los cuales consisten de bloques an19

ms pequeos, etc. En un rbol de estructura de frase, la mayora de los nodos representan agrupamientos sintcticos o frases y no corresponden a las formas de las palabras reales de la oracin bajo anlisis. Smbolos como GN (grupo nominal), GV (grupo verbal), N (sustantivo), GP (grupo preposicional), etc. aparecen en los rboles de estructura de frase como etiquetas en los nodos, y se supone que estas nicas etiquetas completamente determinan las funciones sintcticas de los nodos correspondientes. En el enfoque de estructura de frase, la categorizacin (la membresa de clase sintctica) de las unidades sintcticas se especifica como una parte integral de la representacin sintctica, pero no se declaran explcitamente las relaciones entre unidades.

Figura 1. Estructuras sintcticas

Las Gramticas de Dependencias se basan en la idea de que la sintaxis es casi totalmente una materia de capacidades de combinacin, y en el cumplimiento de los requerimientos de las palabras solas. En el trabajo ms influyente en este enfoque, el de [Tesnire, 59], el modelo para describir estos fenmenos es semejante a la formacin de molculas, a partir de tomos, en la qumica. Como tomos, las palabras tienen valencias; estn aptas para combinar con un cierto nmero y clase de otras palabras formando piezas ms grandes de material lingstico. Las valencias de una palabra se rellenan con otras palabras, las cuales realizan dos tipos de funcionamiento: principales (denominadas actuantes) y auxiliares (denominados circunstanciales o modificadores). Las descripciones de valencias de palabras son el dispositivo principal para describir estructuras sintcticas en las gramticas de dependencias. La gramtica de dependencias supone que hay comnmente una asimetra entre las palabras de una frase: una palabra es la rectora, algunas otras son sus dependientes. Cada palabra tiene su rectora, excepto la raz, pero no todas tienen dependientes. Por ejemplo, una palabra es nios, la modificadora es pequeos. La palabra rectora raz da origen a la construccin total y la determina. Las dependientes se ajustan a las demandas sobre la construccin, impuestas por la rectora. La diferencia entre rectoras y dependientes se refleja por la jerarqua de nodos en el rbol de dependencias. Las gramticas de dependencia, como las gramticas de estructura de frase, emplean rboles a fin de describir la estructura de una frase u oracin completa. Mientras la gramtica de estructura de frase asocia los nodos en el rbol con constituyentes mayores o menores y usa los arcos para representar la relacin entre una parte y la totalidad, todos los nodos en un rbol de dependencias representan palabras elementales y los arcos denotan las relaciones directas sintagmticas entre esos elementos (Figura 1 B). Las teoras de estructura de frase y las gramticas de dependencias se han desarrollado en paralelo. Ambas han marcado la forma en la que se concibe la sintaxis en el procesamiento lingstico de textos. A lo largo de casi cuarenta aos muchos formalismos se han desarrollado dentro de ambos enfoques de una manera muy diferente. Mientras los constituyentes han sido aplicados a la20

mayora de todos los lenguajes naturales con la intencin de una cobertura amplia, las dependencias han sido aplicadas en pocos lenguajes con una cobertura restringida. Primero presentamos un panorama del desarrollo de la estructura de frase y a continuacin el desarrollo de las gramticas con dependencias.

Gramtica generativa en su primera etapaVERSIN INICIAL INCLUYENDO LA COMPONENTE TRANSFORMACIONAL [Chomsky, 57], en su libro Estructuras Sintcticas, present una versin inicial de la Gramtica Generativa Transformacional (GGT), gramtica en la cul, la sintaxis se conoce como sintaxis generativa. Una de las caractersticas del anlisis presentado ah y en subsecuentes trabajos transformacionales es la inclusin de postulados explcitos formales en las reglas de produccin, cuyo nico propsito era generar todas las oraciones gramaticales del lenguaje bajo estudio, es decir, del ingls. La gramtica transformacional inicial influy, a las teoras posteriores, en el nfasis en la formulacin precisa de las hiptesis, caracterstica primordial en el enfoque de constituyentes. Ejemplos de las reglas de produccin que se emplean para esa formulacin precisa son las siguientes, con las cuales se construy el rbol de la Figura 1 A:

La flecha significa que se reescribe como, es decir, el elemento de la izquierda se puede sustituir con el agrupamiento completo de la derecha. Por ejemplo, una oracin (O) se puede reescribir como un grupo nominal (GN) seguido de un grupo verbal (GV). Un GN puede reescribirse como un artculo (Art) seguido de un sustantivo (Sust) y un adjetivo (Adj). Un grupo verbal puede sustituirse con un verbo (V) seguido de un grupo nominal. Todos los elementos que no han sido sustituidos por palabras especficas se denominan no-terminales (GV, O, etc.), los elementos del lenguaje especfico se denominan terminales (estudian, los, etc.). Este tipo de reglas corresponde a una gramtica independiente del contexto. Esto se debe a que los elementos izquierdos de las reglas solamente contienen un elemento no terminal y por lo tanto no se establece el contexto en el que deben aparecer. Este tipo de gramticas es el segundo tipo de gramticas menos restrictivas en la clasificacin de Chomsky, que pueden analizarse con un autmata de pila, y para las cuales existen algoritmos de anlisis eficientes [Aho et al, 86]. Chomsky [57] dio varios argumentos para mostrar que se requera algo ms que las solas reglas de estructura de frase para dar una descripcin razonable del ingls, y por extensin de cualquier lenguaje natural, por lo que se requeran las transformaciones, es decir, reglas de tipos ms poderosos. Las relaciones como sujeto y objeto[4], fueron un ejemplo de la necesidad del desarrollo de la gramtica transformacional ya que su representacin no era posible con las reglas independientes del contexto. La GGT define oraciones gramaticales de una manera indirecta. Las estructuras aqu denominadas subyacentes o base se generan mediante un sistema de reglas de estructura de frase y despus se aplican sucesivamente las reglas transformacionales para mapear esas estructuras de frase a otras estructuras de frase. Esta sucesin se llama derivacin transformacional e involucra una secuencia de estructuras de frase, de una estructura base a una estructura de frase denominada estructura superficial, cuya cadena de palabras corresponde a una oracin del lenguaje. Desde este punto de vista, las oraciones del lenguaje son aquellas que pueden derivarse de esta manera. Una propuesta clave en las gramticas transformacionales, en todas sus versiones, es que una gramtica empricamente adecuada requiere que las oraciones estn asociadas no con una sola estructura de rbol sino con una secuencia de rboles, cada una relacionada a la siguiente por una transformacin. Las transformaciones se aplican de acuerdo a reglas particulares en forma21

ordenada; en algunos casos las transformaciones son obligatorias. Ejemplos de transformaciones son el cambio de forma afirmativa a forma interrogativa, y de forma activa a pasiva. La hiptesis de la gramtica transformacional, es que por ejemplo [5], la frase (b) se deriva mediante reglas y el diccionario, de (a), con una transformacin, alterando la estructura de tal forma, que la frase-wh es inicial dentro de S. (a) Max wonders [the child wants to get which candy every day] (b) Max wonders [which candy the child wants to get every day] Este tipo de transformacin opera sobre cualquier frase que pueda analizarse con una estructura como

donde S indica una oracin, X y Y secuencias de palabras. NP es el grupo nominal y wh abarca las palabras inglesas interrogativas: which, where, who, etc.

En el ejemplo anterior the child wants to get correspondera a Xy every day correspondera a Y, aunque podra ser incluso nulo. La frase anterior entonces puede transformarse mediante la transformacin que incluye el movimiento del constituyente X a la posicin entre NP y Y, denotada como:

que corresponde a (b). Otra transformacin es la que se realiza a partir de la estructura subyacente The man is running (El hombre est corriendo) para obtener la correspondiente forma interrogativa Is the man running? (Est corriendo el hombre?).

Entre las transformaciones ms importantes se encuentra la relacionada a las oraciones pasivas. Por ejemplo: that dog was chased by the police, que se deriva de las mismas estructuras subyacentes de sus contrapartes activas, the police chased that dog, por medio de una transformacin a pasiva que permuta el orden de los dos grupos nominales e inserta las palabras was y by en los lugares adecuados. Otro punto muy importante de la GGT fue el tratamiento del sistema de verbos auxiliares del ingls, el anlisis ms importante en esta teora. Chomsky propuso que el tiempo, en las formas verbales, estuviera en la estructura sintctica subyacente, como un formante separado del verbo del cual formaba parte. Propuso dos transformaciones, una de movimiento para considerar la inversin del auxiliar en las preguntas y una de insercin que situaba not en el lugar apropiado para las oraciones de negacin. Ambas transformaciones, en algunos casos, tienen el efecto de un tiempo separado, es decir, lo dejan en una posicin que no est adyacente al verbo. Para estos casos, Chomsky propuso una transformacin para insertar el auxiliar do como un portador de tiempo. De esta misma forma se trataron, otros usos diversos del verbo auxiliar do, como la elipsis. Esta consideracin unificada de aparentes usos diferentes de do, junto con la claridad formal de la presentacin hicieron que muchos investigadores de la poca se adhirieran a la GGT. La GGT domin el campo de la teora sintctica de los aos sesenta a los ochenta. La GGT cambi significativamente desde su aparicin pero a pesar de su evolucin, la nocin de derivacin transformacional ha estado presente de una u otra manera en prcticamente cada una de sus formulaciones. TEORA ESTNDAR La GGT inicial se transform en base a los cambios propuestos en los trabajos de [Katz & Postal, 64] y de [Chomsky, 65]. La teora resultante fue La Teora Estndar (Standard Theory, en ingls, ST). Entre esos cambios, la ST introdujo el uso de reglas recursivas de estructura de frase para eliminar las transformaciones que combinaban mltiples rboles en uno solo, y la inclusin de caractersticas sintcticas, para considerar la subcategorizacin (tema de la seccin 1.1.2). Otra aportacin fue la adicin de una componente semntica interpretativa a la teora de la gramtica transformacional.

22

Las reglas de estructura de frase permiten la recursividad, por ejemplo, en verbos como decir que adems de tener un complemento tipo grupo nominal (dijo una mentira) aceptan complementos tipo oracin (dijo que Mara deca mentiras). Un ejemplo de reglas recursivas es:

En la primera regla, O puede reescribirse con GN GV, y a su vez GV tiene sustitucin de O, y as sucesivamente (Juan dijo que Mara dijo que Pedro dijo ). En la ST se presenta el concepto de estructura profunda, es decir, el rbol inicial en cada derivacin de la oracin. Esta estructura profunda representaba de una forma transparente toda la informacin necesaria para la interpretacin semntica. Se sostena que haba un mapeo simple entre los roles semnticos desempeados por los argumentos del verbo y las relaciones gramaticales [6] de la estructura profunda (sujeto, objeto, etc.). En el rbol final de la derivacin, las palabras y las frases estaban ordenadas en la forma en que la oracin sera realmente pronunciada, es decir, en su estructura superficial. En esta teora, las transformaciones se propusieron para ser el enlace primario entre voz y sentido, en el lenguaje. Los experimentos iniciales que mostraban una correlacin entre la complejidad de una oracin y el nmero de transformaciones propuestas en su derivacin dieron credibilidad a esta idea pero investigaciones posteriores mostraron que no se poda sustentar. Ninguna teora generativa actual mantiene esta idea central de las transformaciones. Uno de los problemas fundamentales planteados por la ST es que el sentido est determinado a partir de la estructura profunda, antes de la aplicacin de las transformaciones, pero entonces la influencia de las transformaciones sobre los sentidos no es nada clara. La mayora de las teoras gramaticales contemporneas han mantenido las innovaciones ms importantes de la ST, es decir, las caractersticas sintcticas, la estructura de frase recursiva y alguna clase de componente semntica. TEORA ESTNDAR AMPLIADA Chomsky y algunos otros abandonaron poco despus de la ST la idea de que deban ser sinnimas las oraciones con estructuras profundas idnticas. En particular, demostraron que las transformaciones que reordenan grupos nominales cuantificados pueden cambiar el alcance de los cuantificadores. Un ejemplo muy conocido es el de Many people read few books (mucha gente lee pocos libros) que tiene interpretaciones diferentes de Few books are read by many people (pocos libros son ledos por mucha gente). En consecuencia, propusieron que estructuras diferentes, de las estructuras profundas, deban desempear un papel en la interpretacin semntica. El marco terico que Chomsky denomin Teora Estndar Ampliada (The Extended Standard Theory en ingls, EST), propuso una teora muy reducida en transformaciones, y en su lugar se mejoraron otras componentes de la teora para mantener la capacidad descriptiva. Adems de nuevos tipos de reglas semnticas, introdujeron la esquematizacin de reglas de estructura de frase, y una concepcin mejorada del diccionario, incluyendo reglas lxicas. Estas modificaciones se han trasladado a muchos trabajos contemporneos. La EST present dos modificaciones esenciales: El modelo de interpretacin semntica debe considerar el conjunto de rboles engendrados por las transformaciones a partir de la estructura profunda El modelo incluye una etapa de insercin lxica antes de la aplicacin de las transformaciones. As que slo existen dos tipos de reglas: las gramaticales y las de insercin lxica.

La gramtica produce un conjunto de pre-terminales que no contienen ms que marcadores gramaticales, marcadores de transformaciones (que indican cuales son las transformaciones que se efectuarn) y las categoras lxicas. Las reglas de insercin lxica reemplazan estas ltimas por las palabras, produciendo as el conjunto de terminales. La EST consider la introduccin de categoras vacas, que son elementos que ocupan posiciones en un rbol pero que no tienen una realizacin fontica. Incluyen un tipo de pronombre nulo usado en construcciones de control[7], y huellas[8] de elementos que han sido trasladados. Por ejemplo, ver23

Figura 2[9], un sujeto nulo (anfora pronominal pro) en la frase espaola Estudian pocas horas; una huella de grupo nominal en la frase Juan parece ser feliz (la huella GN corresponde a Juan, el sujeto semntico de ser.

Figura 2. Categoras vacas

Uno de los intereses centrales de la EST y de trabajo posterior ha sido restringir la potencia de la teora, es decir, restringir la clase de gramticas que la teora hace disponibles. La explicacin principal para buscar esas restricciones ha sido considerar la posibilidad de la adquisicin del lenguaje, la cul fue considerada por Chomsky como la cuestin central de sus estudios lingsticos.

Los sucesores y la paliacin de los defectos del modelo transformacionalLas teoras siguientes a partir de la EST buscaron sobre todo resolver las cuestiones metodolgicas debidas a la sobrecapacidad del modelo. [Salomaa, 71] y [Peters & Ritchie, 73] demostraron que el modelo transformacional era equivalente a una gramtica sin restricciones, es decir, del tipo 0 en la jerarqua de Chomsky. De hecho, despus de varios aos de trabajo, estaba claro que las reglas transformacionales eran muy poderosas y se permitan para toda clase de operaciones que realmente nunca haban sido necesarias en las gramticas de lenguajes naturales. Por lo que el objetivo de restringir las transformaciones se volvi un tema de investigacin muy importante. [Bresnan, 78] presenta la Gramtica Transformacional Realista que por primera vez provea un tratamiento convincente de numerosos fenmenos, como la posibilidad de tener forma pasiva en trminos lxicos y no en trminos transformacionales. Este paso de Bresnan fue seguido por otros investigadores para tratar de eliminar totalmente las transformaciones en la teora sintctica. Otra circunstancia en favor de la eliminacin de las transformaciones fue la introduccin de la Gramtica de Montague [Montague, 70, 74], ya que al proveer nuevas tcnicas para la caracterizacin de los sentidos, directamente en trminos de la estructura superficial, eliminaba la motivacin semntica para las transformaciones sintcticas. En muchas versiones de la gramtica transformacional, las oraciones pasivas y activas se derivaban de una estructura comn subyacente, llevando a la sugerencia controversial, de que las derivaciones transformacionales preservaban muchos aspectos del sentido. Con el empleo de mtodos de anlisis semntico como el de Montague, se podan asignar formalmente distintas estructuras superficiales a distintas pero equivalentes interpretaciones semnticas; de esta manera, se consideraba la semntica sin necesidad de las transformaciones.Es as como a fines de la dcada de los setenta y principios de los ochenta surgen los formalismos generativos donde las transformaciones, si existen, tienen un papel menor. Los ms notables entre stos son: Government and Binding (GB), Generalized Phrase Structure Grammar (GPSG), Lexical-Functional Grammar (LFG) y Head-Driven Phrase Structure Grammar (HPSG), que indican los caminos que han llevado al estado actual en el enfoque de constituyentes.

TEORA DE LA RECCIN Y LIGAMENTO (GB)

24

La teora de la Reccin y Ligamento conocida como GB apareci por primera vez en el libro Lectures on Government and Binding de 81 [Chomsky, 82]. El objetivo primordial de la GB, como mucho del trabajo de Chomsky, fue el desarrollo de una teora de la gramtica universal. La GB afirma que muchos de los principios que integran esta teora estn parametrizados, en el sentido de que los valores varan dentro de un rango limitado. La GB afirma que todos los lenguajes son esencialmente semejantes y que el conocimiento experimental con un lenguaje particular o con otro es una clase de fina sintonizacin dentro de un rango determinado, es decir, con unos pocos parmetros restringidos de posible variacin. La nocin que adquiere un papel preponderante en el enfoque de constituyentes es una nocin muy importante de la Gramatical Universal, la restriccin. La suposicin en que se basa esta teora y que es compartida por muchas otras, es que cualquier cosa es posible y que los datos faltantes en la oracin reflejan la operacin de alguna restriccin. El rea ms activa de investigacin sintctica desde los inicios de los ochenta ha sido precisamente resolver los detalles de este programa ambicioso. En la GB se sigue el desarrollo del estilo modular de la EST, dividiendo la teora de la gramtica en un conjunto de subteoras, cada una con su propio conjunto universal de principios. Aunque la GB an utiliza las derivaciones transformacionales para analizar oraciones, reduce la componente transformacional a una sola regla (Move ), que puede mover cualquier elemento a cualquier lugar. La idea es que los principios generales filtren la mayora de las derivaciones, previniendo la sobregeneracin masiva que pudiera ocurrir.

Figura 3. Organizacin de la GB

La organizacin general de la GB con todos sus componentes[10], presentado por [Sells, 85] se muestra en la Figura 3. Las estructuras -d y -s desempean una funcin similar pero no idntica que las nociones de estructura profunda y superficial respectivamente de la ST. Estos niveles estn relacionados por la operacin Move- , donde se entiende que sea una variable sobre las categoras sintcticas. Puede considerarse que muchas de las transformaciones de las teoras precedentes se factorizaron en operaciones elementales donde ya no existen reglas especficas (transformaciones) como la de la pasiva sino que existe el movimiento de cualquier elemento a cualquier posicin, y los principios y las restricciones regulan las operaciones de Move- . La Teora (o de relaciones temticas) provee informacin semntica. Los -roles se refieren a los participantes en la accin del verbo. En la GB se presupone que hay un nmero relativamente pequeo y por supuesto finito de estos roles, y emplea el criterio para establecer exactamente el nmero de argumentos que lxicamente especifica cada h-ncleo[11]. El filtro de caso se emplea para la buena formacin de la estructura y la distribucin de grupos nominales. Se basa en la tradicional nocin de caso gramatical (nominativo, acusativo, dativo), que vara con el tipo de lenguaje.25

La Teora del Ligamento (Binding Theory, en ingls, BT) ha sido el mayor tpico de investigacin dentro de la GB, caracteriza las relaciones interpretativas entre grupos nominales. La BT rene principios como el Principio de la Categora Vaca (PCV). El anlisis en la GB propone diferentes tipos que podran clasificarse de acuerdo a las caractersticas anafrica y pronominal, en abiertos o vacos. Los de tipo abierto son explcitos y reflexivos; los vacos son: desplazamiento wh[12] en formas interrogativas, pronombres tcitos del espaol (pro), pronombres para infinitivos (PRO), huellas de GN en verbos de control. El movimiento va dejando huellas (una clase de categora vaca), las cuales estn limitadas por el elemento que se ha movido. La BT relaciona as las restricciones en el movimiento, con posibles relaciones de pronombres con antecedentes. La GB considera que, intuitivamente, las anforas son aquellas que deben tener un antecedente (como los pronombres reflexivos) y los pronominales (como los pronombres personales) pueden tener un antecedente; todo esto se considera dentro de la misma clusula. Puesto que el movimiento se usa para tratar con un rango amplio de fenmenos; entre ellos la relacin activa - pasiva, la extraposicin[13], y la inversin de auxiliares, se produce un sistema abundantemente interconectado al ligar todos stos a los principios de la BT. En la GB hay un cambio importante en la descripcin estructural. Las estructuras de frase estn altamente articuladas, es decir, combinadas y relacionadas segn ciertas normas de distribucin, orden y dependencias. Distinciones y relaciones, lingsticamente significantes, estn codificadas dentro de las configuraciones del rbol tipo GB. Por ejemplo la categora abstracta INFL, que contiene informacin de tiempo y concordancia, aparece en el rbol. La literatura dentro de este formalismo es vasta, y representa un rango mucho ms amplio de anlisis que cualquiera de las otras teoras consideradas. Estudios lingsticos del espaol se basan en este formalismo para sus descripciones [Lamiroy, 94], [Wilkins, 97]. El descendiente ms reciente de la GB es el Programa Minimalista (PM) [Chomsky, 95]. Como su nombre lo implica, PM es ms un programa de investigacin que una teora de sintaxis ya realizada. El PM explora la idea de que en lugar de generar oraciones directamente, lo que las gramticas deberan hacer es seleccionar las mejores expresiones a partir de un conjunto de candidatas. El trabajo de elaborar los detalles del PM est an en etapas iniciales. Una diferencia conceptual mayor entre la GB y el PM es que en el PM los elementos lxicos portan sus caractersticas junto con ellos en lugar de asignrseles sus caractersticas basndose en los nodos en los que ellos rematan. Por ejemplo, los sustantivos llevan las caractersticas de caso con ellos y ese caso se revisa cuando los sustantivos estn en una posicin de especificacin de concordancia. El PM se origina a partir de la GB pero representa una considerable desviacin del trabajo inicial en ese formalismo. Su meta es explicar la estructura lingstica en trminos de condiciones de ahorro que son intuitivamente naturales en las gramticas y en sus operaciones. Por ejemplo, los anlisis tienen un mejor valor si minimizan la cantidad de estructura y la longitud de las derivaciones propuestas. GRAMTICA DE ESTRUCTURA DE FRASE GENERALIZADA (GPSG) La Gramtica de Estructura de Frase Generalizada (Generalized Phrase Structure Grammar, en ingls, GPSG) fue iniciada por Gerald Gazdar en 1981, y desarrollada por l y un grupo de investigadores, integrando ideas de otros formalismos; la teora se expone detalladamente en [Gazdar et al, 85].La idea central de la GPSG es que las gramticas usuales de estructura de frase independientes del contexto pueden mejorarse en formas que no enriquecen su capacidad generativa pero que las hacen adecuadas para la descripcin de la sintaxis de lenguajes naturales. Al situar la estructura de frase, otra vez, en un lugar principal consideraban que los argumentos que se haban aducido contra las CFG, como una teora de sintaxis, eran argumentos relacionados con la eficiencia o la elegancia de la notacin y no realmente en cuanto a la cobertura del lenguaje.

La GPSG propone slo un nivel sintctico de representacin que corresponde a la estructura superficial, y reglas que no son de estructura de frase en el sentido en que no estn en una correspondencia directa con partes del rbol. Entre otras ideas importantes originadas en la teora26

est la separacin de las reglas en reglas de dominancia inmediata (reglas ID, Immediate dominance en ingls) que especifican solamente las frases que pueden aparecer como nodos en un rbol sintctico, y las reglas de precedencia lineal (reglas LP, Linear precedence en ingls) que especifican restricciones generales que determinan el orden de los nodos en cualquier rbol. Una consideracin importante en las reglas, es que puede describirse informacin gramatical. Esta informacin gramatical codificada se toma como restriccin en la admisibilidad en los nodos. Por ejemplo:

Las dos ltimas reglas son reglas sensitivas al contexto, no generan nada porque la primera establece la reescritura de O por GN GV, pero ellas dos, interpretadas como la posibilidad de admisin, se refieren a que se admite Juan duerme como una oracin a la que se le generaron rboles, enseguida se le revisaron los nodos y se verific la cadena. As que aunque la GPSG excluye las transformaciones, la gramtica se vuelve gramatical-lxica, pero realmente poco o nada se dice acerca del diccionario. Especialmente la informacin de subcategoras del verbo se encuentra en las reglas ID lxicas y no como entradas lxicas en el diccionario. Esta teora incluye la consideracin del h-ncleo en las reglas, y de categoras. Las categoras son un conjunto de pares caracterstica - valor. Las caractersticas tienen dos propiedades: tipos de valores y regularidades distribucionales (compartidos con otras caractersticas). La GPSG es de hecho una teora de cmo la informacin sintctica fluye dentro de la estructura. Esta informacin est codificada mediante caractersticas sintcticas. Todas la teoras sintcticas emplean caractersticas en diferentes grados, pero en la GPSG se emplean principios para el uso de caractersticas. Los principios determinan cmo se distribuyen las caractersticas en el rbol, o restringen la clase de categoras posibles. Otra idea importante en la GPSG es el tratamiento de las construcciones de dependencia a largas distancias, incluyendo las construcciones de llenado de faltantes (filling gap en ingls) como: topicalizacin[14], preguntas con Wh y clusulas relativas. Este fenmeno estaba considerado como totalmente fuera del alcance de las gramticas sin transformaciones. En las dependencias a larga distancia, sin lmite, existe una relacin entre dos posiciones en la estructura sintctica, relacin que puede alargarse. Por ejemplo, en la frase:Which woman did Max say _ has declared herself President? (Qu mujer dijo Max que se haba declarado Presidenta?)

El guin bajo indica la posicin de la frase desplazada which woman, que puede alejarse a una posicin potencialmente sin lmite en el rbol sintctico. Mientras en la GB se dejaba una huella, en la GPSG el trato de este fenmeno involucra una codificacin local de la ausencia del constituyente dado mediante una especificacin de caractersticas. Por ejemplo, a partir de la regla: que introduce una oracin finita como un nodo, se puede obtener, mediante una metaregla, la siguiente regla:

27

Figura 4. Fragmento de clusula relativa

con un GV finito en lugar de la oracin, y con la indicacin del GN faltante mediante la diagonal. La GPSG incluye la introduccin de head en las reglas, que se marca con H en los ejemplos anteriores. La regla ltima permite el rbol sintctico de la Figura 4, para un fragmento de la clusula relativa la nia que vi que corri, que correspondera al desplazamiento al inicio, de la cadena la nia en la frase vi la nia que corri. El resultado ms importante del anlisis en la GPSG es que pudo manejar construcciones que se pensaba slo podan describirse con la ayuda de las transformaciones. En este formalismo las transformaciones no figuran en ningn sentido en la teora; es ms, sin transformaciones de las dependencias de llenado de faltantes tuvo xito en estos fenmenos donde la teora transformacional haba fallado. GRAMTICA LXICA FUNCIONAL (LFG) La teora de la Gramtica Lxica Funcional (Lexical Functional Grammar en ingls, LFG) desarrollada por [Bresnan, 82] y [Dalrymple et al, 95] comparte con otros formalismos la idea de que conceptos relacionales, como sujeto y objeto, son de importancia central y no pueden definirse en trminos de estructuras de rboles. La LFG considera que hay ms en la sintaxis de lo que se puede expresar con rboles de estructura de frase, pero tambin considera la estructura de frase como una parte esencial de la descripcin gramatical. La teora se ha centrado en el desarrollo de una teora universal de cmo las estructuras de constituyentes se asocian con los objetos sintcticos. La LFG toma esos objetos sintcticos como primitivas de la teora, en trminos de las cuales se establecen una gran cantidad de reglas y condiciones. En la LFG, hay dos niveles paralelos de representacin sintctica: la estructura de constituyentes (estructura-c) y la estructura funcional (estructura-f). La primera tiene la forma de rboles de estructura de frase independientes del contexto. La segunda es un conjunto de pares de atributos y valores donde los atributos pueden ser caractersticas como tiempo y gnero, u objetos sintcticos como sujeto y objeto. En la LFG se considera que la estructura-f despliega los objetos sintcticos. Por ejemplo:

Las flechas ( y ) se refieren a la estructura-f correspondiente al nodo de la estructura-c construida por la regla. La flecha hacia arriba se refiere a la estructura-f del nodo madre y la flecha hacia abajo se refiere a la estructura-f del nodo mismo. Estas anotaciones indican que toda la informacin funcional que lleva el GN (es decir, la estructura-f de GN) va a la parte SUJ (sujeto) de la estructura-f del nodo madre (es decir, la estructura-f de O), y que toda la informacin funcional que lleva el GV (es decir, la estructura-f de GV) tambin es informacin de la estructura-f del nodo madre. De esta manera se establecen las relaciones entre estructuras, la estructura-f para la frase John eats pizza, sera la siguiente:28

El valor de PRED (de predicado), indica el contenido semntico del elemento correspondiente. Por ejemplo el contenido semntico del sujeto en esa frase es John. En la entrada del verbo eat (comer) la parte lxica indica que el verbo subcategoriza un sujeto y un objeto; mediante las flechas se especifica que la estructura-f del nodo madre tiene un sujeto y un objeto. La inflexin del verbo aade la informacin del atributo tiempo verbal con el valor PRES (presente). El nombre de la teora enfatiza una diferencia importante entre la LFG y la tradicin Chomskyana de la cul se desarroll: muchos fenmenos se analizan de una forma ms natural en trminos de objetos sintcticos (como se representan en el diccionario o en la estructura-f) que en el nivel de la estructura de frase. La parte lxica enfatiza la expresin para caracterizar procesos que alteran la relacin de los predicados en el diccionario. Por ejemplo, la relacin entre construcciones pasivas y activas. En la LFG cada frase se asocia con estructuras mltiples de distintos tipos, donde cada estructura expresa una clase diferente de informacin acerca de la frase. Siendo las dos representaciones principales las mencionadas estructura funcional y estructura de constituyentes (similar a la estructura superficial de la ST). Los principios generales y las restricciones de construccin especfica definen las posibles parejas de estructuras funcionales y de constituyentes. La LFG reconoce un nmero ms amplio de niveles de representacin. Tal vez los ms notables entre stos son las estructuras- , que representan aspectos lingsticamente relevantes del sentido, y la estructura-a que sirve para enlazar argumentos sintcticos con aspectos de sus sentidos [Bresnan, 95] y que codifica informacin lxica acerca del nmero de argumentos, su tipo sintctico y su organizacin jerrquica, necesarios para realizar el mapeo a la estructura sintctica. Todos los elementos lxicos se insertan en estructuras-c en forma totalmente flexionada. Debido a que en la LFG no hay transformaciones, mucho del trabajo descriptivo que se haca con transformaciones se maneja mediante un diccionario enriquecido, una idea importante de la LFG. Por ejemplo, la relacin activa-pasiva. se determina solamente por un proceso lxico que relaciona formas pasivas del verbo a formas activas, la cul en lugar de tratarse como una transformacin se maneja en el diccionario como una relacin lxica entre dos formas de verbos. La regla de pasiva es una regla lxica, la cul esencialmente aade el morfema de pasiva al verbo y cambia sus complementos de tal manera que el argumento asociado con el objeto de la forma activa se convierte en sujeto, y el sujeto se asigna a una funcin nula o a un Agente Oblicuo.

Por ejemplo, en la frase eaten by pirahnas:

En las LFG iniciales, la relacin activa-pasiva fue codificada en trminos de reglas lxicas, trabajo subsecuente ha buscado desarrollar una concepcin ms abstracta de las relaciones lxicas en trminos de una teora de mapeo lxico (TML). La TML provee restricciones en la relacin entre estructuras-f y estructuras-a, es decir, restricciones asociadas con argumentos particulares que parcialmente determinan su 29

funcin gramatical. Contiene tambin mecanismos con los cuales los argumentos pueden suprimirse en el curso de la derivacin lxica. En la LFG la informacin de las entradas lxicas y las marcas de la frase se unifican para producir las estructuras funcionales de expresiones complejas.

GRAMTICA DE ESTRUCTURA DE FRASE DIRIGIDA POR EL H-NCLEO (HSPG) La Gramtica de Estructura de Frase dirigida por el h-ncleo (Head-driven Phrase Structure Grammar en ingls, HPSG) iniciada en [Pollard & Sag, 87] y revisada en [Pollard & Sag, 94] evolucion directamente de la GPSG, para modificarla incorporando otras ideas y formalismos de los aos ochenta. El nombre se modific para reflejar el hecho de la importancia de la informacin codificada en los ncleos-h lxicos de las frases sintcticas, es decir, de la preponderancia del empleo de la marca head en el subconstituyente hija principal. En la HPSG se consider que no haba nada de especial en los sujetos salvo que era el menos oblicuo de los complementos que el h-ncleo selecciona. Para la GB el sujeto difiere de los complementos en la posicin que tiene en el rbol de proyecciones. Esta consideracin empez a cambiar en la revisin de 1994 de la HPSG, basndose en los trabajos de [Borsley, 90], donde se considera el sujeto en forma separada. La HPSG en [Pollard & Sag, 94] ampla el rango de los tipos lingsticos considerados, los signos consisten no solamente de la forma fontica sino de otros atributos o caractersticas, con la finalidad de tratar una mayor cantidad de problemas empricos. En esta teora los atributos de la estructura lingstica estn relacionados mediante una estructura compartida. De acuerdo a principios especiales introducidos en la teora, las caractersticas principales de los h-ncleos y algunas de las caractersticas de los nodos hijas se heredan a travs del constituyente abarcador.

Figura 5. Estructura para el pronombre she

El principal tipo de objeto en la HPSG es el signo (correspondiente a la estructura de caractersticas clase sign), y lo divide en dos subtipos disjuntos: los signos de frase (tipo frase) y los signos lxicos (tipo palabra). Las palabras poseen como mnimo dos atributos: uno fontico PHON (representacin del contenido de sonido del signo) y otro SYNSEM (compuesto de30

informacin lingstica tanto sintctica como semntica). Con los atributos y valores de estos objetos se crea una estructura de caractersticas como la de la Figura 5 para la palabra she, y enseguida mediante diagramas de matrices atributo-valor (MAV) en la Figura 6. En la Figura 5 las etiquetas de los nodos marcan los valores y las etiquetas de los arcos los atributos. En la Figura 6 los valores intermedios aparecen en la parte baja. Los cuadros marca establecen ligas de valores. De acuerdo a principios especiales introducidos en la teora, las caractersticas principales de los h-ncleos y algunas de las caractersticas de los nodos hijas se heredan a travs del constituyente abarcador. Las frases tienen un atributo DAUGHTERS (DTRS), adems de PHON y SYNSEM, cuyo valor es una estructura de caractersticas de tipo estructura de constituyentes (con-struc) que representa la estructura de constituyentes inmediatos de la frase. El tipo con-struc tiene varios subtipos caracterizados por las clases de hijas que aparecen en la frases. El tipo ms simple y ms empleado es el head-struc que incluye HEAD-DAUGHTERS (HEAD- DTR) y COMPLEMENTDAUGHTERS (COMP-DTRS), que a su vez tienen atributos PHON y SYNSEM. Por ejemplo para la frase Kim walks se tiene la estructura en la Figura 7.Un punto importante en la HPSG es que tiene varios principios: de constituencia inmediata de las frases (proyeccin de los ncleos-h), de subcategorizacin, de semntica, etc., que realmente son restricciones disyuntivas. En la HPSG se considera que hay dos tipos de restricciones: de la gramtica universal y de la gramtica particular. As que las expresiones gramaticales de un lenguaje particular dependen de las interacciones entre un sistema complejo de restricciones universales y particulares.

Para tratar los diversos fenmenos que en la GPSG se consideraron como dependencias sin lmite, la HPSG emplea dos principios de la gramtica universal (de realizacin de argumentos y el principio de faltantes) y una restriccin del lenguaje particular (la condicin sujeto). En la HPSG, el diccionario, un sistema de entradas lxicas, corresponde a restricciones de la gramtica particular. Cada palabra en el diccionario tiene informacin semntica que permite combinar el sentido de palabras diferentes en una estructura coherente unida.

Figura6. Estructura de caractersticas mediante MAV

phrase

Figura 7. Estructura de caractersticas mediante MAV

31

Algunas de las ideas clave en la HPSG son entonces: 1) Arquitectura basada en signos lingsticos. 2) Organizacin de la informacin lingstica mediante tipos, jerarquas de tipos y herencia de restricciones. 3) La proyeccin de frases mediante principios generales a partir de informacin con abundancia lxica. 4) Organizacin de esa informacin lxica mediante un sistema de tipos lxicos. 5) Factorizacin de propiedades de frases en construcciones especficas y restricciones ms generales.

De las reglas a las restriccionesEn contraste con la tradicin de las gramticas generativas hay otra aproximacin a la teora generativa, igualmente sometida a la meta original de desarrollo de gramticas formuladas de manera precisa, las gramticas basadas en la nocin de satisfaccin de restricciones en lugar de derivaciones transformacionales. En las gramticas de restricciones las entradas lxicas incorporan informacin acerca de las propiedades de combinacin de las palabras con la finalidad de que solamente se requieran operaciones generales esquemticas en la sintaxis. GRAMTICA CATEGORIAL (CG) La Gramtica Categorial (Categorial Grammar, en ingls, CG), introducida por [Ajdukiewicz, 35], adquiri importancia para los lingistas cuando [Montague, 70] la us como el marco sintctico de su aproximacin para analizar la semntica del lenguaje natural. La idea central de la CG es que una concepcin enriquecida de categoras gramaticales puede eliminar la necesidad de muchas de las construcciones que se encuentran en otras teoras gramaticales