Upload
maria-cristina-araya-segura
View
227
Download
0
Tags:
Embed Size (px)
Citation preview
Redes de relaciones semánticas
WordNet. A lexical database for the English Language (Version 1.0, June 1991)
http://www.cogsci.princeton.edu/~wn/
Consultas de WordNet on line:
http://www.cogsci.princeton.edu/cgi-bin/webwn
Proyectos de semántica léxica durante la década de los 90 en Estados Unidos:
=> stringed instrument -- (a musical instrument in which taut strings provide the source of sound)
=> musical instrument -- (an instrument used to produce music)
=> instrument -- (a device that requires skill for proper use)
=> device -- (an instrumentality invented for a particular purpose; "the device is small enough to wear on your wrist"; "a device intended to conserve water")
=> instrumentality, instrumentation -- (an artifact (or system of artifacts) that is instrumental in accomplishing some end)
=> artifact, artefact -- (a man-made object)
=> object, physical object -- (a physical (tangible and visible) entity; "it was full of rackets, balls and other objects")
=> entity, something -- (anything having existence (living or nonliving))
Relaciones de hiponimia/hiperonimiaRecursively display `hypernym' (superordinate) tree
piano, pianoforte, forte-piano -- (a stringed instrument that is played by depressing keys that cause hammers to strike tuned strings and produce sounds)
EuroWordNet (1996/1999):
http://www.hum.uva.nl/~ewn/
Spanish WordNet, de venta en European Language Resources Association (ELRA):
http://www.icp.inpg.fr/ELRA/cata/text_det.html#eurowordnet
http://www.icp.inpg.fr/ELRA/home.html
Réplica del proyecto WordNet en Europa: EuroWordNet
PAROLE (Preparatory Action for Linguistic Resources Organization for Language Engineering, 1996/1997)
http://www.ub.es/gilcub/SIMPLE/simple.html
PAROLE Spanish Lexicon, de venta en European Language Resources Association (ELRA):
http://www.icp.inpg.fr/ELRA/cata/text_det.html#spanparollex
http://www.icp.inpg.fr/ELRA/home.html
Proyectos de sintaxis léxica durante la década de los 90 en Estados Unidos (y sus réplicas europeas):
COMLEX Syntax (Version 1.0, May 1994)
http://www.cs.nyu.edu/cs/faculty/grishman/comlex.html
SIMPLE (Semantic Information for Multifunctional Plurilingual Lexica, 1998/2000)
http://www.ub.es/gilcub/SIMPLE/simple.html
http://www.ub.es/gilcub/castellano/proyectos/europeos/simple.html#Resumen
The FrameNet Project. Tools for Lexicon Building (1997/2000, 2000/2003):
http://www.icsi.berkeley.edu/~framenet/
Información lingüística detallada sobre el proyecto FrameNet:
http://www.icsi.berkeley.edu/~framenet/book.html
Primera aplicación al español: M. Cristóbal (ICSI) y Laboratorio de Lingüística Informática, UAB:
http://wasabi.icsi.berkeley.edu:8081/pub/servlet/IndexSpanish
Proyectos de semántica léxica en Estados Unidos (1997/2003): la teoría de los marcos semánticos de Fillmore
Los orígenes de la sintaxis léxica en Europa
• Laboratoire d'Automatique Documentaire et Linguistique (LADL), Université Paris 7 (actualmente en la Université de Marne-la-Vallée):
http://ladl.univ-mlv.fr/index.html
• Primera gramática computacional del francés (Gross 1975)
• Primera gramática computacional del español: (Subirats 1981)
• Bibliografía de lingüística léxica europea (1987/1998):
http://ladl.univ-mlv.fr/English/biblio.html
http://ladl.univ-mlv.fr/French/bi_suite.html
Incongruencias de los Proyectos Europeos de lingüística léxica
1. Los recursos lingüísticos creados no están en Internet y no son de libre distribución, a pesar de que la financiación de PAROLE y SIMPLE, p. ej., ascendía a 5 millones de euros aprox. Los recursos lingüísticos de estos proyectos se tiene que comprar a ELRA (European Language Resources Association)
2. En PAROLE y SIMPLE, no se incorporó ni a los grupos de investigación ni a los investigadores que iniciaron los primeros trabajos sobre lingüística léxica en Europa.
3. En PAROLE y SIMPLE, se incluyó una lengua regional –el catalán–, a pesar de que la financiación de proyectos sobre lenguas regionales no depende de la misma Dirección General que financia los proyectos de lenguas nacionales.
La participación de España en los Proyectos Europeos de de ingeniería lingüística ha sido exigua, muy por debajo de la importancia económica del español en el mundo
• 1998 y 2002: 53 Proyectos
- Alemania: 40 (75%)
- Francia: 34 (64%)
- Italia: 27 (50%)
- España: 17 (32%)
• 1994 y 1998: 106 Proyectos
- Francia: 70 (66%)
- Alemania: 69 (65%)
- Italia: 48 (45%)
- España: 27 (26%)
1 Cf. A World of Understanding. Language Technologies. 1998. CD-ROM. European Commission, Telematics Applications Programme y A World of Understanding 2000. HLT Observatory. CD-ROM. Information Society Directorate General of the European Commission.
Los recursos léxicos de la lengua española
• A propósito de la lexicografía oficial: los diccionarios de la Real Academia Española:
• Diccionario de la Lengua Española, 21ª edición, 1992,
• Edición en CD-ROM (1995)
Palabras de uso común en la lengua española que no figuran en:
1. la edición de 1992 del Diccionario de la Lengua Española de la Real Academia Española (DRAE);
2. la edición en CD-ROM de 1995 del DRAE de 1992
3. los boletines cuatrimestrales (accesibles desde http://www.rae.es/NIVEL1/ACADRAE.HTM hasta hace unos meses) en los que la Academia publica una relación de las enmiendas y adiciones al Diccionario que se van aprobando en Sesión plenaria: acientífico, antialérgico, antiterrorista, celulitis, circularidad, clasificable, destacable, enfatización, entreno, finalización, fluctuante, hinchable, indisociable, iniciático, karaoke, lanzamisiles, etc. • Todas estas entradas figuran en el Diccionario del español actual de Manuel Seco de et al. de 1999; (excepciones: decepcionado, inacabado, etc.).
Corpus de Referencia del Español Actual (CREA) de la RAE: http://www.rae.es/NIVEL1/CREA.HTM
• Composición del CREA:
• Basicamente textos literarios y marginalmente textos periodísticos y publicaciones académicas
• Composición del British National Corpus (http://info.ox.ac.uk/bnc/) o el American National Corpus (http://www.cs.vassar.edu/~ide/anc/) –actualmente en fase de desarrollo–:
• Fundamentalmente textos periodísticos y publicaciones académicas y marginalmente textos literarios.
Miembros del consorcio académico e industrial del British National Corpus: http://info.ox.ac.uk/bnc/what/index.html
• Publishing Companies• Oxford University Press• Addison-Wesley Longman• Larousse Kingfisher Chambers
• Academic research centers:• Oxford University Computing Services• Lancaster University's Centre for Computer Research on the English Language• British Library's Research and Innovation Centre.
• Commercial partners: • Science and Engineering Council (now EPSRC)• DTI under the Joint Framework for Information Technology (JFIT) programme.
• Additional support:• British Library• British Academy
Miembros del consorcio del American National Corpus (ANC):5 instituciones académicas y 19 empresas
Instituciones académicas:
Vassar College New York University Linguistic Data Consortium, University of Pennsylvania International Computer Science Institute, University of California, Berkeley University of Colorado at Boulder
Miembros del consorcio del American National Corpus (ANC):19 empresas y 5 instituciones académicas
Empresas:
Pearson Education Random House Reference Langenscheidt Publishing Group HarperCollins Publishers Cambridge University Press LexiQuest Microsoft Corporation Shogakukan Inc. ACL Press Inc. Taishukan Publishing Company Oxford University Press Kenkyusha Ltd. IBM Corporation Obunsha Publishing Co. Ltd. Bloomsbury Publishing Plc Benesse Corporation Sanseido Co., Ltd. Sony Electronics Inc. Macmillan Publishers
¿Un consorcio para el desarrollo del Corpus de Referencia del Español Actual (CREA)?
La Real Academia es la única institución implicada en la construcción del CREA
Problemas del Corpus de Referencia del Español Actual de la RAE (1)
• No se ha previsto un plan de viabilidad comercial
No se previó inicialmente la adquisición de los derechos de las obras literarias que integraban el CREA (textos españoles a partir de 1975)
Ha quedado bloqueada la distribución –comercial o no– del CREA
El CREA sólo se puede consultar on line.
Dada que la consulta de las bases de datos que albergan un corpus consumen muchos recursos informáticos, el acceso al CREA suele estar saturado por un exceso de consultas.
Problemas del Corpus de Referencia del Español Actual de la RAE (2)
• El CREA se ha etiquetado con el sistema de dominio público MULTEXT (Multilingual Text Tools and Corpora, http://www.lpl.univ-aix.fr/projects/multext/)
se desaprovechan las ventajas para el procesamiento multilingüe del sistema MULTEXT: el CREA es un corpus monolingüe;
se tienen que asumir las limitaciones que surgen cuando se utiliza dicho sistema para una aplicación monolingüe para la que no ha sido diseñado.
Problemas del Corpus de Referencia del Español Actual de la RAE (3)
• MULTEXT no permite reconocer locuciones, como p. ej., locuciones verbales (adorar el santo por la peana, dar a luz), locuciones nominales (bomba atómica, objeto volante no identificado), etc.
• El motor de búsquedas del CREA solo admite búsquedas boolenas, es decir, concatenación de cadenas y/o búsquedas con los operadores y, o; p. ej., manzanas, manzanas verdes, manzanas y peras, manzanas verdes o peras.
• Existen sistemas de libre distribución con licencia, como CQP (Institut für Maschinelle Sprachverarbeitung, Universität Stuttgart, http://www.ims.uni-stuttgart.de) que admiten búsquedas con expresiones regulares, que son mucho más potentes y mejor adaptadas para el trabajo lingüístico que el motor de búsquedas del CREA.
Diccionarios electrónicos
Sintaxis electrónicas
Transductor léxico
Transductorsintáctico
Texto
Textotransducido
Transducción en
cascada
Conversor
Tratamiento automático de la información textual del español: Laboratorio de Lingüística Informática de la Universidad Autónoma
aparta,apartar.VPRED:IPRES:3s:IIMPE:2s
apartado,apartado.APRED:m:s,apartado.N:m:s,apartar.VPRED:PP:m:s
apartado/de/correos,apartado/de/correos.N:m:s
apartados,apartado.APRED:m:p,apartado.N:m:p,apartar.VPRED:PP:m:p
apartados/de/correos,apartado/de/correos.N:m:p
apartáis,apartar.VPRED:IPRES:2p
apartamento,apartamento.N:m:s
apartamentos,apartamento.N:m:p
apartamos,apartar.VPRED:IPRES:IPIND:1p
Muestra de un diccionario electrónico del español de 600,000 formas, generado automáticamente a partir de un diccionario de 93,000 lemas (67 palabras ortográficas y 26 locuciones)
aparta,apartar.VPRED:IPRES:3s:IIMPE:2s
apartado,apartado.APRED:m:s,apartado.N:m:s,apartar.VPRED:PP:m:s
apartado/de/correos,apartado/de/correos.N:m:s
apartados,apartado.APRED:m:p,apartado.N:m:p,apartar.VPRED:PP:m:p
apartados/de/correos,apartado/de/correos.N:m:p
apartáis,apartar.VPRED:IPRES:2p
apartamento,apartamento.N:m:s
apartamentos,apartamento.N:m:p
apartamos,apartar.VPRED:IPRES:IPIND:1p
Muestra de un diccionario electrónico del español de 600,000 formas, generado automáticamente a partir de un diccionario de 93,000 lemas (67,000 palabras ortográficas y 26,000 locuciones). El etiquetario de este diccionario esta descrito en http://seneca.uab.es/lali/etiquetario.html ; más información: http://seneca.uab.es/lali/Lexicos_electronicos.htm
# LocVpred 1N N1_LocVpred_N2 { dar/a/luz } { engendrar . }
$200.1$ {
( <dar.V:INF> + <dar.V:GER> + <dar.V:IIMPE:VAR-1> )
( <E> + <lo.CLI:f:s\1> + <lo.CLI:f:p\1> + <lo.CLI:m:s\1> + <lo.CLI:m:p\1> + <se.CLI:3s\1> )
( <ADV\2> + <PALABRA\2> * )
<a> <luz>
[&dar/a/luz.LOCVPRED,1-3,VAR-1 | 1 | 2 ] }
$200.2$ {
<dar.V:VAR-1:VAR-2:VAR-3>
( <ADV\1> + <PALABRA\1> * )
<a> <luz>
[&dar/a/luz.LOCVPRED,VAR-1,VAR-2,VAR-3 | 1 ] }
$201$ + 0 { Max dio a luz una novela espléndida. }
$202$ - * { }
$203$ - ?* { Max dio a luz su novela más esperada voluntariamente. }
$204$ - ?* { Max dio a luz una novela negra involuntariamente. }
$205$ - * { Max dio a luz a Eva. }
$206$ + 0 { Max dio a luz su novela más esperada. }
$207$ - ?* { Una novela espléndida fue dada a luz por Max. }
$208$ - * { }
$209.1$ + 0 { Cuando se da a luz un libro así, la fama llega sola. }
$300$ { Reducción de N2 prueba clara de que hay dar a luz 1 y 2 ( literal, que sí admite reducción de N2 ) . }
$200.1$ {
( <dar.V:INF> + <dar.V:GER> + <dar.V:IIMPE:VAR-1> )
( <E> + <lo.CLI:f:s\1> + <lo.CLI:f:p\1> + <lo.CLI:m:s\1> + <lo.CLI:m:p\1> + <se.CLI:3s\1> )
( <ADV\2> + <PALABRA\2> * )
<a> <luz>
[&dar/a/luz.LOCVPRED,1-3,VAR-1 | 1 | 2 ] }
$200.1$ {
( <dar.V:INF> + <dar.V:GER> + <dar.V:IIMPE:VAR-1> )
( <E> + <lo.CLI:f:s\1> + <lo.CLI:f:p\1> + <lo.CLI:m:s\1> + <lo.CLI:m:p\1> + <se.CLI:3s\1> )
( <ADV\2> + <PALABRA\2> * )
<a> <luz>
[&dar/a/luz.LOCVPRED,1-3,VAR-1 | 1 | 2 ] }
dar/a/luz
< d ar.V:IN F >
< d ar.V:G E R >
< d ar.V:IIM P E :VA R -1 >
< lo .C L I:f:s\1>< lo .C L I:f:p \1 >
< lo .C L I:m :s\1 >< lo .C L I:m :p \1> < se.C L I:3 s\1 >
< A D V \2>
< PA L A B R A \2>
< a >
< a >
< PA L A B R A \2>< a >
< PA L A B R A \2>
< PA L A B R A \2>
< a >
< a >
< a >
< A D V \2>
< lu z>& d ar /a /lu z .L O C V P R E D ,VA R -1,VA R -2,VA R -3 |1
< lu z>
3. Inserción del predicado en el árbol de gramáticas computacionales
1. Almacenamiento de los transductores en posiciones de memoria
2. Asociación de las posiciones de memoria al predicado
Conversión de una gramática computacional (Ortega 2001 y Aragón 2000)
Zona de memoria, donde se almacena la información comprimida
ser/posible
ser/un/peligro
APRED
dar/a/luz
< d ar.V:IN F >
< d ar.V:G E R >
< d ar.V:IIM P E :VA R -1 >
< lo .C L I:f:s\1>< lo .C L I:f:p \1 >
< lo .C L I:m :s\1 >< lo .C L I:m :p \1> < se.C L I:3 s\1 >
< A D V \2>
< PA L A B R A \2>
< a >
< a >
< PA L A B R A \2>< a >
< PA L A B R A \2>
< PA L A B R A \2>
< a >
< a >
< a >
< A D V \2>
< lu z>& d ar /a /lu z .L O C V P R E D ,VA R -1,VA R -2,VA R -3 |1
< lu z>
hablar
VPRED
GPPRED
NPREDestar/de/moda
tener/aires/de /suficiencia
GRAMÁTICA COMPUTACIONAL
< d ar.V:IN F >
< d ar.V:G E R >
< d ar.V:IIM P E :VA R -1 >
< lo .C L I:f:s\1>< lo .C L I:f:p \1 >
< lo .C L I:m :s\1 >< lo .C L I:m :p \1> < se.C L I:3 s\1>
< A D V \2>
< PA L A B R A \2>
< a >
< a >
< PA L A B R A \2>< a >
< PA L A B R A \2>
< PA L A B R A \2>
< a >
< a >
< a >
< A D V \2>
DET ADJ
N
a .la .m ierd a .N :m :s
DET ADJ
N
a .la .m ierd a .N :m :s
DET ADJ
N
a .la .m ierd a .N :m :s
DET ADJ
N
a .la .m ierd a .N :m :s
DET ADJ
N
a .la .m ierd a .N :m :s
< d ar.V:IN F >
< d ar.V:G E R >
< d ar.V:IIM P E :VA R -1 >
< lo .C L I:f:s\1>< lo .C L I:f:p \1 >
< lo .C L I:m :s\1 >< lo .C L I:m :p \1> < se.C L I:3 s\1>
< A D V \2>
< PA L A B R A \2>
< a >
< a >
< PA L A B R A \2>< a >
< PA L A B R A \2>
< PA L A B R A \2>
< a >
< a >
< a >
< A D V \2>
< d ar.V:IN F >
< d ar.V:G E R >
< d ar.V:IIM P E :VA R -1 >
< lo .C L I:f:s\1>< lo .C L I:f:p \1 >
< lo .C L I:m :s\1 >< lo .C L I:m :p \1> < se.C L I:3 s\1>
< A D V \2>
< PA L A B R A \2>
< a >
< a >
< PA L A B R A \2>< a >
< PA L A B R A \2>
< PA L A B R A \2>
< a >
< a >
< a >
< A D V \2>
DET ADJ
N
a .la .m ierd a .N :m :s
DET ADJ
N
a .la .m ierd a .N :m :s
DET ADJ
N
a .la .m ierd a .N :m :s
DET ADJ
N
a .la .m ierd a .N :m :s
Inserción del predicado en el árbol de gramáticas computacionales
a b c
< a b c >
Intersección de una cadena con un autómata
a b c
b a b
Intersección de una cadena con un transductor
Autómata finito
Transductor
Autómata resultante de la transducción
Transduce a por b Transduce b por c Transduce c por a
Intersección de un autómata con un transductor (1)
Autómata finito
Transductor subsecuencial
Transduce a por Transduce b por Transduce c por A y añade un nuevo estado al que se accede con B
Autómata finito con transiciones nulas
Intersección de un autómata con un transductor (2)
Autómata finito con transiciones nulas
Autómata finito determinista mínimo sin transiciones nulas
Determinización y minimización
Determinización y minimización de un autómata transducido
Corrió en todo momento un enorme riesgo
correr correr.VPRED:IPIND:3s,correrse.VPRED:IPIND:3s
en/todo/momento en/todo/momento.ADV
un un.DET:m:s
enorme enorme.APRED:m:f:s
riesgo riesgo.N:m:s
Análisis léxico automático
correr correr.VPRED:IPIND:3s,correrse.VPRED:IPIND:3s
en/todo/momento en/todo/momento.ADV
un un.DET:m:s
enorme enorme.APRED:m:f:s
riesgo riesgo.N:m:s
Corrió en todo momento un enorme riesgo
Análisis léxico automático en forma de autómata finito determinista
Transducción de un autómata-texto
Argumentos semánticos: PSPEAKER, ADRESSE, TOPÌC
Argumentos sintácticos: Pnn Max le hizo un comentario a Eva sobre este tema
Max le hizo un comentario a Eva en relación con este tema Max le hizo un comentario a Eva de este tema
Relación entre argumentos semánticos y sintácticos
• Establecimiento de clases de predicados en el léxico en función de sus argumentos semánticos
• Identificación en un corpus de los argumentos semánticos ligados a predicados específicos en el marco de construcciones sintácticas seleccionadas
• Utilización del corpus para el entrenamiento de aplicaciones de etiquetación semántica automática de textos
• Muestra de Spanish FrameNet
Estudio de los argumentos semánticos en el léxico