Redes de relaciones semánticas WordNet. A lexical database for the English Language (Version 1.0, June 1991) wn/ Consultas

Redes de relaciones semánticas

WordNet. A lexical database for the English Language (Version 1.0, June 1991)

http://www.cogsci.princeton.edu/~wn/

Consultas de WordNet on line:

http://www.cogsci.princeton.edu/cgi-bin/webwn

Proyectos de semántica léxica durante la década de los 90 en Estados Unidos:

http://www.cogsci.princeton.edu/~wn/



=> stringed instrument -- (a musical instrument in which taut strings provide the source of sound)

=> musical instrument -- (an instrument used to produce music)

=> instrument -- (a device that requires skill for proper use)

=> device -- (an instrumentality invented for a particular purpose; "the device is small enough to wear on your wrist"; "a device intended to conserve water")

=> instrumentality, instrumentation -- (an artifact (or system of artifacts) that is instrumental in accomplishing some end)

=> artifact, artefact -- (a man-made object)

=> object, physical object -- (a physical (tangible and visible) entity; "it was full of rackets, balls and other objects")

=> entity, something -- (anything having existence (living or nonliving))

Relaciones de hiponimia/hiperonimiaRecursively display `hypernym' (superordinate) tree

piano, pianoforte, forte-piano -- (a stringed instrument that is played by depressing keys that cause hammers to strike tuned strings and produce sounds)

EuroWordNet (1996/1999):

http://www.hum.uva.nl/~ewn/

Spanish WordNet, de venta en European Language Resources Association (ELRA):

http://www.icp.inpg.fr/ELRA/cata/text_det.html#eurowordnet

http://www.icp.inpg.fr/ELRA/home.html

Réplica del proyecto WordNet en Europa: EuroWordNet

PAROLE (Preparatory Action for Linguistic Resources Organization for Language Engineering, 1996/1997)

http://www.ub.es/gilcub/SIMPLE/simple.html

PAROLE Spanish Lexicon, de venta en European Language Resources Association (ELRA):

http://www.icp.inpg.fr/ELRA/cata/text_det.html#spanparollex


Proyectos de sintaxis léxica durante la década de los 90 en Estados Unidos (y sus réplicas europeas):

COMLEX Syntax (Version 1.0, May 1994)

http://www.cs.nyu.edu/cs/faculty/grishman/comlex.html

SIMPLE (Semantic Information for Multifunctional Plurilingual Lexica, 1998/2000)


http://www.ub.es/gilcub/castellano/proyectos/europeos/simple.html#Resumen


http://www.icp.inpg.fr/ELRA/cata/text_det.html#spanparollex



The FrameNet Project. Tools for Lexicon Building (1997/2000, 2000/2003):

http://www.icsi.berkeley.edu/~framenet/

Información lingüística detallada sobre el proyecto FrameNet:

http://www.icsi.berkeley.edu/~framenet/book.html

Primera aplicación al español: M. Cristóbal (ICSI) y Laboratorio de Lingüística Informática, UAB:

http://wasabi.icsi.berkeley.edu:8081/pub/servlet/IndexSpanish

Proyectos de semántica léxica en Estados Unidos (1997/2003): la teoría de los marcos semánticos de Fillmore

http://www.icsi.berkeley.edu/~framenet/



Los orígenes de la sintaxis léxica en Europa

• Laboratoire d'Automatique Documentaire et Linguistique (LADL), Université Paris 7 (actualmente en la Université de Marne-la-Vallée):

http://ladl.univ-mlv.fr/index.html

• Primera gramática computacional del francés (Gross 1975)

• Primera gramática computacional del español: (Subirats 1981)

• Bibliografía de lingüística léxica europea (1987/1998):

http://ladl.univ-mlv.fr/English/biblio.html

http://ladl.univ-mlv.fr/French/bi_suite.html



http://ladl.univ-mlv.fr/English/biblio.html

http://ladl.univ-mlv.fr/French/bi_suite.html

Incongruencias de los Proyectos Europeos de lingüística léxica

1. Los recursos lingüísticos creados no están en Internet y no son de libre distribución, a pesar de que la financiación de PAROLE y SIMPLE, p. ej., ascendía a 5 millones de euros aprox. Los recursos lingüísticos de estos proyectos se tiene que comprar a ELRA (European Language Resources Association)

2. En PAROLE y SIMPLE, no se incorporó ni a los grupos de investigación ni a los investigadores que iniciaron los primeros trabajos sobre lingüística léxica en Europa.

3. En PAROLE y SIMPLE, se incluyó una lengua regional –el catalán–, a pesar de que la financiación de proyectos sobre lenguas regionales no depende de la misma Dirección General que financia los proyectos de lenguas nacionales.

La participación de España en los Proyectos Europeos de de ingeniería lingüística ha sido exigua, muy por debajo de la importancia económica del español en el mundo

• 1998 y 2002: 53 Proyectos

- Alemania: 40 (75%)

- Francia: 34 (64%)

- Italia: 27 (50%)

- España: 17 (32%)

• 1994 y 1998: 106 Proyectos

- Francia: 70 (66%)

- Alemania: 69 (65%)

- Italia: 48 (45%)

- España: 27 (26%)

1 Cf. A World of Understanding. Language Technologies. 1998. CD-ROM. European Commission, Telematics Applications Programme y A World of Understanding 2000. HLT Observatory. CD-ROM. Information Society Directorate General of the European Commission.

Los recursos léxicos de la lengua española

• A propósito de la lexicografía oficial: los diccionarios de la Real Academia Española:

• Diccionario de la Lengua Española, 21ª edición, 1992,

• Edición en CD-ROM (1995)

Palabras de uso común en la lengua española que no figuran en:

1. la edición de 1992 del Diccionario de la Lengua Española de la Real Academia Española (DRAE);

2. la edición en CD-ROM de 1995 del DRAE de 1992

3. los boletines cuatrimestrales (accesibles desde http://www.rae.es/NIVEL1/ACADRAE.HTM hasta hace unos meses) en los que la Academia publica una relación de las enmiendas y adiciones al Diccionario que se van aprobando en Sesión plenaria: acientífico, antialérgico, antiterrorista, celulitis, circularidad, clasificable, destacable, enfatización, entreno, finalización, fluctuante, hinchable, indisociable, iniciático, karaoke, lanzamisiles, etc. • Todas estas entradas figuran en el Diccionario del español actual de Manuel Seco de et al. de 1999; (excepciones: decepcionado, inacabado, etc.).

http://www.rae.es/NIVEL1/ACADRAE.HTM





Corpus de Referencia del Español Actual (CREA) de la RAE: http://www.rae.es/NIVEL1/CREA.HTM

• Composición del CREA:

• Basicamente textos literarios y marginalmente textos periodísticos y publicaciones académicas

• Composición del British National Corpus (http://info.ox.ac.uk/bnc/) o el American National Corpus (http://www.cs.vassar.edu/~ide/anc/) –actualmente en fase de desarrollo–:

• Fundamentalmente textos periodísticos y publicaciones académicas y marginalmente textos literarios.

http://www.rae.es/NIVEL1/CREA.HTM

http://info.ox.ac.uk/bnc/









http://www.cs.vassar.edu/~ide/anc/













Miembros del consorcio académico e industrial del British National Corpus: http://info.ox.ac.uk/bnc/what/index.html

• Publishing Companies• Oxford University Press• Addison-Wesley Longman• Larousse Kingfisher Chambers

• Academic research centers:• Oxford University Computing Services• Lancaster University's Centre for Computer Research on the English Language• British Library's Research and Innovation Centre.

• Commercial partners: • Science and Engineering Council (now EPSRC)• DTI under the Joint Framework for Information Technology (JFIT) programme.

• Additional support:• British Library• British Academy

http://info.ox.ac.uk/bnc/what/index.html














Miembros del consorcio del American National Corpus (ANC):5 instituciones académicas y 19 empresas

Instituciones académicas:

Vassar College New York University Linguistic Data Consortium, University of Pennsylvania International Computer Science Institute, University of California, Berkeley University of Colorado at Boulder

Miembros del consorcio del American National Corpus (ANC):19 empresas y 5 instituciones académicas

Empresas:

Pearson Education Random House Reference Langenscheidt Publishing Group HarperCollins Publishers Cambridge University Press LexiQuest Microsoft Corporation Shogakukan Inc. ACL Press Inc. Taishukan Publishing Company Oxford University Press Kenkyusha Ltd. IBM Corporation Obunsha Publishing Co. Ltd. Bloomsbury Publishing Plc Benesse Corporation Sanseido Co., Ltd. Sony Electronics Inc. Macmillan Publishers

¿Un consorcio para el desarrollo del Corpus de Referencia del Español Actual (CREA)?

La Real Academia es la única institución implicada en la construcción del CREA

Problemas del Corpus de Referencia del Español Actual de la RAE (1)

• No se ha previsto un plan de viabilidad comercial

No se previó inicialmente la adquisición de los derechos de las obras literarias que integraban el CREA (textos españoles a partir de 1975)

Ha quedado bloqueada la distribución –comercial o no– del CREA

El CREA sólo se puede consultar on line.

Dada que la consulta de las bases de datos que albergan un corpus consumen muchos recursos informáticos, el acceso al CREA suele estar saturado por un exceso de consultas.


• El CREA se ha etiquetado con el sistema de dominio público MULTEXT (Multilingual Text Tools and Corpora, http://www.lpl.univ-aix.fr/projects/multext/)

se desaprovechan las ventajas para el procesamiento multilingüe del sistema MULTEXT: el CREA es un corpus monolingüe;

se tienen que asumir las limitaciones que surgen cuando se utiliza dicho sistema para una aplicación monolingüe para la que no ha sido diseñado.


• MULTEXT no permite reconocer locuciones, como p. ej., locuciones verbales (adorar el santo por la peana, dar a luz), locuciones nominales (bomba atómica, objeto volante no identificado), etc.

• El motor de búsquedas del CREA solo admite búsquedas boolenas, es decir, concatenación de cadenas y/o búsquedas con los operadores y, o; p. ej., manzanas, manzanas verdes, manzanas y peras, manzanas verdes o peras.

• Existen sistemas de libre distribución con licencia, como CQP (Institut für Maschinelle Sprachverarbeitung, Universität Stuttgart, http://www.ims.uni-stuttgart.de) que admiten búsquedas con expresiones regulares, que son mucho más potentes y mejor adaptadas para el trabajo lingüístico que el motor de búsquedas del CREA.

Diccionarios electrónicos

Sintaxis electrónicas

Transductor léxico

Transductorsintáctico

Texto

Textotransducido

Transducción en

cascada

Conversor

Tratamiento automático de la información textual del español: Laboratorio de Lingüística Informática de la Universidad Autónoma

aparta,apartar.VPRED:IPRES:3s:IIMPE:2s

apartado,apartado.APRED:m:s,apartado.N:m:s,apartar.VPRED:PP:m:s

apartado/de/correos,apartado/de/correos.N:m:s

apartados,apartado.APRED:m:p,apartado.N:m:p,apartar.VPRED:PP:m:p

apartados/de/correos,apartado/de/correos.N:m:p

apartáis,apartar.VPRED:IPRES:2p

apartamento,apartamento.N:m:s

apartamentos,apartamento.N:m:p

apartamos,apartar.VPRED:IPRES:IPIND:1p

Muestra de un diccionario electrónico del español de 600,000 formas, generado automáticamente a partir de un diccionario de 93,000 lemas (67 palabras ortográficas y 26 locuciones)

aparta,apartar.VPRED:IPRES:3s:IIMPE:2s

apartado,apartado.APRED:m:s,apartado.N:m:s,apartar.VPRED:PP:m:s

apartado/de/correos,apartado/de/correos.N:m:s

apartados,apartado.APRED:m:p,apartado.N:m:p,apartar.VPRED:PP:m:p

apartados/de/correos,apartado/de/correos.N:m:p

apartáis,apartar.VPRED:IPRES:2p

apartamento,apartamento.N:m:s

apartamentos,apartamento.N:m:p

apartamos,apartar.VPRED:IPRES:IPIND:1p

Muestra de un diccionario electrónico del español de 600,000 formas, generado automáticamente a partir de un diccionario de 93,000 lemas (67,000 palabras ortográficas y 26,000 locuciones). El etiquetario de este diccionario esta descrito en http://seneca.uab.es/lali/etiquetario.html ; más información: http://seneca.uab.es/lali/Lexicos_electronicos.htm

# LocVpred 1N N1_LocVpred_N2 { dar/a/luz } { engendrar . }

$200.1$ {

( <dar.V:INF> + <dar.V:GER> + <dar.V:IIMPE:VAR-1> )

( <E> + <lo.CLI:f:s\1> + <lo.CLI:f:p\1> + <lo.CLI:m:s\1> + <lo.CLI:m:p\1> + <se.CLI:3s\1> )

( <ADV\2> + <PALABRA\2> * )

<a> <luz>

[&dar/a/luz.LOCVPRED,1-3,VAR-1 | 1 | 2 ] }

$200.2$ {

<dar.V:VAR-1:VAR-2:VAR-3>

( <ADV\1> + <PALABRA\1> * )

<a> <luz>

[&dar/a/luz.LOCVPRED,VAR-1,VAR-2,VAR-3 | 1 ] }

$201$ + 0 { Max dio a luz una novela espléndida. }

$202$ - * { }

$203$ - ?* { Max dio a luz su novela más esperada voluntariamente. }

$204$ - ?* { Max dio a luz una novela negra involuntariamente. }

$205$ - * { Max dio a luz a Eva. }

$206$ + 0 { Max dio a luz su novela más esperada. }

$207$ - ?* { Una novela espléndida fue dada a luz por Max. }

$208$ - * { }

$209.1$ + 0 { Cuando se da a luz un libro así, la fama llega sola. }

$300$ { Reducción de N2 prueba clara de que hay dar a luz 1 y 2 ( literal, que sí admite reducción de N2 ) . }

$200.1$ {



( <ADV\2> + <PALABRA\2> * )

<a> <luz>


$200.1$ {



( <ADV\2> + <PALABRA\2> * )

<a> <luz>


dar/a/luz

< d ar.V:IN F >

< d ar.V:G E R >

< d ar.V:IIM P E :VA R -1 >

< lo .C L I:f:s\1>< lo .C L I:f:p \1 >

< lo .C L I:m :s\1 >< lo .C L I:m :p \1> < se.C L I:3 s\1 >

< A D V \2>

< PA L A B R A \2>

< a >

< a >

< PA L A B R A \2>< a >

< PA L A B R A \2>

< PA L A B R A \2>

< a >

< a >

< a >

< A D V \2>

< lu z>& d ar /a /lu z .L O C V P R E D ,VA R -1,VA R -2,VA R -3 |1

< lu z>

3. Inserción del predicado en el árbol de gramáticas computacionales

1. Almacenamiento de los transductores en posiciones de memoria

2. Asociación de las posiciones de memoria al predicado

Conversión de una gramática computacional (Ortega 2001 y Aragón 2000)

Zona de memoria, donde se almacena la información comprimida

ser/posible

ser/un/peligro

APRED

dar/a/luz

< d ar.V:IN F >

< d ar.V:G E R >


< lo .C L I:f:s\1>< lo .C L I:f:p \1 >

< lo .C L I:m :s\1 >< lo .C L I:m :p \1> < se.C L I:3 s\1 >

< A D V \2>

< PA L A B R A \2>

< a >

< a >

< PA L A B R A \2>< a >

< PA L A B R A \2>

< PA L A B R A \2>

< a >

< a >

< a >

< A D V \2>

< lu z>& d ar /a /lu z .L O C V P R E D ,VA R -1,VA R -2,VA R -3 |1

< lu z>

hablar

VPRED

GPPRED

NPREDestar/de/moda

tener/aires/de /suficiencia

GRAMÁTICA COMPUTACIONAL

< d ar.V:IN F >

< d ar.V:G E R >


< lo .C L I:f:s\1>< lo .C L I:f:p \1 >

< lo .C L I:m :s\1 >< lo .C L I:m :p \1> < se.C L I:3 s\1>

< A D V \2>

< PA L A B R A \2>

< a >

< a >

< PA L A B R A \2>< a >

< PA L A B R A \2>

< PA L A B R A \2>

< a >

< a >

< a >

< A D V \2>

DET ADJ

N

a .la .m ierd a .N :m :s

DET ADJ

N


DET ADJ

N


DET ADJ

N


DET ADJ

N


< d ar.V:IN F >

< d ar.V:G E R >


< lo .C L I:f:s\1>< lo .C L I:f:p \1 >


< A D V \2>

< PA L A B R A \2>

< a >

< a >

< PA L A B R A \2>< a >

< PA L A B R A \2>

< PA L A B R A \2>

< a >

< a >

< a >

< A D V \2>

< d ar.V:IN F >

< d ar.V:G E R >


< lo .C L I:f:s\1>< lo .C L I:f:p \1 >


< A D V \2>

< PA L A B R A \2>

< a >

< a >

< PA L A B R A \2>< a >

< PA L A B R A \2>

< PA L A B R A \2>

< a >

< a >

< a >

< A D V \2>

DET ADJ

N


DET ADJ

N


DET ADJ

N


DET ADJ

N


Inserción del predicado en el árbol de gramáticas computacionales

a b c

< a b c >

Intersección de una cadena con un autómata

a b c

b a b

Intersección de una cadena con un transductor

Autómata finito

Transductor

Autómata resultante de la transducción

Transduce a por b Transduce b por c Transduce c por a

Intersección de un autómata con un transductor (1)

Autómata finito

Transductor subsecuencial

Transduce a por Transduce b por Transduce c por A y añade un nuevo estado al que se accede con B

Autómata finito con transiciones nulas

Intersección de un autómata con un transductor (2)

Autómata finito con transiciones nulas

Autómata finito determinista mínimo sin transiciones nulas

Determinización y minimización

Determinización y minimización de un autómata transducido

Corrió en todo momento un enorme riesgo

correr correr.VPRED:IPIND:3s,correrse.VPRED:IPIND:3s

en/todo/momento en/todo/momento.ADV

un un.DET:m:s

enorme enorme.APRED:m:f:s

riesgo riesgo.N:m:s

Análisis léxico automático

correr correr.VPRED:IPIND:3s,correrse.VPRED:IPIND:3s

en/todo/momento en/todo/momento.ADV

un un.DET:m:s

enorme enorme.APRED:m:f:s

riesgo riesgo.N:m:s

Corrió en todo momento un enorme riesgo

Análisis léxico automático en forma de autómata finito determinista

Transducción de un autómata-texto

Argumentos semánticos: PSPEAKER, ADRESSE, TOPÌC

Argumentos sintácticos: Pnn Max le hizo un comentario a Eva sobre este tema

Max le hizo un comentario a Eva en relación con este tema Max le hizo un comentario a Eva de este tema

Relación entre argumentos semánticos y sintácticos

• Establecimiento de clases de predicados en el léxico en función de sus argumentos semánticos

• Identificación en un corpus de los argumentos semánticos ligados a predicados específicos en el marco de construcciones sintácticas seleccionadas

• Utilización del corpus para el entrenamiento de aplicaciones de etiquetación semántica automática de textos

• Muestra de Spanish FrameNet

Estudio de los argumentos semánticos en el léxico

Documents

Redes de relaciones semánticas WordNet. A lexical database for the English Language (Version 1.0, June 1991) wn/ Consultas