67
Introducci´ on Dise˜ no y compilaci´ on Marcado y anotaci´ on de corpus Corpus multiling¨ ues Uso de corpus en LSP Borja Navarro Colorado Dto. de Lenguajes y Sistemas Inform´ aticos Universidad de Alicante aster en ingl´ es y espa˜ nol para fines espec´ ıficos y empresariales. 1 / 34 Uso de corpus en LSP

Corpus lsp

Embed Size (px)

Citation preview

Page 1: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Uso de corpus en LSP

Borja Navarro ColoradoDto. de Lenguajes y Sistemas Informaticos

Universidad de AlicanteMaster en ingles y espanol para fines especıficos y empresariales.

1 / 34

Uso de corpus en LSP

Page 2: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Recursos del profesional en lenguas

de especialidad

Diccionarios

Texto impreso

Profesional del campo

Intuicion: inteligencia mas conocimiento

Corpus en formato digital

2 / 34

Uso de corpus en LSP

Page 3: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Recursos del profesional en lenguas

de especialidad

Diccionarios

Texto impreso

Profesional del campo

Intuicion: inteligencia mas conocimiento

Corpus en formato digital

2 / 34

Uso de corpus en LSP

Page 4: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Recursos del profesional en lenguas

de especialidad

Diccionarios

Texto impreso

Profesional del campo

Intuicion: inteligencia mas conocimiento

Corpus en formato digital

2 / 34

Uso de corpus en LSP

Page 5: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Recursos del profesional en lenguas

de especialidad

Diccionarios

Texto impreso

Profesional del campo

Intuicion: inteligencia mas conocimiento

Corpus en formato digital

2 / 34

Uso de corpus en LSP

Page 6: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Recursos del profesional en lenguas

de especialidad

Diccionarios

Texto impreso

Profesional del campo

Intuicion: inteligencia mas conocimiento

Corpus en formato digital

2 / 34

Uso de corpus en LSP

Page 7: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Indice

1 Introduccion

2 Diseno y compilacion

3 Marcado y anotacion de corpus

4 Corpus multilingues

5 Procesos basicos de corpus para LSP

6 Herramientas

3 / 34

Uso de corpus en LSP

Page 8: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

DefinicionCorpus linguıstico

“A corpus is a collection of pieces of language text inelectronic form, selected according to external criteria torepresent, as far as possible, a language or language varietyas a source of data for linguistic research” (John Sinclair2004).

Coleccion amplia de textos

Textos autenticos

Textos digitales

Recopilados de acuerdo a unos criterios[Bowker and Pearson, 2002].

4 / 34

Uso de corpus en LSP

Page 9: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Que aportan los corpus a LSP

Muestra la lengua de especialidad tal y como es (metodosempıricos, basados en datos reales).

Muestra el comportamiento y el contexto real de laspalabras y unidades linguısticas.

Permite analisis de frecuencias: terminologıa, patroneslinguısticos y estilısticos mas frecuentes, etc.

Banco de pruebas donde confirmar o refutar hipotesissobre LSP.

(...)

5 / 34

Uso de corpus en LSP

Page 10: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Tipos de corpus

Corpus de referencia general vs. corpus especıficos (LSP)

Escrito vs. oral.

Monolingue vs multilingue.

Multilingue paralelo vs. multilingue comparable

Diacronico vs. sincronico.

Abierto (actualizado) vs cerrado (fechas determinadas)

Corpus de aprendizaje.

6 / 34

Uso de corpus en LSP

Page 11: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Tipos de corpus

Corpus de referencia general vs. corpus especıficos (LSP)

Escrito vs. oral.

Monolingue vs multilingue.

Multilingue paralelo vs. multilingue comparable

Diacronico vs. sincronico.

Abierto (actualizado) vs cerrado (fechas determinadas)

Corpus de aprendizaje.

6 / 34

Uso de corpus en LSP

Page 12: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Tipos de corpus

Corpus de referencia general vs. corpus especıficos (LSP)

Escrito vs. oral.

Monolingue vs multilingue.

Multilingue paralelo vs. multilingue comparable

Diacronico vs. sincronico.

Abierto (actualizado) vs cerrado (fechas determinadas)

Corpus de aprendizaje.

6 / 34

Uso de corpus en LSP

Page 13: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Tipos de corpus

Corpus de referencia general vs. corpus especıficos (LSP)

Escrito vs. oral.

Monolingue vs multilingue.

Multilingue paralelo vs. multilingue comparable

Diacronico vs. sincronico.

Abierto (actualizado) vs cerrado (fechas determinadas)

Corpus de aprendizaje.

6 / 34

Uso de corpus en LSP

Page 14: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Tipos de corpus

Corpus de referencia general vs. corpus especıficos (LSP)

Escrito vs. oral.

Monolingue vs multilingue.

Multilingue paralelo vs. multilingue comparable

Diacronico vs. sincronico.

Abierto (actualizado) vs cerrado (fechas determinadas)

Corpus de aprendizaje.

6 / 34

Uso de corpus en LSP

Page 15: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Tipos de corpus

Corpus de referencia general vs. corpus especıficos (LSP)

Escrito vs. oral.

Monolingue vs multilingue.

Multilingue paralelo vs. multilingue comparable

Diacronico vs. sincronico.

Abierto (actualizado) vs cerrado (fechas determinadas)

Corpus de aprendizaje.

6 / 34

Uso de corpus en LSP

Page 16: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Tipos de corpus en LSP

Segun los textos que forman el corpus:

Textos entre expertos: lengua de la especilidad.

Textos entre expertos y semi-expertos (estudiantes).

Textos docentes.Explicacion de terminologıa

Textos entre expertos y no-expertos.

Textos divulgativos.Explicacion simples de conceptos. Poca terminologıa.

7 / 34

Uso de corpus en LSP

Page 17: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Tipos de corpus en LSP

Segun los textos que forman el corpus:

Textos entre expertos: lengua de la especilidad.

Textos entre expertos y semi-expertos (estudiantes).

Textos docentes.Explicacion de terminologıa

Textos entre expertos y no-expertos.

Textos divulgativos.Explicacion simples de conceptos. Poca terminologıa.

7 / 34

Uso de corpus en LSP

Page 18: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Tipos de corpus en LSP

Segun los textos que forman el corpus:

Textos entre expertos: lengua de la especilidad.

Textos entre expertos y semi-expertos (estudiantes).

Textos docentes.Explicacion de terminologıa

Textos entre expertos y no-expertos.

Textos divulgativos.Explicacion simples de conceptos. Poca terminologıa.

7 / 34

Uso de corpus en LSP

Page 19: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Tipos de corpus en LSP

Segun los textos que forman el corpus:

Textos entre expertos: lengua de la especilidad.

Textos entre expertos y semi-expertos (estudiantes).

Textos docentes.Explicacion de terminologıa

Textos entre expertos y no-expertos.

Textos divulgativos.Explicacion simples de conceptos. Poca terminologıa.

7 / 34

Uso de corpus en LSP

Page 20: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Diseno de corpus para LSP

Los criterios de seleccion de textos viene determinado porlas necesidades y objetivos del trabajo en LSP.

Tamano:

Un corpus amplio no implica un corpus buenoRepresentatividad de los texto utilizadosA partir de 10.000 palabras

Abierto o cerrado: fechas de publicacion.

Fragmentos de texto o textos completos

8 / 34

Uso de corpus en LSP

Page 21: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Diseno de corpus para LSP

Los criterios de seleccion de textos viene determinado porlas necesidades y objetivos del trabajo en LSP.

Tamano:

Un corpus amplio no implica un corpus buenoRepresentatividad de los texto utilizadosA partir de 10.000 palabras

Abierto o cerrado: fechas de publicacion.

Fragmentos de texto o textos completos

8 / 34

Uso de corpus en LSP

Page 22: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Diseno de corpus para LSP

Los criterios de seleccion de textos viene determinado porlas necesidades y objetivos del trabajo en LSP.

Tamano:

Un corpus amplio no implica un corpus buenoRepresentatividad de los texto utilizadosA partir de 10.000 palabras

Abierto o cerrado: fechas de publicacion.

Fragmentos de texto o textos completos

8 / 34

Uso de corpus en LSP

Page 23: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Diseno de corpus para LSP

Los criterios de seleccion de textos viene determinado porlas necesidades y objetivos del trabajo en LSP.

Tamano:

Un corpus amplio no implica un corpus buenoRepresentatividad de los texto utilizadosA partir de 10.000 palabras

Abierto o cerrado: fechas de publicacion.

Fragmentos de texto o textos completos

8 / 34

Uso de corpus en LSP

Page 24: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Diseno de corpus para LSP

Los criterios de seleccion de textos viene determinado porlas necesidades y objetivos del trabajo en LSP.

Cantidad de textos: ¿cuantos textos?, ¿cuantos autores?

Mas representativo textos diversos de diferentes autores.

Medio: ¿texto escrito o transcripciones de texto oral?

Tema.

Tipo de textos: expertos, semi-expertos, no expertos.

Idiomas: monolingue o multilingue.

Paralelo o comparable.

9 / 34

Uso de corpus en LSP

Page 25: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Diseno de corpus para LSP

Los criterios de seleccion de textos viene determinado porlas necesidades y objetivos del trabajo en LSP.

Cantidad de textos: ¿cuantos textos?, ¿cuantos autores?

Mas representativo textos diversos de diferentes autores.

Medio: ¿texto escrito o transcripciones de texto oral?

Tema.

Tipo de textos: expertos, semi-expertos, no expertos.

Idiomas: monolingue o multilingue.

Paralelo o comparable.

9 / 34

Uso de corpus en LSP

Page 26: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Diseno de corpus para LSP

Los criterios de seleccion de textos viene determinado porlas necesidades y objetivos del trabajo en LSP.

Cantidad de textos: ¿cuantos textos?, ¿cuantos autores?

Mas representativo textos diversos de diferentes autores.

Medio: ¿texto escrito o transcripciones de texto oral?

Tema.

Tipo de textos: expertos, semi-expertos, no expertos.

Idiomas: monolingue o multilingue.

Paralelo o comparable.

9 / 34

Uso de corpus en LSP

Page 27: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Diseno de corpus para LSP

Los criterios de seleccion de textos viene determinado porlas necesidades y objetivos del trabajo en LSP.

Cantidad de textos: ¿cuantos textos?, ¿cuantos autores?

Mas representativo textos diversos de diferentes autores.

Medio: ¿texto escrito o transcripciones de texto oral?

Tema.

Tipo de textos: expertos, semi-expertos, no expertos.

Idiomas: monolingue o multilingue.

Paralelo o comparable.

9 / 34

Uso de corpus en LSP

Page 28: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Diseno de corpus para LSP

Los criterios de seleccion de textos viene determinado porlas necesidades y objetivos del trabajo en LSP.

Cantidad de textos: ¿cuantos textos?, ¿cuantos autores?

Mas representativo textos diversos de diferentes autores.

Medio: ¿texto escrito o transcripciones de texto oral?

Tema.

Tipo de textos: expertos, semi-expertos, no expertos.

Idiomas: monolingue o multilingue.

Paralelo o comparable.

9 / 34

Uso de corpus en LSP

Page 29: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Diseno de corpus para LSP

Los criterios de seleccion de textos viene determinado porlas necesidades y objetivos del trabajo en LSP.

Cantidad de textos: ¿cuantos textos?, ¿cuantos autores?

Mas representativo textos diversos de diferentes autores.

Medio: ¿texto escrito o transcripciones de texto oral?

Tema.

Tipo de textos: expertos, semi-expertos, no expertos.

Idiomas: monolingue o multilingue.

Paralelo o comparable.

9 / 34

Uso de corpus en LSP

Page 30: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Compilacion de corpus para LSP

Busqueda, identificacion y recoleccion de los textos masrepresentativos.

Problema: derechos de autor.

Fuentes:

Textos escaneados y/o transcritos.WebBases de datos textuales on-line (jurıdico, cientıfico,medico, etc.)

10 / 34

Uso de corpus en LSP

Page 31: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Marcado y anotacion de corpus

Marcado de corpus: metadatos sobre cada documento.

Anotacion de corpus: informacion linguıstica explıcita.

11 / 34

Uso de corpus en LSP

Page 32: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Marcado de corpus

Origen: marcas en los manuscritos sobre el formatoimpreso final.

Base del funcionamiento de los procesadores de textosactuales WYSIWYG.

Latex

Necesidad de estandarizacion: SGML (Goldfarb 1960) -XML.

12 / 34

Uso de corpus en LSP

Page 33: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

SGML

Standard Generalized Markup Language ISO8879

Lenguaje de marcado explıcito: cada etiqueta nombraexplıcitamente la estructura y tipo de documento:encabezados, notas, tablas, parrafos, etc.

Valido para cualquier documento y coleccion de etiquetas:DTD (Document Type Definition)

<...> </...>

13 / 34

Uso de corpus en LSP

Page 34: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

XML

Similar a SGML, pero optimizado para intercambio deinformacion en web.

Lenguaje de marcado explıcito con DTD.

14 / 34

Uso de corpus en LSP

Page 35: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Estandar para el marcado

linguıstico de corpus

Se busca la reutilizacion de corpus.

CES: Corpus Encoding Standards

http://www.cs.vassar.edu/CES/

Informacion que debe ser marcada:Encabezado: informacion sobre el texto y su contenido(lengua, datos bibliograficos, etc.)

TEI http://www.tei-c.org/index.xml

Datos primarios: el texto en sı mismo y estructura(parrafos, encabezados, etc.)Informacion linguıstica (anotacion).

15 / 34

Uso de corpus en LSP

Page 36: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Anotacion linguıstica de corpus

Anotacion automatica o semi-automatica con modulos dePLN.

La informacion linguıstica se hace explıcita, y permiteanalisis de corpus mas sofisticados y profundos.

PoS-taggerSintaxis (parser)SemanticaTextual y pragmatica: anaforas, entidades, expresionestemporales, estructura retorica, estructura del dialogo,otras.

16 / 34

Uso de corpus en LSP

Page 37: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Corpus multilingues

Corpus comparables.

Corpus paralelos.

17 / 34

Uso de corpus en LSP

Page 38: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Corpus paralelos: ¿donde

encontrarlos?Textos en lengua origen mas su traduccion a una o maslenguas.

Traduccion propia.

Fuentes multilingues:Union europea y administraciones o estados multilingues.Traducciones profesionales: revistas cientıficas (ScientificAmerican).Webs multilingues.otras

LDC - ELRA

Memorias de traduccion: reutilizacion de traduccionprevias en traducciones nuevas.

18 / 34

Uso de corpus en LSP

Page 39: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Alineacion

Enlaza cada fragmento de texto origen con sucorrespondiente traduccion en el texto meta.

Fragementos a alinear:

Parrafo: mismo numero de parrafos. Lo mas comun.Oracion: mismo numero de oraciones. Complejo.Palabra o unidades lexicas: muy complejo.

Proceso:

1 Marcar explıcitamente cada fragmento a alinear. Mismonumero de unidades en cada texto.

2 Alineacion: manual o semi-automatica.

Software: MultiConcord, Trados, OmegaT, GoogleTranslation Toolkit, etc.

19 / 34

Uso de corpus en LSP

Page 40: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Alineacion

Enlaza cada fragmento de texto origen con sucorrespondiente traduccion en el texto meta.

Fragementos a alinear:

Parrafo: mismo numero de parrafos. Lo mas comun.Oracion: mismo numero de oraciones. Complejo.Palabra o unidades lexicas: muy complejo.

Proceso:

1 Marcar explıcitamente cada fragmento a alinear. Mismonumero de unidades en cada texto.

2 Alineacion: manual o semi-automatica.

Software: MultiConcord, Trados, OmegaT, GoogleTranslation Toolkit, etc.

19 / 34

Uso de corpus en LSP

Page 41: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Alineacion

Enlaza cada fragmento de texto origen con sucorrespondiente traduccion en el texto meta.

Fragementos a alinear:

Parrafo: mismo numero de parrafos. Lo mas comun.Oracion: mismo numero de oraciones. Complejo.Palabra o unidades lexicas: muy complejo.

Proceso:

1 Marcar explıcitamente cada fragmento a alinear. Mismonumero de unidades en cada texto.

2 Alineacion: manual o semi-automatica.

Software: MultiConcord, Trados, OmegaT, GoogleTranslation Toolkit, etc.

19 / 34

Uso de corpus en LSP

Page 42: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Problemas y usos de corpus

alineados

Principios falsos de la alineacion:

No ha correlacion uno-a-uno entre texto origen y sutraduccion a nivel oracional e inferiores.La correlacion no tiene por que ser secuencial.No todo fragmento puede estar traducido. Ej. referenciasculturales.

Algunos usos:

Analisis de correspondencias de traduccion.Completa la informacion de diccionarios: uso real de lostextos.Corpus de aprendizaje para sistemas de alineacionautomatica y traduccion automatica.

20 / 34

Uso de corpus en LSP

Page 43: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Problemas y usos de corpus

alineados

Principios falsos de la alineacion:

No ha correlacion uno-a-uno entre texto origen y sutraduccion a nivel oracional e inferiores.La correlacion no tiene por que ser secuencial.No todo fragmento puede estar traducido. Ej. referenciasculturales.

Algunos usos:

Analisis de correspondencias de traduccion.Completa la informacion de diccionarios: uso real de lostextos.Corpus de aprendizaje para sistemas de alineacionautomatica y traduccion automatica.

20 / 34

Uso de corpus en LSP

Page 44: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Procesos basicos de corpus para

LSP

Extraccion de frecuencias.

Analisis de concordancias (KWIC)

Extraccion de colocaciones (co-ocurrencias)

21 / 34

Uso de corpus en LSP

Page 45: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Analisis de frecuencias

Contar las palabras que aparecen en un corpus.

Palabras

Token: cada aparicion de una misma palabra en el texto.

Type: la palabra en sı, el tipo de palabra.

Frecuencia: numero de repeticiones (tokens) de la mismapalabra (type) en un corpus.

22 / 34

Uso de corpus en LSP

Page 46: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Analisis de frecuencias

Contar las palabras que aparecen en un corpus.

Palabras

Token: cada aparicion de una misma palabra en el texto.

Type: la palabra en sı, el tipo de palabra.

Frecuencia: numero de repeticiones (tokens) de la mismapalabra (type) en un corpus.

22 / 34

Uso de corpus en LSP

Page 47: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Analisis de frecuencias

Contar las palabras que aparecen en un corpus.

Palabras

Token: cada aparicion de una misma palabra en el texto.

Type: la palabra en sı, el tipo de palabra.

Frecuencia: numero de repeticiones (tokens) de la mismapalabra (type) en un corpus.

22 / 34

Uso de corpus en LSP

Page 48: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Analisis de frecuencias

Los analisis de frecuencias aportan datos objetivos sobre lostextos del corpus:

Tamano del texto.

Riqueza lexica: ratio tokens/types.

Palabras mas utilizadas:

Palabras funcionales: eliminar con lista de stopwords.

Orden alfabetico e inverso:

Analisis de palabras con la misma raız (familias lexicas).Analisis de palabras con la misma terminacion (familiasmorfologicas).

23 / 34

Uso de corpus en LSP

Page 49: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Analisis de frecuencias

Los analisis de frecuencias aportan datos objetivos sobre lostextos del corpus:

Tamano del texto.

Riqueza lexica: ratio tokens/types.

Palabras mas utilizadas:

Palabras funcionales: eliminar con lista de stopwords.

Orden alfabetico e inverso:

Analisis de palabras con la misma raız (familias lexicas).Analisis de palabras con la misma terminacion (familiasmorfologicas).

23 / 34

Uso de corpus en LSP

Page 50: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Analisis de frecuencias

Los analisis de frecuencias aportan datos objetivos sobre lostextos del corpus:

Tamano del texto.

Riqueza lexica: ratio tokens/types.

Palabras mas utilizadas:

Palabras funcionales: eliminar con lista de stopwords.

Orden alfabetico e inverso:

Analisis de palabras con la misma raız (familias lexicas).Analisis de palabras con la misma terminacion (familiasmorfologicas).

23 / 34

Uso de corpus en LSP

Page 51: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Analisis de frecuencias

Los analisis de frecuencias aportan datos objetivos sobre lostextos del corpus:

Tamano del texto.

Riqueza lexica: ratio tokens/types.

Palabras mas utilizadas:

Palabras funcionales: eliminar con lista de stopwords.

Orden alfabetico e inverso:

Analisis de palabras con la misma raız (familias lexicas).Analisis de palabras con la misma terminacion (familiasmorfologicas).

23 / 34

Uso de corpus en LSP

Page 52: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Analisis de frecuencias

Los analisis de frecuencias aportan datos objetivos sobre lostextos del corpus:

Extraccion de terminologıa especıfica del corpus LSP(keywords)

Palabras frecuentes en un corpus LSP que no lo son en uncorpus de referencia generico.Comparacion de corpus y eliminacion de palabras comunes.

Agrupaciones de palabras (cluster)

n-gramasAnalisis de unidades superiores a la palabra: unidadesmultipalabra, unidades sintagmaticas, etc.

24 / 34

Uso de corpus en LSP

Page 53: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Analisis de frecuencias

Los analisis de frecuencias aportan datos objetivos sobre lostextos del corpus:

Extraccion de terminologıa especıfica del corpus LSP(keywords)

Palabras frecuentes en un corpus LSP que no lo son en uncorpus de referencia generico.Comparacion de corpus y eliminacion de palabras comunes.

Agrupaciones de palabras (cluster)

n-gramasAnalisis de unidades superiores a la palabra: unidadesmultipalabra, unidades sintagmaticas, etc.

24 / 34

Uso de corpus en LSP

Page 54: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Analisis de concordancias

Muestra todas las apariciones en el corpus de un terminode busqueda junto a su contexto inmediato.

KWIC: KewWord in Context

Analisis detallado del significado y compartamiento de unapalabra o unidad linguıstica en sus diferentes contextos deuso.

Informacion complementaria al diccionario.

Concordancias bilingues (textos paralelos): la palabra encontexto en ambas lenguas.

25 / 34

Uso de corpus en LSP

Page 55: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Problema(s)

Todos estos programas y/o metodos no tienen en cuenta laflexion morfologicas de las palabras.

“Amar”, “amarıa”, “amaste”, “ame”... son consideradostipos de palabras diferentes.

Solucion: utiliza en el patron de busqueda expresionesregulares.

26 / 34

Uso de corpus en LSP

Page 56: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Problema(s)

Todos estos programas y/o metodos no tienen en cuenta laflexion morfologicas de las palabras.

“Amar”, “amarıa”, “amaste”, “ame”... son consideradostipos de palabras diferentes.

Solucion: utiliza en el patron de busqueda expresionesregulares.

26 / 34

Uso de corpus en LSP

Page 57: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Problema(s)

Todos estos programas y/o metodos no tienen en cuenta laflexion morfologicas de las palabras.

“Amar”, “amarıa”, “amaste”, “ame”... son consideradostipos de palabras diferentes.

Solucion: utiliza en el patron de busqueda expresionesregulares.

26 / 34

Uso de corpus en LSP

Page 58: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Problema(s)

Todos estos programas y/o metodos no tienen en cuenta laflexion morfologicas de las palabras.

“Amar”, “amarıa”, “amaste”, “ame”... son consideradostipos de palabras diferentes.

Solucion: utiliza en el patron de busqueda expresionesregulares.

26 / 34

Uso de corpus en LSP

Page 59: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Expresiones regulares

Permiten hacer busquedas avanzadas de cadenas decaracteres.

Constan de una serie de caracteres comodın (wildcards).

Permiten buscar palabras que tengan algun tipo devariacion.

Las expresiones regulares son un recurso muy potente y,por ello mismo, difıcil de controlar. Crear buenasexpresiones regulares requiere practica.

27 / 34

Uso de corpus en LSP

Page 60: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Caracteres comodın mas comunes

http://es.wikipedia.org/wiki/Expresion regular

28 / 34

Uso de corpus en LSP

Page 61: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Colocaciones

Firth 1957

Definicion

Combinaciones de unidades lexicas con alta frecuencia deuso.

Palabras que “co-ocurren” mas a menudo de lo esperado.

Cluster de palabras

El metodo mas comun para extraer colocaciones esmediante el calculo de frecuencias de n-gramas.

29 / 34

Uso de corpus en LSP

Page 62: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

n-gramas

Conjunto de n palabras que aparecen antes de una palabradada

bigramas: palabra + palabra anterior

trigramas: palabra + palabra anterior + palabra anterior

tetragramas: palabra + palabra anterior + palabraanterior + palabra anterior

30 / 34

Uso de corpus en LSP

Page 63: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Ejemplo

Algunos n-gramas frecuentes1 en El cantar de los cantaresde Fray Luis de Leon

Ps Fr Bigramas5 79 la Esposa15 39 el Esposo23 31 su Esposo46 20 el amor85 14 la hermosura

Ps Fr Trigramas1 20 de la Esposa3 15 la Esposa que10 10 hijas de Jerusalen11 10 la palabra hebrea27 6 ama mi alma

1Se muestran solo los mas relevantes. Fuente del texto: Biblioteca Virtual Miguel de

Cervantes, edicion de Javier San Jose Lera. “Ps” = posicion; “Fr” = frecuencia.

31 / 34

Uso de corpus en LSP

Page 64: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Utilidad

La extraccion de colocaciones permite ver y analizar gruposde palabras que tienden a aparecer juntas en el corpus. Conello se puede:

Detectar estructuras fijas del corpus, que no sea comun enla lengua estandar.

Analizar estructuras sintacticas recurrentes: construccionestipo adjetivo + nombre, nombre + nombre, verbo +nombre, etc. frecuentes en el corpus LSP.

Otros.

32 / 34

Uso de corpus en LSP

Page 65: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Herramientas para el analisis de

textos

AntConc 3.2.1

http://www.antlab.sci.waseda.ac.jp/software.html

TextStat

http://neon.niederlandistik.fu-berlin.de/en/textstat/

Lista de programas para el analisis textual:

http://digitalresearchtools.pbworks.com/Text+Analysis+Tools

33 / 34

Uso de corpus en LSP

Page 66: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

¿Que leer?

[Bowker and Pearson, 2002]

[Wynne, 2005]

[McEnery and Wilson, 2001]

34 / 34

Uso de corpus en LSP

Page 67: Corpus lsp

Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas

Bowker, L. and Pearson, J. (2002).Working with Specialized Language. A practical guide tousing corpora.Routledge, London.

McEnery, T. and Wilson, A. (2001).Corpus Linguistics.Edinburgh University Press, Edinburgh, 2 edition.

Wynne, M., editor (2005).Developing Linguistic Corpora: a Guide to Good Practice.Oxbow Books, Oxford.

34 / 34

Uso de corpus en LSP