Upload
borja-navarro-colorado
View
803
Download
0
Tags:
Embed Size (px)
Citation preview
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Uso de corpus en LSP
Borja Navarro ColoradoDto. de Lenguajes y Sistemas Informaticos
Universidad de AlicanteMaster en ingles y espanol para fines especıficos y empresariales.
1 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Recursos del profesional en lenguas
de especialidad
Diccionarios
Texto impreso
Profesional del campo
Intuicion: inteligencia mas conocimiento
Corpus en formato digital
2 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Recursos del profesional en lenguas
de especialidad
Diccionarios
Texto impreso
Profesional del campo
Intuicion: inteligencia mas conocimiento
Corpus en formato digital
2 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Recursos del profesional en lenguas
de especialidad
Diccionarios
Texto impreso
Profesional del campo
Intuicion: inteligencia mas conocimiento
Corpus en formato digital
2 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Recursos del profesional en lenguas
de especialidad
Diccionarios
Texto impreso
Profesional del campo
Intuicion: inteligencia mas conocimiento
Corpus en formato digital
2 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Recursos del profesional en lenguas
de especialidad
Diccionarios
Texto impreso
Profesional del campo
Intuicion: inteligencia mas conocimiento
Corpus en formato digital
2 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Indice
1 Introduccion
2 Diseno y compilacion
3 Marcado y anotacion de corpus
4 Corpus multilingues
5 Procesos basicos de corpus para LSP
6 Herramientas
3 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
DefinicionCorpus linguıstico
“A corpus is a collection of pieces of language text inelectronic form, selected according to external criteria torepresent, as far as possible, a language or language varietyas a source of data for linguistic research” (John Sinclair2004).
Coleccion amplia de textos
Textos autenticos
Textos digitales
Recopilados de acuerdo a unos criterios[Bowker and Pearson, 2002].
4 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Que aportan los corpus a LSP
Muestra la lengua de especialidad tal y como es (metodosempıricos, basados en datos reales).
Muestra el comportamiento y el contexto real de laspalabras y unidades linguısticas.
Permite analisis de frecuencias: terminologıa, patroneslinguısticos y estilısticos mas frecuentes, etc.
Banco de pruebas donde confirmar o refutar hipotesissobre LSP.
(...)
5 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Tipos de corpus
Corpus de referencia general vs. corpus especıficos (LSP)
Escrito vs. oral.
Monolingue vs multilingue.
Multilingue paralelo vs. multilingue comparable
Diacronico vs. sincronico.
Abierto (actualizado) vs cerrado (fechas determinadas)
Corpus de aprendizaje.
6 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Tipos de corpus
Corpus de referencia general vs. corpus especıficos (LSP)
Escrito vs. oral.
Monolingue vs multilingue.
Multilingue paralelo vs. multilingue comparable
Diacronico vs. sincronico.
Abierto (actualizado) vs cerrado (fechas determinadas)
Corpus de aprendizaje.
6 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Tipos de corpus
Corpus de referencia general vs. corpus especıficos (LSP)
Escrito vs. oral.
Monolingue vs multilingue.
Multilingue paralelo vs. multilingue comparable
Diacronico vs. sincronico.
Abierto (actualizado) vs cerrado (fechas determinadas)
Corpus de aprendizaje.
6 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Tipos de corpus
Corpus de referencia general vs. corpus especıficos (LSP)
Escrito vs. oral.
Monolingue vs multilingue.
Multilingue paralelo vs. multilingue comparable
Diacronico vs. sincronico.
Abierto (actualizado) vs cerrado (fechas determinadas)
Corpus de aprendizaje.
6 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Tipos de corpus
Corpus de referencia general vs. corpus especıficos (LSP)
Escrito vs. oral.
Monolingue vs multilingue.
Multilingue paralelo vs. multilingue comparable
Diacronico vs. sincronico.
Abierto (actualizado) vs cerrado (fechas determinadas)
Corpus de aprendizaje.
6 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Tipos de corpus
Corpus de referencia general vs. corpus especıficos (LSP)
Escrito vs. oral.
Monolingue vs multilingue.
Multilingue paralelo vs. multilingue comparable
Diacronico vs. sincronico.
Abierto (actualizado) vs cerrado (fechas determinadas)
Corpus de aprendizaje.
6 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Tipos de corpus en LSP
Segun los textos que forman el corpus:
Textos entre expertos: lengua de la especilidad.
Textos entre expertos y semi-expertos (estudiantes).
Textos docentes.Explicacion de terminologıa
Textos entre expertos y no-expertos.
Textos divulgativos.Explicacion simples de conceptos. Poca terminologıa.
7 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Tipos de corpus en LSP
Segun los textos que forman el corpus:
Textos entre expertos: lengua de la especilidad.
Textos entre expertos y semi-expertos (estudiantes).
Textos docentes.Explicacion de terminologıa
Textos entre expertos y no-expertos.
Textos divulgativos.Explicacion simples de conceptos. Poca terminologıa.
7 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Tipos de corpus en LSP
Segun los textos que forman el corpus:
Textos entre expertos: lengua de la especilidad.
Textos entre expertos y semi-expertos (estudiantes).
Textos docentes.Explicacion de terminologıa
Textos entre expertos y no-expertos.
Textos divulgativos.Explicacion simples de conceptos. Poca terminologıa.
7 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Tipos de corpus en LSP
Segun los textos que forman el corpus:
Textos entre expertos: lengua de la especilidad.
Textos entre expertos y semi-expertos (estudiantes).
Textos docentes.Explicacion de terminologıa
Textos entre expertos y no-expertos.
Textos divulgativos.Explicacion simples de conceptos. Poca terminologıa.
7 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Diseno de corpus para LSP
Los criterios de seleccion de textos viene determinado porlas necesidades y objetivos del trabajo en LSP.
Tamano:
Un corpus amplio no implica un corpus buenoRepresentatividad de los texto utilizadosA partir de 10.000 palabras
Abierto o cerrado: fechas de publicacion.
Fragmentos de texto o textos completos
8 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Diseno de corpus para LSP
Los criterios de seleccion de textos viene determinado porlas necesidades y objetivos del trabajo en LSP.
Tamano:
Un corpus amplio no implica un corpus buenoRepresentatividad de los texto utilizadosA partir de 10.000 palabras
Abierto o cerrado: fechas de publicacion.
Fragmentos de texto o textos completos
8 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Diseno de corpus para LSP
Los criterios de seleccion de textos viene determinado porlas necesidades y objetivos del trabajo en LSP.
Tamano:
Un corpus amplio no implica un corpus buenoRepresentatividad de los texto utilizadosA partir de 10.000 palabras
Abierto o cerrado: fechas de publicacion.
Fragmentos de texto o textos completos
8 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Diseno de corpus para LSP
Los criterios de seleccion de textos viene determinado porlas necesidades y objetivos del trabajo en LSP.
Tamano:
Un corpus amplio no implica un corpus buenoRepresentatividad de los texto utilizadosA partir de 10.000 palabras
Abierto o cerrado: fechas de publicacion.
Fragmentos de texto o textos completos
8 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Diseno de corpus para LSP
Los criterios de seleccion de textos viene determinado porlas necesidades y objetivos del trabajo en LSP.
Cantidad de textos: ¿cuantos textos?, ¿cuantos autores?
Mas representativo textos diversos de diferentes autores.
Medio: ¿texto escrito o transcripciones de texto oral?
Tema.
Tipo de textos: expertos, semi-expertos, no expertos.
Idiomas: monolingue o multilingue.
Paralelo o comparable.
9 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Diseno de corpus para LSP
Los criterios de seleccion de textos viene determinado porlas necesidades y objetivos del trabajo en LSP.
Cantidad de textos: ¿cuantos textos?, ¿cuantos autores?
Mas representativo textos diversos de diferentes autores.
Medio: ¿texto escrito o transcripciones de texto oral?
Tema.
Tipo de textos: expertos, semi-expertos, no expertos.
Idiomas: monolingue o multilingue.
Paralelo o comparable.
9 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Diseno de corpus para LSP
Los criterios de seleccion de textos viene determinado porlas necesidades y objetivos del trabajo en LSP.
Cantidad de textos: ¿cuantos textos?, ¿cuantos autores?
Mas representativo textos diversos de diferentes autores.
Medio: ¿texto escrito o transcripciones de texto oral?
Tema.
Tipo de textos: expertos, semi-expertos, no expertos.
Idiomas: monolingue o multilingue.
Paralelo o comparable.
9 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Diseno de corpus para LSP
Los criterios de seleccion de textos viene determinado porlas necesidades y objetivos del trabajo en LSP.
Cantidad de textos: ¿cuantos textos?, ¿cuantos autores?
Mas representativo textos diversos de diferentes autores.
Medio: ¿texto escrito o transcripciones de texto oral?
Tema.
Tipo de textos: expertos, semi-expertos, no expertos.
Idiomas: monolingue o multilingue.
Paralelo o comparable.
9 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Diseno de corpus para LSP
Los criterios de seleccion de textos viene determinado porlas necesidades y objetivos del trabajo en LSP.
Cantidad de textos: ¿cuantos textos?, ¿cuantos autores?
Mas representativo textos diversos de diferentes autores.
Medio: ¿texto escrito o transcripciones de texto oral?
Tema.
Tipo de textos: expertos, semi-expertos, no expertos.
Idiomas: monolingue o multilingue.
Paralelo o comparable.
9 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Diseno de corpus para LSP
Los criterios de seleccion de textos viene determinado porlas necesidades y objetivos del trabajo en LSP.
Cantidad de textos: ¿cuantos textos?, ¿cuantos autores?
Mas representativo textos diversos de diferentes autores.
Medio: ¿texto escrito o transcripciones de texto oral?
Tema.
Tipo de textos: expertos, semi-expertos, no expertos.
Idiomas: monolingue o multilingue.
Paralelo o comparable.
9 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Compilacion de corpus para LSP
Busqueda, identificacion y recoleccion de los textos masrepresentativos.
Problema: derechos de autor.
Fuentes:
Textos escaneados y/o transcritos.WebBases de datos textuales on-line (jurıdico, cientıfico,medico, etc.)
10 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Marcado y anotacion de corpus
Marcado de corpus: metadatos sobre cada documento.
Anotacion de corpus: informacion linguıstica explıcita.
11 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Marcado de corpus
Origen: marcas en los manuscritos sobre el formatoimpreso final.
Base del funcionamiento de los procesadores de textosactuales WYSIWYG.
Latex
Necesidad de estandarizacion: SGML (Goldfarb 1960) -XML.
12 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
SGML
Standard Generalized Markup Language ISO8879
Lenguaje de marcado explıcito: cada etiqueta nombraexplıcitamente la estructura y tipo de documento:encabezados, notas, tablas, parrafos, etc.
Valido para cualquier documento y coleccion de etiquetas:DTD (Document Type Definition)
<...> </...>
13 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
XML
Similar a SGML, pero optimizado para intercambio deinformacion en web.
Lenguaje de marcado explıcito con DTD.
14 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Estandar para el marcado
linguıstico de corpus
Se busca la reutilizacion de corpus.
CES: Corpus Encoding Standards
http://www.cs.vassar.edu/CES/
Informacion que debe ser marcada:Encabezado: informacion sobre el texto y su contenido(lengua, datos bibliograficos, etc.)
TEI http://www.tei-c.org/index.xml
Datos primarios: el texto en sı mismo y estructura(parrafos, encabezados, etc.)Informacion linguıstica (anotacion).
15 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Anotacion linguıstica de corpus
Anotacion automatica o semi-automatica con modulos dePLN.
La informacion linguıstica se hace explıcita, y permiteanalisis de corpus mas sofisticados y profundos.
PoS-taggerSintaxis (parser)SemanticaTextual y pragmatica: anaforas, entidades, expresionestemporales, estructura retorica, estructura del dialogo,otras.
16 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Corpus multilingues
Corpus comparables.
Corpus paralelos.
17 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Corpus paralelos: ¿donde
encontrarlos?Textos en lengua origen mas su traduccion a una o maslenguas.
Traduccion propia.
Fuentes multilingues:Union europea y administraciones o estados multilingues.Traducciones profesionales: revistas cientıficas (ScientificAmerican).Webs multilingues.otras
LDC - ELRA
Memorias de traduccion: reutilizacion de traduccionprevias en traducciones nuevas.
18 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Alineacion
Enlaza cada fragmento de texto origen con sucorrespondiente traduccion en el texto meta.
Fragementos a alinear:
Parrafo: mismo numero de parrafos. Lo mas comun.Oracion: mismo numero de oraciones. Complejo.Palabra o unidades lexicas: muy complejo.
Proceso:
1 Marcar explıcitamente cada fragmento a alinear. Mismonumero de unidades en cada texto.
2 Alineacion: manual o semi-automatica.
Software: MultiConcord, Trados, OmegaT, GoogleTranslation Toolkit, etc.
19 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Alineacion
Enlaza cada fragmento de texto origen con sucorrespondiente traduccion en el texto meta.
Fragementos a alinear:
Parrafo: mismo numero de parrafos. Lo mas comun.Oracion: mismo numero de oraciones. Complejo.Palabra o unidades lexicas: muy complejo.
Proceso:
1 Marcar explıcitamente cada fragmento a alinear. Mismonumero de unidades en cada texto.
2 Alineacion: manual o semi-automatica.
Software: MultiConcord, Trados, OmegaT, GoogleTranslation Toolkit, etc.
19 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Alineacion
Enlaza cada fragmento de texto origen con sucorrespondiente traduccion en el texto meta.
Fragementos a alinear:
Parrafo: mismo numero de parrafos. Lo mas comun.Oracion: mismo numero de oraciones. Complejo.Palabra o unidades lexicas: muy complejo.
Proceso:
1 Marcar explıcitamente cada fragmento a alinear. Mismonumero de unidades en cada texto.
2 Alineacion: manual o semi-automatica.
Software: MultiConcord, Trados, OmegaT, GoogleTranslation Toolkit, etc.
19 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Problemas y usos de corpus
alineados
Principios falsos de la alineacion:
No ha correlacion uno-a-uno entre texto origen y sutraduccion a nivel oracional e inferiores.La correlacion no tiene por que ser secuencial.No todo fragmento puede estar traducido. Ej. referenciasculturales.
Algunos usos:
Analisis de correspondencias de traduccion.Completa la informacion de diccionarios: uso real de lostextos.Corpus de aprendizaje para sistemas de alineacionautomatica y traduccion automatica.
20 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Problemas y usos de corpus
alineados
Principios falsos de la alineacion:
No ha correlacion uno-a-uno entre texto origen y sutraduccion a nivel oracional e inferiores.La correlacion no tiene por que ser secuencial.No todo fragmento puede estar traducido. Ej. referenciasculturales.
Algunos usos:
Analisis de correspondencias de traduccion.Completa la informacion de diccionarios: uso real de lostextos.Corpus de aprendizaje para sistemas de alineacionautomatica y traduccion automatica.
20 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Procesos basicos de corpus para
LSP
Extraccion de frecuencias.
Analisis de concordancias (KWIC)
Extraccion de colocaciones (co-ocurrencias)
21 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Analisis de frecuencias
Contar las palabras que aparecen en un corpus.
Palabras
Token: cada aparicion de una misma palabra en el texto.
Type: la palabra en sı, el tipo de palabra.
Frecuencia: numero de repeticiones (tokens) de la mismapalabra (type) en un corpus.
22 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Analisis de frecuencias
Contar las palabras que aparecen en un corpus.
Palabras
Token: cada aparicion de una misma palabra en el texto.
Type: la palabra en sı, el tipo de palabra.
Frecuencia: numero de repeticiones (tokens) de la mismapalabra (type) en un corpus.
22 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Analisis de frecuencias
Contar las palabras que aparecen en un corpus.
Palabras
Token: cada aparicion de una misma palabra en el texto.
Type: la palabra en sı, el tipo de palabra.
Frecuencia: numero de repeticiones (tokens) de la mismapalabra (type) en un corpus.
22 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Analisis de frecuencias
Los analisis de frecuencias aportan datos objetivos sobre lostextos del corpus:
Tamano del texto.
Riqueza lexica: ratio tokens/types.
Palabras mas utilizadas:
Palabras funcionales: eliminar con lista de stopwords.
Orden alfabetico e inverso:
Analisis de palabras con la misma raız (familias lexicas).Analisis de palabras con la misma terminacion (familiasmorfologicas).
23 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Analisis de frecuencias
Los analisis de frecuencias aportan datos objetivos sobre lostextos del corpus:
Tamano del texto.
Riqueza lexica: ratio tokens/types.
Palabras mas utilizadas:
Palabras funcionales: eliminar con lista de stopwords.
Orden alfabetico e inverso:
Analisis de palabras con la misma raız (familias lexicas).Analisis de palabras con la misma terminacion (familiasmorfologicas).
23 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Analisis de frecuencias
Los analisis de frecuencias aportan datos objetivos sobre lostextos del corpus:
Tamano del texto.
Riqueza lexica: ratio tokens/types.
Palabras mas utilizadas:
Palabras funcionales: eliminar con lista de stopwords.
Orden alfabetico e inverso:
Analisis de palabras con la misma raız (familias lexicas).Analisis de palabras con la misma terminacion (familiasmorfologicas).
23 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Analisis de frecuencias
Los analisis de frecuencias aportan datos objetivos sobre lostextos del corpus:
Tamano del texto.
Riqueza lexica: ratio tokens/types.
Palabras mas utilizadas:
Palabras funcionales: eliminar con lista de stopwords.
Orden alfabetico e inverso:
Analisis de palabras con la misma raız (familias lexicas).Analisis de palabras con la misma terminacion (familiasmorfologicas).
23 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Analisis de frecuencias
Los analisis de frecuencias aportan datos objetivos sobre lostextos del corpus:
Extraccion de terminologıa especıfica del corpus LSP(keywords)
Palabras frecuentes en un corpus LSP que no lo son en uncorpus de referencia generico.Comparacion de corpus y eliminacion de palabras comunes.
Agrupaciones de palabras (cluster)
n-gramasAnalisis de unidades superiores a la palabra: unidadesmultipalabra, unidades sintagmaticas, etc.
24 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Analisis de frecuencias
Los analisis de frecuencias aportan datos objetivos sobre lostextos del corpus:
Extraccion de terminologıa especıfica del corpus LSP(keywords)
Palabras frecuentes en un corpus LSP que no lo son en uncorpus de referencia generico.Comparacion de corpus y eliminacion de palabras comunes.
Agrupaciones de palabras (cluster)
n-gramasAnalisis de unidades superiores a la palabra: unidadesmultipalabra, unidades sintagmaticas, etc.
24 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Analisis de concordancias
Muestra todas las apariciones en el corpus de un terminode busqueda junto a su contexto inmediato.
KWIC: KewWord in Context
Analisis detallado del significado y compartamiento de unapalabra o unidad linguıstica en sus diferentes contextos deuso.
Informacion complementaria al diccionario.
Concordancias bilingues (textos paralelos): la palabra encontexto en ambas lenguas.
25 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Problema(s)
Todos estos programas y/o metodos no tienen en cuenta laflexion morfologicas de las palabras.
“Amar”, “amarıa”, “amaste”, “ame”... son consideradostipos de palabras diferentes.
Solucion: utiliza en el patron de busqueda expresionesregulares.
26 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Problema(s)
Todos estos programas y/o metodos no tienen en cuenta laflexion morfologicas de las palabras.
“Amar”, “amarıa”, “amaste”, “ame”... son consideradostipos de palabras diferentes.
Solucion: utiliza en el patron de busqueda expresionesregulares.
26 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Problema(s)
Todos estos programas y/o metodos no tienen en cuenta laflexion morfologicas de las palabras.
“Amar”, “amarıa”, “amaste”, “ame”... son consideradostipos de palabras diferentes.
Solucion: utiliza en el patron de busqueda expresionesregulares.
26 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Problema(s)
Todos estos programas y/o metodos no tienen en cuenta laflexion morfologicas de las palabras.
“Amar”, “amarıa”, “amaste”, “ame”... son consideradostipos de palabras diferentes.
Solucion: utiliza en el patron de busqueda expresionesregulares.
26 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Expresiones regulares
Permiten hacer busquedas avanzadas de cadenas decaracteres.
Constan de una serie de caracteres comodın (wildcards).
Permiten buscar palabras que tengan algun tipo devariacion.
Las expresiones regulares son un recurso muy potente y,por ello mismo, difıcil de controlar. Crear buenasexpresiones regulares requiere practica.
27 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Caracteres comodın mas comunes
http://es.wikipedia.org/wiki/Expresion regular
28 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Colocaciones
Firth 1957
Definicion
Combinaciones de unidades lexicas con alta frecuencia deuso.
Palabras que “co-ocurren” mas a menudo de lo esperado.
Cluster de palabras
El metodo mas comun para extraer colocaciones esmediante el calculo de frecuencias de n-gramas.
29 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
n-gramas
Conjunto de n palabras que aparecen antes de una palabradada
bigramas: palabra + palabra anterior
trigramas: palabra + palabra anterior + palabra anterior
tetragramas: palabra + palabra anterior + palabraanterior + palabra anterior
30 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Ejemplo
Algunos n-gramas frecuentes1 en El cantar de los cantaresde Fray Luis de Leon
Ps Fr Bigramas5 79 la Esposa15 39 el Esposo23 31 su Esposo46 20 el amor85 14 la hermosura
Ps Fr Trigramas1 20 de la Esposa3 15 la Esposa que10 10 hijas de Jerusalen11 10 la palabra hebrea27 6 ama mi alma
1Se muestran solo los mas relevantes. Fuente del texto: Biblioteca Virtual Miguel de
Cervantes, edicion de Javier San Jose Lera. “Ps” = posicion; “Fr” = frecuencia.
31 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Utilidad
La extraccion de colocaciones permite ver y analizar gruposde palabras que tienden a aparecer juntas en el corpus. Conello se puede:
Detectar estructuras fijas del corpus, que no sea comun enla lengua estandar.
Analizar estructuras sintacticas recurrentes: construccionestipo adjetivo + nombre, nombre + nombre, verbo +nombre, etc. frecuentes en el corpus LSP.
Otros.
32 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Herramientas para el analisis de
textos
AntConc 3.2.1
http://www.antlab.sci.waseda.ac.jp/software.html
TextStat
http://neon.niederlandistik.fu-berlin.de/en/textstat/
Lista de programas para el analisis textual:
http://digitalresearchtools.pbworks.com/Text+Analysis+Tools
33 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
¿Que leer?
[Bowker and Pearson, 2002]
[Wynne, 2005]
[McEnery and Wilson, 2001]
34 / 34
Uso de corpus en LSP
Introduccion Diseno y compilacion Marcado y anotacion de corpus Corpus multilingues Procesos basicos de corpus para LSP Herramientas
Bowker, L. and Pearson, J. (2002).Working with Specialized Language. A practical guide tousing corpora.Routledge, London.
McEnery, T. and Wilson, A. (2001).Corpus Linguistics.Edinburgh University Press, Edinburgh, 2 edition.
Wynne, M., editor (2005).Developing Linguistic Corpora: a Guide to Good Practice.Oxbow Books, Oxford.
34 / 34
Uso de corpus en LSP