37
Transcripción, etiquetado y codificación de corpus orales Joaquim Llisterri Observatorio Español de Industrias de la Lengua, Instituto Cervantes Libreros 23, 28801 Alcalá de Henares, Madrid [email protected] Departament de Filologia Espanyola, Universitat Autònoma de Barcelona Edifici B, 08193 Bellaterra, Barcelona [email protected] Seminario de Industrias de la Lengua, Curso “Etiquetación y extracción de información de grandes corpus textuales”, Fundación Duques de Soria, Soria, 15 de julio de 1997. Introducción Niveles de representación Representación ortográfica de corpus orales Representación fonética de corpus orales Etiquetado fonético de corpus orales Transcripción y codificación de corpus para el estudio de la lengua oral Conclusiones 1.- Introducción La constitución de recursos lingüísticos, contrariamente a lo que algunas veces parece deducirse, no consiste en la acumulación sistemática de materiales, sino que requiere una reflexión sobre muchos aspectos que inciden de forma muy directa en el resultado final obtenido. Uno de ellos, especialmente importante en el caso de los corpus orales, es el que se refiere a las cuestiones relacionadas con la propia representación de los datos, tratadas generalmente bajo las denominaciones de “transcripción”, “etiquetado” y “codificación”. En el presente trabajo pretendemos poner de relieve que las decisiones relativas a estos tres aspectos no son puramente mecánicas, sino que requieren un cuidadoso análisis lingüístico acompañado de unos planteamientos más globales sobre las futuras posibilidades de explotación del corpus. Para ello, se parte de una concepción del corpus como conjunto de niveles de representación de los datos, en cada uno de los cuales se incorporan descripciones de los mismos que posteriormente deben ser recogidas mediante algún procedimiento formal. Como primer nivel de representación abordamos la transcripción ortográfica, para pasar a continuación a un segundo nivel, el de la representación fonética, tanto en el aspecto segmental como en el suprasegmental. En este mismo nivel planteamos la cuestión del etiquetado que, asociado a otras operaciones como la segmentación y la alineación temporal, permite una utilización posterior del corpus en diversas aplicaciones. Finalmente, se discuten las cuestiones específicamente centradas en la transcripción y codificación de los corpus constituidos por transcripciones de lengua oral, presentando a modo de ejemplo algunos trabajos llevados a cabo en España. Hemos intentado, para cada nivel de representación, ofrecer información sobre algunas de

Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

Transcripción, etiquetado y codificación de corpus orales

Joaquim Llisterri

Observatorio Español de Industrias de la Lengua, Instituto Cervantes

Libreros 23, 28801 Alcalá de Henares, Madrid

[email protected]

Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Edifici B, 08193 Bellaterra, Barcelona

[email protected]

Seminario de Industrias de la Lengua, Curso “Etiquetación y extracción de información de

grandes corpus textuales”, Fundación Duques de Soria, Soria, 15 de julio de 1997.

Introducción

Niveles de representación

Representación ortográfica de corpus orales

Representación fonética de corpus orales

Etiquetado fonético de corpus orales

Transcripción y codificación de corpus para el estudio de la lengua oral

Conclusiones

1.- Introducción

La constitución de recursos lingüísticos, contrariamente a lo que algunas veces parece deducirse, no

consiste en la acumulación sistemática de materiales, sino que requiere una reflexión sobre muchos

aspectos que inciden de forma muy directa en el resultado final obtenido. Uno de ellos,

especialmente importante en el caso de los corpus orales, es el que se refiere a las cuestiones

relacionadas con la propia representación de los datos, tratadas generalmente bajo las

denominaciones de “transcripción”, “etiquetado” y “codificación”. En el presente trabajo

pretendemos poner de relieve que las decisiones relativas a estos tres aspectos no son puramente

mecánicas, sino que requieren un cuidadoso análisis lingüístico acompañado de unos

planteamientos más globales sobre las futuras posibilidades de explotación del corpus. Para ello, se

parte de una concepción del corpus como conjunto de niveles de representación de los datos, en

cada uno de los cuales se incorporan descripciones de los mismos que posteriormente deben ser

recogidas mediante algún procedimiento formal.

Como primer nivel de representación abordamos la transcripción ortográfica, para pasar a

continuación a un segundo nivel, el de la representación fonética, tanto en el aspecto segmental

como en el suprasegmental. En este mismo nivel planteamos la cuestión del etiquetado que,

asociado a otras operaciones como la segmentación y la alineación temporal, permite una

utilización posterior del corpus en diversas aplicaciones. Finalmente, se discuten las cuestiones

específicamente centradas en la transcripción y codificación de los corpus constituidos por

transcripciones de lengua oral, presentando a modo de ejemplo algunos trabajos llevados a cabo en

España. Hemos intentado, para cada nivel de representación, ofrecer información sobre algunas de

Page 2: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

las convenciones desarrolladas y presentar las que llevan camino de convertirse - o se han

convertido ya - en estándares. Sin embargo, como se indica en las conclusiones, parece razonable

insistir en la noción de compatibilidad entre sistemas como modo de resolver la inevitable tensión

entre los requisitos específicos del investigador y las necesidades del intercambio de recursos.

2.- Niveles de representación, etiquetado y codificación

Tanto si es oral como escrito, un corpus puede concebirse como un conjunto estructurado de

materiales lingüísticos en el que se distinguen diversos niveles de representación correspondientes a

diferentes grados de elaboración de los datos que lo constituyen. El establecimiento de estos niveles

es una de las tareas que se llevan a cabo en la fase de definición del corpus y responde, lógicamente,

a los objetivos del mismo. Por ejemplo, un corpus para el análisis del discurso oral requiere, como

mínimo, un nivel de representación ortográfica, pero puede ser necesario un nivel de representación

prosódica si el estudio de estos fenómenos constituye el principal interés del investigador; para

realizar estudios sobre la sintaxis de la lengua coloquial es evidente que se impone definir una

representación de los datos que contenga información sintáctica, mientra que en otro tipo de

investigaciones se requerirá una representación en términos pragmáticos. Por otra parte, en corpus

aplicados al estudio fonético es común encontrar una representación fonética y, en algunos casos,

una caracterización de los datos mediante parámetros acústicos o articulatorios.

Para cada nivel de representación suele establecerse un conjunto de “etiquetas” que se asocian a un

determinado fragmento del corpus - un segmento sonoro, una unidad prosódica, una palabra, etc. - y

definen sus propiedades. Las etiquetas propias de un nivel fonético de representación corresponden

a las características articulatorias o acústicas de los sonidos del habla, mientras que, por ejemplo, las

etiquetas de un nivel de representación morfosintáctico describen propiedades morfológicas y

léxicas de las palabras. El etiquetado constituye, por tanto, un enriquecimiento del corpus mediante

información adicional introducida por el investigador en función de sus objetivos y, lo que es más

importante, de su interpretación lingüística de los materiales recogidos. El establecimiento del

inventario de etiquetas - estrechamente relacionado con los fenómenos que desean anotarse en un

corpus - y las características que se señalan con cada una de ellas no es en absoluto una tarea trivial,

especialmente si pretenden utilizarse en proyectos multilingües cubriendo simultáneamente las

necesidades de varias lenguas.

Finalmente, es preciso definir, en el proceso de creación de recursos lingüísticos, un sistema o

esquema de codificación tanto de los fenómenos representados en los diferentes niveles del corpus

como de sus correspondientes etiquetas. La codificación constituye pues, tal como se concibe en la

actualidad, una herramienta que dota al corpus de una estructura. Un esquema de codificación

adecuado permite, entre otras cosas, mantener una distinción entre los datos y su forma de

representación, que es útil cuando se requiere el intercambio de corpus o su reutilización en otros

proyectos. Por ello es esencial, a la hora de diseñar tal esquema, considerar sistemas que cumplan

este requisito.

En el caso de un corpus oral, el primer nivel de representación necesario es el de la transcripción.

Esto responde a la exigencia de materializar o fijar de alguna manera la información lingüística y

comunicativa presente en una onda sonora esencialmente transitoria. Tal como la caracteriza

Payrató (1995:45), la transcripción es “un procedimiento de traslado o transposición a una forma

gráfica (escrita) de una producción (lingüística, discursiva) originariamente oral”. Atendiendo a esta

definición, podemos referirnos tanto a la transcripción ortográfica - denominada “transliteración”

por algunos autores -como a la transcripción fonética, que se lleva a cabo mediante un conjunto de

símbolos especialmente diseñados para tal fin. En los apartados que siguen centraremos nuestra

Page 3: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

atención en estos dos niveles de representación, el ortográfico y el fonético, considerando también

algunos aspectos relativos al etiquetado en el nivel fonético.

3.- Representación ortográfica de corpus orales

Uno de los primeros problemas a los que se enfrenta un investigador en el momento de constituir un

corpus oral, una vez establecido el diseño y recogidos los datos, es, evidentemente, el de la

representación ortográfica. Esta representación constituye una transcripción de los enunciados

producidos por los hablantes utilizando la ortografía convencional o, dicho en otras palabras, una

transliteración. Puesto que se trata de un nivel de representación común a todo tipo de corpus orales

sea cual sea su aplicación - tanto para el análisis de la interacción verbal como para el desarrollo de

los sistemas propios de las tecnologías del habla -, se han realizado una notable cantidad de

propuestas en lo que concierne a la forma escrita de los corpus orales. En el informe del Grupo de

Trabajo sobre Textos Orales de EAGLES (1996) - cuyos principales elementos se retoman a

continuación - se revisan algunas de ellas, incluyendo las que proceden del proyecto NERC en la

tradición de la lingüística de corpus y las que se derivan de proyectos en el ámbito de las

tecnologías del habla como SpeechDat o las desarrolladas por el Grupo de Trabajo sobre Lengua

Oral de EAGLES.

3.1.- Propuestas en el ámbito de la lingüística de corpus

3.1.1.- La propuesta de NERC

En el marco del proyecto NERC (Network of European Reference Corpora)(NERC, 1994), se

adoptaron para la representación ortográfica de corpus orales las convenciones desarrolladas por

French (1991, 1992), esencialmente concebidas para ser utilizadas en la constitución de la parte oral

del corpus COBUILD. En ellas se detalla el uso de los signos de puntuación - por ejemplo, no se

utilizan comas entre frases y se emplean puntos para delimitar frases -, de las mayúsculas -

únicamente al inicio de frase - o de los apóstrofes y las contracciones.

3.1.2.- La propuesta del Grupo de Trabajo de Textos Orales de EAGLES

En el informe del Grupo de Trabajo sobre Textos Orales de EAGLES (Expert Advisory Group on

Language Engineering Standards)(EAGLES, 1996) se proponen unas recomendaciones básicas

para la transcripción ortográfica de corpus orales, recogiendo tanto las sugerencias de NERC como

algunas de las ideas desarrolladas en el ámbito de las tecnologías del habla que se discuten en el

próximo apartado. Las recomendaciones pueden resumirse en tres puntos:

Se recomienda utilizar siempre que sea posible las formas ortográficas que aparecen en los

diccionarios normativos o estándares para cada lengua, convención que se aplica también a

contracciones, formas reducidas, apóstrofes, formas dialectales, interjecciones y formas

semi-léxicas.

Si puede darse más de una forma ortográfica de la misma palabra o si se introducen

representaciones ortográficas que no aparecen en los diccionarios, es recomendable

mantener una base de datos con las formas utilizadas en la transcripción.

Los números, las abreviaturas, los acrónimos y las palabras deletreadas deben representarse

ortográficamente tal como son pronunciadas por el hablante, utilizando la forma ortográfica

completa.

Page 4: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

Como puede observarse, éstas son recomendaciones generales que constituyen principios básicos.

Un aspecto que requiere una discusión más detallada es el empleo de los signos de puntuación en la

transcripción ortográfica de corpus, tema sobre el que existen diversas posturas, desde las que

propugnan su completa eliminación - lo que disminuye notablemente la legibilidad del texto - hasta

las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones

es, obviamente, debida a las dificultades que plantea la introducción de puntuación en

transcripciones de habla espontánea, ya que implica necesariamente una segmentación del

enunciado que, en algunos casos, puede estar sujeta a la interpretación del transcriptor.

3.2.- Propuestas en el ámbito de las tecnologías del habla

En el campo de las tecnologías del habla existen diversas propuestas para la representación

ortográfica, dos de las cuales se presentan a continuación. Pueden verse otros ejemplos en las Guías

de Transcripción del Center for Spoken Language Understanding (CSLU, Oregon Graduate

Institute) (Lander, 1997) y en las convenciones desarrolladas para corpus como el HCRC Map

Task, Verbmobil o Polyphone (den Os et al., 1995).

3.2.1.- La propuesta de SpeechDat

Los sucesivos proyectos LRE-63314 SpeechDat (Infrastructure for Spoken Language Resources)y

LE2-4001 SpeechDat II (Speech Databases for the Creation of Voice Driven Teleservices)tienen

entre sus objetivos desarrollar estándares para la creación de recursos lingüísticos especialmente

adecuados al entrenamiento y evaluación de sistemas de reconocimiento automático del habla. Para

llevar a cabo la transcripción ortográfica se han definido una serie de convenciones - resumidas en

dos recomendaciones: “Keep it simple” y “Document everything adequately” - entre las cuales se

contempla el uso de mayúsculas y minúsculas, la transcripción de secuencias de números, de letras,

el empleo de los signos de puntuación; se establecen también procedimientos para la transcripción

de errores de pronunciación, de palabras ininteligibles, fragmentos de palabras, elisiones y

acontecimientos acústicos no verbales como las denominadas pausas llenas, ruidos producidos por

el hablantes, ruidos estacionarios en la grabación o ruidos intermitentes, respondiendo estas últimas

categorías a las necesidades de transcripción de una base de datos recogida a través del teléfono

(Senia y van Velden, 1997).

3.2.2.- La propuesta del Grupo de Trabajo de Lengua Oral de EAGLES

Los documentos del Grupo de Trabajo sobre Lengua Oral de EAGLES (EAGLES, 1995) ofrecen

las siguientes recomendaciones para transcripción ortográfica de corpus orales:

Las formas reducidas de las palabras se transcriben tal como aparecen en los diccionarios

normativos.

Si es necesario, y si se documentan adecuadamente, pueden utilizarse formas que no

aparezcan en los diccionarios.

Se recomienda el uso de formas reducidas si aparecen frecuentemente y si implican

elisiones de sílabas.

Las formas dialectales se marcan en la transcripción.

Los números se transliteran como palabras.

En la transcripción ortográfica se utilizan las formas completas de las abreviaturas.

Las abreviaturas que los hablantes pronuncian como palabras se transcriben de este mismo

modo.

En las transcripciones se indica la aparición de palabras deletreadas.

Page 5: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

Las interjecciones se transcriben con la representación ortográfica que aparece en los

diccionarios.

Como puede deducirse fácilmente, la filosofía general de esta propuesta consiste en utilizar siempre

las formas que aparecen en los diccionarios normativos y documentar adecuadamente las formas no

estándares que se encuentren durante el proceso de transcripción.

4.- Representación fonética de corpus orales

A la hora de plantearse la elección de un sistema de transcripción fonética para un corpus oral,

útiles los planteamientos que Johansson (1995:93) realiza en el marco de la TEI (Text Encoding

Initiative):

“The degree of phonetic detail given in speech transcription varies from none to a very precise

phonetic or phonemic transcription . . . Where there is a great deal of phonetic or phonemic detail, it

will be more convenient to design a specialized writing system”

Evidentemente, hay casos en los que el objeto de la investigación no requiere la utilización de un

sistema de transcripción fonética, pero cuando es necesario disponer de un “sistema especializado

de escritura” el AFI (Alfabeto Fonético Internacional) aparece como el primer candidato para cubrir

las necesidades de la investigación, siendo igualmente el sistema recomendado tanto por la TEI

(Sperberg-McQueen y Burnard (Eds.), 1994) como por el Grupo de Trabajo sobre Textos Orales de

EAGLES (EAGLES, 1996). Sin embargo, cuando se requiere el intercambio electrónico de textos,

SAMPA (SAM Phonetic Alphabet) - considerado como una versión informática de parte del AFI

(EAGLES, 1995) - se presenta como una opción válida especialmente en lo que se refiere a las

lengua europeas y si se requiere una transcripción de carácter fonológico. Existe una extensión de

SAMPA (X-SAMPA) que ofrece los elementos del AFI inexistentes en SAMPA y que, por lo tanto,

puede considerarse como un sistema adecuado para la transcripción de corpus orales (EAGLES,

1996). Por otra parte, cabe considerar también Wordlbet como una alternativa cuando la naturaleza

del corpus aconseje disponer de un sistema más detallado. Estos sistemas, comúnmente utilizados

en la transcripción de corpus orales desarrollados en el ámbito de la fonética y las tecnologías del

habla, se presentan someramente a continuación. Dada la diversidad de sistemas existentes, parece

clara la conveniencia de desarrollar mecanismos que permitan la compatibilidad, asegurando la fácil

traducción de una representación a otra, de modo que diferentes investigadores puedan hacer uso de

corpus ya transcritos fonéticamente, incorporándolos a su propio entorno de trabajo.

4.1.- La representación de los elementos segmentales

4.1.1.- Alfabetos fonéticos convencionales

El Alfabeto Fonético Internacional (AFI / IPA, International Phonetic Alphabet) es el sistema más

ampliamente utilizado para la transcripción fonética. Es bien sabido que se basa en un principio

fonológico, según el cual se transcriben aquellos segmentos con valor diferencial, utilizándose los

diacríticos para introducir aspectos de tipo fonético (IPA, 1995). Sin embargo, a pesar del uso

extendido de este sistema, existen también diversas tradiciones nacionales resultantes, en general,

de las necesidades derivadas de la transcripción estrecha de una determinada lengua o de la

orientación de la investigación hacia un determinada área lingüística.

4.1.2.- Alfabetos fonéticos para el intercambio electrónico

4.1.2.1.- La codificación de los símbolos del AFI

Page 6: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

La necesidad de intercambiar electrónicamente textos que contienen transcripciones fonéticas llevó,

a finales de los años 80, a plantearse la codificación de los símbolos del AFI, de modo que para

cada uno de los símbolos del alfabeto se ha definido un número (denominado “número AFI”) que

puede relacionarse también con los códigos ASCII (Esling, 1988, 1990; Esling y Gaylord, 1993;

IPA, 1989). Las equivalencias entre símbolos, números AFI y códigos ASCII forman parte de las

convenciones conocidas como CRIL (Computer Representation of Individual Languages) surgidas

del congreso de la Asociación Fonética Internacional celebrado en Kiel en 1991.

4.1.2.2.- SAMPA (SAM Phonetic Alphabet)

SAMPA (SAM Phonetic Alphabet) constituye seguramente el esfuerzo más significativo y

extendido por desarrollar un sistema de transcripción fonética informatizado. SAMPA tiene su

origen en el proyecto ESPRIT 1541 SAM (Speech Assessment Methods) (Fourcin et al., 1989;

Fourcin y Dolmazon, 1991) llevado a cabo entre 1987 y 1989. Al final del proyecto existían

versiones de SAMPA en danés, neerlandés, inglés, francés, alemán e italiano, incorporándose en

1992 el noruego y el sueco, y el español, el griego y el portugués en 1993. Durante 1996 se ha

extendido a una serie de lenguas de los países de la Europa del Este en el marco del proyecto

BABEL, y, en principio, no hay ningún obstáculo para su adaptación a otros idiomas. En cuanto a

su utilización práctica, puede señalarse que es el sistema desarrollado para la transcripción del

corpus multilingüe EUROM (Chan et al., 1995) y también el adoptado en el proyecto

ONOMASTICA, centrado en la transcripción de nombres propios en diversas lenguas europeas

SAMPA se basa en un conjunto de equivalencias entre símbolos del AFI y códigos ASCII,

restringiéndose al uso de caracteres de 7 bits (códigos 32 a 127). El principio que rige las

transcripciones en SAMPA, al igual que en el caso del AFI, es esencialmente fonológico,

empleándose únicamente símbolos distintos en el caso de segmentos con valor diferencial. Esta

filosofía viene motivada por tres razones: simplicidad de la transcripción sin incorporar

ambigüedades, ya que las realizaciones alofónicas son predictibles a partir del contexto; facilidad de

utilización por parte personas con poca formación en fonética; y falta de códigos ASCII para la

transcripción alofónica de todas las lenguas. Sin embargo, en algunos casos, se introducen símbolos

para la representación de alófonos cuando los investigadores que han desarrollado las adaptaciones

para cada lengua lo han considerado necesario.

4.1.2.3.- X-SAMPA

Una de las limitaciones de SAMPA es que no establece una codificación para todos los símbolos

del AFI. Por este motivo, Wells (1994) propone un sistema denominado X-SAMPA en el que se

prevén equivalencias en códigos ASCII para la totalidad de símbolos del AFI en su revisión de

1993, incluyendo diacríticos y marcas tonales. Una de las utilidades propuestas para este sistema es

el envío de textos en transcripción fonética a través del correo electrónico.

4.1.2.4.- Worldbet

Worldbet constituye una propuesta más ambiciosa que SAMPA y que su extensión X-SAMPA,

pues parte de la base de que “any spectrally and temporally distinct speech sound (not including

pitch) which is phonemic in some language should have a separate base symbol” (Hieronymus,

1994); los símbolos de base consisten normalmente en la concatenación de un símbolo del AFI con

una serie de diacríticos, de modo que puede representarse una gran variedad de alófonos hallados en

las lenguas del mundo, incluyendo símbolos inexistentes en el AFI. Uno de los objetivos de

Wordlbet - que en su versión actual usa 299 símbolos compuestos de dos caracteres ASCII - es

Page 7: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

facilitar la transcripción de bases de datos multilingües que incluyan lenguas indias, asiáticas y

africanas, además de las europeas. Este sistema se ha utilizado, por ejemplo, en la transcripción de

los corpus distribuidos por el CSLU (Center for Spoken Language Understanding, Oregon

Graduate Institute)(Lander, 1997).

4.1.2.5.- Otros sistemas de transcripción fonética

Existen otros sistemas de transcripción fonética concebidos para el intercambio electrónico de

textos, tanto desarrollados desde la perspectiva de las tecnologías del habla - por ejemplo, el

CPA(Computer Phonetic Alphabet)surgido en el marco del proyecto ESPRIT Linguistic Analysis of

European Languages (Kluger-Kruse, 1987) - como diseñados para otros fines. En el ámbito del

estudio del lenguaje infantil, el proyecto CHILDES (Child Language Data Exchange

System)(MacWhinney, 1991) utiliza el sistema conocido como PHONASCII (Allen, 1988),

consistente en un conjunto de símbolos fonológicos - UNIBET - y un alfabeto fonético que permite

la transcripción estrecha.

4.1.3.- Transcripción fonética segmental en español

4.1.3.1.- Alfabetos fonéticos convencionales

En la tradición hispánica, el alfabeto fonético de la Revista de Filología Española (RFE, 1915)

constituye, sin duda, el sistema de transcripción fonética más ampliamente difundido. Sin embargo,

el Alfabeto Fonético Internacional tiende a utilizarse cada vez con mayor frecuencia, ya que, en la

mayoría de los casos, es posible establecer una correspondencia entre los dos sistemas tal como se

presenta, por ejemplo, en Quilis (1985).

4.1.3.2.- Alfabetos fonéticos para el intercambio electrónico

4.1.3.2.1.- La adaptación española de SAMPA

Las necesidades surgidas a raíz de la constitución de corpus en español adaptados al desarrollo de

las tecnologías del habla han propiciado la adaptación de sistemas adecuados para el tratamiento

informático desarrollados originalmente en otras lenguas. La presencia de grupos españoles en el

proyecto ESPRIT 2104 Polyglot I (Pardo et al., 1992) llevó a una primera adaptación del alfabeto

fonético del proyecto SAM realizada en la UNED, dando lugar a trabajos sobre transcripción

fonética automática en español (Enríquez, 1991).

La realización de la versión española del corpus EUROM en el marco del proyecto ESPRIT 6819

SAM-A llevó a la adaptación española de SAMPA (Mariño y Llisterri, 1993) tal como se presenta a

continuación, y al desarrollo de un programa de transcripción fonética automática basada en este

alfabeto que permitiera la generación automática de la representación fonética del corpus a partir de

los textos escritos leídos por los informantes. En la siguiente tabla, tomada de Wells (1995) se

ofrecen los símbolos de transcripción de SAMPA utilizados en español.

SAMPA Ejemplo Ejemplo transcrito

p padre "paDre

b vino "bino

t tomo "tomo

d donde "donde

Page 8: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

k casa "kasa

g gata "gata

tS mucho "mutSo

jj hielo "jjelo

f fácil "faTil

B cabra "kaBra

(= /b/)

T cinco "Tinko

D nada "naDa

(= /d/)

s sala "sala

x mujer mu"xer

G luego "lweGo

(= /ɡ/)

m mismo "mismo

n nunca "nunka

J año "aJo

l lejos "lexos

L caballo ka"baLo

(o como jj)

r puro "puro

rr torre "torre

j rey

pie

rrej

pje

w deuda "dewDa

i pico "piko

e pero "pero

a valle "baLe

o toro "toro

u duro "duro

Tabla 1: Símbolos de SAMPA (SAM Phonetic Alphabet) para la transcripción del español (Wells, 1995)

SAMPA es el alfabeto fonético utilizado en el proyecto ALBAYZÍN, cuyo objetivo es la

constitución de tres bases de datos orales diseñadas para el entrenamiento y la evaluación de

sistemas de reconocimiento del habla y para estudios fonéticos (Casacuberta et al., 1992; Moreno et

al., 1993); tal como sucede en el caso de otras lenguas, podría, previsiblemente, convertirse en el

estándar para la transcripción de corpus orales en español cuando el nivel de transcripción requerido

responda al diseño de SAMPA que, como se ha indicado, constituye un alfabeto de naturaleza

fonológica adecuado para una transcripción ancha. Este podría ser el caso de los corpus para

aplicaciones a las tecnologías del habla y, en este mismo contexto, SAMPA constituye la base - en

algunos casos con modificaciones - de las representaciones generadas por los algoritmos de

transcripción fonética automática desarrollados para diversos sistemas de conversión de texto a

habla en español.

4.1.3.2.2.- Utilización de Worldbet para la transcripción en español

Page 9: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

La siguiente tabla, tomada de Hyeronimus (1994) propone los símbolos de Worldbet utilizados para

la transcripción fonológica del español peninsular:

Worldbet Ejemplo Ejemplo transcrito

p punto p u n t o

b baños b a n~ o s

t tino t i n o

d donde d o n d e

k casa k a s a

g ganga g a N g a

V haba a V a

f falda f a l d a

s casa k a s a

z mismo m i z m o

T luces l u T e s

D dedo d e D o

x jamás x a m a s

G lago l a G o

tS chato t S a t o

dZ un yugo dZ u G o

m mano m a n o

n nada n a D a

n~ baño b a n~ o

N banco b a N k o

l lado l a D o

L pollo p o L o

r( pero p e r( o

r perro p e r o

j mayo m a j o

w cuento k w e n t o

i piso p i s o

e mesa m e s a

a caso k a s o

o modo m o D o

u cura k u r( a

Tabla 2: Símbolos de Worldbet para la transcripción del español (Hyeronimus, 1994)

La transcripción alofónica puede llevarse a cabo sin dificultades recurriendo al inventario completo

de símbolos de Worldbet presentado en Hyeronimus (1994). Por ejemplo, es posible especificar el

carácter dental de [t] y [d] mediante el uso de los símbolos [t[] y [d[] respectivamente, la fricativa

dental sonora mediante [z], la fricativa palatal sorda con [Z] y su equivalente sonoro con [s_j], así

como los alófonos reducidos (laxos) de las vocales mediante [Ix], [E], [&] o las aspiraciones

utilizando [hs] (Lander, 1997).

4.1.3.2.3.- Sistemas de transcripción fonética adaptados a corpus específicos

Page 10: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

Transcripción de variantes geográficas

Sin embargo, una transcripción de base fonológica como la planteada en SAMPA no es,

evidentemente, apta para cubrir todas las necesidades de la investigación lingüística. Por este

motivo, en corpus informatizados como el recogido en el proyecto de investigación de las

Variedades Vernáculas Malagueñas (Alvar y Villena (Coords.), 1994) se ha adoptado un sistema de

transcripción basado en la adaptación del sistema de la RFE al ALEA (Atlas Lingüístico y

Etnográfico de Andalucía). En este proyecto se utiliza un entorno de transcripción asistida que

permite al investigador, mediante el uso de macros, crear símbolos fonéticos rasgo a rasgo,

introduciendo cuantos diacríticos sean necesarios (León, 1994). Con ello es posible realizar una

transcripción estrecha de las hablas meridionales que responde a los objetivos planteados para el

corpus. El procedimiento de transcripción asistida constituye la base de un futuro método de

transcripción fonética automática por reglas de textos orales transliterados, en el que se contempla

la utilización de SAMPA para la transcripción ancha, manteniendo el alfabeto fonético del ALEA

para la transcripción estrecha (León y Sánchez, 1996). Transcripción de diccionarios electrónicos

Un alfabeto fonético apto para ser utilizado en soportes digitales es también una herramienta

indispensable en la transcripción fonética de diccionarios electrónicos como, por ejemplo, el

Sistema de Diccionarios Electrónicos del Español . En el marco de este proyecto se lleva a cabo la

transcripción automática de una base de datos léxica que permite establecer de forma sistemática las

irregularidades ortográficas y que constituye la base para la realización de un diccionario de

pronunciación aplicable a las tecnologías del habla (Ríos, 1993, 1994).

4.2.- La representación de los elementos suprasegmentales

La incorporación de información sobre los elementos suprasegmentales - información prosódica -

en un corpus oral plantea diversos problemas, derivados precisamente de la propia naturaleza de

estos elementos, que se manifiestan en variaciones continuas en los dominios de la frecuencia, la

intensidad y el tiempo. Por tanto, es preciso llevar a cabo una abstracción para determinar, en

primer lugar, cuáles de estas variaciones son lingüísticamente significativas y, en segundo lugar,

cómo se relacionan con categorías discretas. Finalmente, estas categorías deben representarse en un

sistema de notación. No es pues extraño que se hayan desarrollado diversas convenciones para la

simbolización de los elementos suprasegmentales, algunas de las cuales se presentan en los

apartados siguientes.

En el momento de plantearse la selección de un sistema de transcripción prosódica adecuado a un

corpus oral el investigador se enfrenta nuevamente a la diversidad de sistemas, al igual que sucede

en el caso de la transcripción segmental. Aunque, como veremos más adelante, ToBI parece que se

está convirtiendo rápidamente en un estándar a pesar de su orientación hacia la transcripción del

inglés y del modelo fonológico subyacente, SAMPROSA ofrece la ventaja de haberse desarrollado

teniendo en cuenta las necesidades de la fonética y de las tecnologías del habla; además,

SAMPROSA se enmarca en el contexto de estándares extendidos en Europa como los del proyecto

SAM, recomendados, por ejemplo, por NERC (Teubert, 1993; Sinclair, 1994). En conjunto, el

sistema ideal de transcripción prosódica debería permitir una representación en varios niveles, ser

compatible con el intercambio electrónico de datos y cubrir las necesidades del mayor número de

lenguas posible, pudiendo aplicarse automáticamente en lugar de basarse en las impresiones

intuitivas del transcriptor, con vistas a la transcripción de grandes corpus. En ausencia de un sistema

que reúna tales características, parece adecuado establecer mecanismos de compatibilidad entre los

existentes a fin de facilitar la reutilización de los datos.

Page 11: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

4.2.1.- La transcripción de los elementos suprasegmentales mediante el AFI

El AFI ofrece, además de la posibilidades de transcripción segmental, un conjunto de símbolos para

la representación de los elementos suprasegmentales. Con motivo del congreso para la revisión del

AFI celebrado en Kiel en 1989 se creó un grupo de trabajo sobre categorías suprasegmentales

(Bruce 1988, 1989), concluyéndose la necesidad de representar las categorías suprasegmentales de

un modo más adecuado, especialmente en lo que se refiere la entonación. El conjunto actual de

símbolos del AFI para los elementos suprasegmentales permite transcribir el tono, así como la

duración y el acento.

4.2.2.- Sistemas de transcripción prosódica para el intercambio electrónico

Las necesidades derivadas de una descripción detallada de la entonación tanto en el campo de la

fonética como en el de las tecnologías del habla han propiciado la creación de diversos sistemas de

transcripción prosódica, algunos de los cuales se presentan a continuación.

4.2.2.1.- Las propuestas de SAM

En el marco del proyecto ESPRIT SAM anteriormente mencionado se llevó también a cabo el

desarrollo de sistemas de transcripción prosódica compatibles con las necesidades de anotación de

bases de datos en soporte electrónico, resultando de ello propuestas como PROSPA, SAMSINT o

SAMPROSA (Gibbon, 1989; Wells et al., 1992).

PROSPA fue originalmente concebido por Selting y Gibbon (Selting, 1987, 1988) para el análisis

de la conversación y del discurso y, por tal motivo, se basa en criterios auditivos y recoge

únicamente los elementos necesarios para este fin. Por su parte, SAMSINT (SAM System for

Intonation Transcription) se plantea como objetivo la transcripción de contornos melódicos en el

interior de unidades entonativas, basándose en INTSINT (cf. 4.2.2.4.) con algunas modificaciones

adicionales.

SAMPROSA (SAM Alphabet)

A pesar de la coexistencia de los sistemas anteriormente mencionados en el proyecto SAM,

probablemente el conjunto de símbolos más extendido actualmente para la transcripción prosódica

sea SAMPROSA (SAM Prosodic Alphabet), propuesto inicialmente por Gibbon (1989) y

desarrollado por Wells et al.(1992) hasta llegar a su forma actual, que se presenta en la siguiente

tabla, reproducida de Wells (1995).

SAMPROSA ASCII Definition

Local tone

H 72 High pitch

L 76 Low pitch

T 84 Top pitch (extreme H)

B 66 Bottom pitch (extreme L)

M 77 Mid pitch

+ 43 Higher pitch

++ 43,43 Much higher pitch

+- 43,45 Peak (upward-downward)

- 45 Lower pitch

-- 45,45 Much lower pitch

Page 12: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

-+ 45,43 Trough (downward-upward)

^ 94 Upstep

^^ 94,94 Wide upstep

! 33 Downstep

!! 33,33 Wide downstep

= or > or S 61 62 or 83 Level or same tone

Global tone: from Local and Nuclear tone repertoire

Terminal tone: from Local and Nuclear tone repertoire

Nuclear tone

- 45 Level tone (before tone group boundary)

' or / or R 39 47 or 82 Rising tone

` or \ or F 96 92 or 70 Falling tone

`' (etc.) 96,39 (etc.) Fall-rise

'` (etc.) 39,96 (etc.) Rise-fall

Length

: 58 Segment length mark

Stress

" 34 Primary stress

% 37 Secondary stress

Pause

... 46,46,46 Silence

Boundary

$ 36 Syllable boundary

# 35 Word boundary

| 124 Tone group boundary (non-directional)

[ 91 Tone group boundary (left)

] 93 Tone group boundary (right)

Metasymbols

- 45

Separator (the underscore, _, ASCII 95,

may replace this owing to ambiguity with

level tone)

* 42 Conjunctor

Tabla 3: SAMPROSA (SAM Prosodic Alphabet)(Wells, 1995)

SAMPROSA ofrece pues, al igual que SAMPA, un conjunto de caracteres correspondientes a

códigos ASCII, mediante los cuales es posible transcribir tonos globales, locales, terminales y

nucleares, la duración, el acento, la pausas y las fronteras entre unidades prosódicas. Aunque, como

puede observarse, presenta rasgos característicos de la tradición británica de análisis de la

entonación como la codificación de tonos nucleares, es un sistema que se plantea como adecuado

para la transcripción de diversas lenguas.

4.2.2.2.- ToBI (Tone and Break Index)

ToBI (Tone and Break Index)se desarrolló para cubrir al mismo tiempo las necesidades de la

descripción fonética y de la anotación de corpus adecuados al desarrollo de sistemas de tecnologías

Page 13: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

del habla (Silverman et al., 1992). Basado en el inglés americano, permite principalmente la

transcripción de patrones entonativos partiendo de un análisis de la curva melódica representada

como evolución temporal de la frecuencia fundamental mediante herramientas de análisis y

etiquetado como el programa Waves. Sin embargo, se han definido también convenciones para la

anotación de textos representados ortográficamente.

Una transcripción utilizando ToBI consta de cuatro niveles:

Representación ortográfica del enunciado.

Nivel de índices de ruptura (break index), en el que se introducen los indicadores de límite

que marcan las fronteras entre las unidades melódicas estableciendo cuatro grados de

cohesión entre las mismas

Nivel tonal, en el que se marcan los denominados “eventos tonales” (pitch events) divididos

en tonos de frase al principio y al final de las unidades melódicas y en acentos tonales

(pitch accent) en las sílabas en las que se produce un movimiento de la frecuencia

fundamental

Nivel misceláneo, que facilita, por ejemplo, introducir los comentarios del transcriptor.

Para cada uno de los niveles se define un conjunto de símbolos, alineados temporalmente con los

fenómenos entonativos transcritos si se dispone de una herramienta adecuada como Waves.

Las críticas que se realizan más frecuentemente a ToBI son, por una parte, su dependencia del

modelo fonológico desarrollado por Pierrehumbert (1980) y, por otra, su mejor adaptación al inglés

que a otras lenguas, lo que explicaría su amplia utilización en Estados Unidos. Sin embargo, se han

realizado trabajos en italiano, alemán, húngaro y español, entre otras lenguas, usando ToBI como

sistema de representación. Un inconveniente más importante es que la anotación mediante ToBI

requiere un cierto conocimiento previo de los patrones entonativos de la lengua. Aun así, es un

sistema que ofrece indudables ventajas como pueden ser su estructura jerárquica, que permite

seleccionar entre subconjuntos o conjuntos mayores de símbolos, la posibilidad de representar

problemas que aparecen en la transcripción y el hecho de que existan experimentos demostrando un

alto grado de acuerdo entre transcriptores diferentes (Pitrelli et al., 1994).

4.2.2.3.- El sistema de representación del IPO

En el Institute for Perception Research (IPO, Eindhoven) se ha desarrollado una teoría sobre la

entonación basada en el modelado de contornos entonativos, consistentes en representaciones

estilizadas perceptivamente equivalentes al contorno original (ët Hart et al., 1990). Esta teoría ha

llevado también a la formalización de un sistema de representación de la curva melódica, definida

como un conjunto de movimientos tonales que se agrupan en secuencias de configuraciones tonales;

la agrupación de estas configuraciones da lugar, a su vez, a contornos melódicos, definiéndose los

patrones entonativos en función de agrupaciones similares de contornos melódicos. Un sistema

jerarquizado de esta naturaleza permite una representación de la curva melódica adecuada para la

transcripción prosódica, aunque que inicialmente no haya sido diseñado para tales fines.

4.2.2.4.- INTSINT (International Transcription System for Intonation)

El objetivo de INTSINT (International Transcription System for Intonation) es proporcionar un

sistema para la comparación interlingüística de sistemas prosódicos. Desarrollado por Hirst (1991,

1994; Hirst y Di Cristo, en prensa; Hirst, Di Cristo y Espesser, en prensa) en el marco de un

proyecto de análisis automático de la entonación, INTSINT se basa en la estilización de la curva

Page 14: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

melódica realizada a partir de una interpolación entre puntos en los que se da un cambio

significativo en el valor de la frecuencia fundamental (target points). Estos puntos, que podríamos

denominar “de inflexión” - definidos como la combinación de un valor temporal y un valor

frecuencial - son susceptibles de codificarse automáticamente mediante los símbolos de INTSINT,

previa introducción de marcas de frontera entre las unidades entonativas. Con ello se obtiene una

representación fonológica del contorno melódico, simbolizando los diferentes niveles tonales de la

curva original. El sistema se basa en la representación de secuencias tonales, consideradas tanto

desde una perspectiva global en función del rango de variación tonal del hablante como desde un

punto de vista local en relación con la altura de puntos de inflexión anteriores. En el primer caso se

definen tres niveles: T (Top), M (Mid) y B (Bottom), mientras que en el segundo se marcan cinco

posibilidades: H (Higher), L (Lower), S (Same), U (Upstep) o D (Downstep).

El proceso de modelización necesario para transcribir mediante INTSINT ha sido aplicado a varias

lenguas (Hirst et al., 1993) y se emplea también para la anotación prosódica de parte del corpus

EUROM en francés, inglés, alemán, sueco y español (Hirst et al., 1994; Llisterri (Ed.), 1996)

llevada a cabo en el marco del proyecto LRE 62-050 MULTEXT (Multilingual Text Tools and

Corpora). Es posible también aplicar INTSINT a niveles más altos como el párrafo tal como se

muestra en Nicolas y Hirst (1995).

5.- Etiquetado fonético de corpus orales

Al igual que en el caso de los corpus textuales, una vez recogidos los materiales de base, debe

llevarse a cabo un procesamiento de los mismos que permita su utilización posterior. El primer paso

suele ser la transcripción ortográfica, que en determinado tipo de corpus se acompaña de una

transcripción fonética o fonológica. A continuación, a cada segmento de la onda sonora se le asocia

una etiqueta que lo define en términos fonéticos o fonológicos (labelling) y se lleva a cabo la

alineación (alignment) entre la señal sonora y las etiquetas, obteniendo una representación que

puede compararse a la partitura musical de una obra para voz y orquesta. El proceso de etiquetado

segmental puede llevarse a cabo a varios niveles, como veremos en este apartado, y completarse

con una anotación de las características suprasegmentales, codificadas según los diversos sistemas

que hemos expuesto anteriormente.

Si se cumplen las etapas mencionadas, se llega a disponer de un corpus que contiene la señal sonora

sincronizada con la transcripción ortográfica y con la transcripción fonética o fonológica, de modo

que, una vez definida una estructura de base de datos, es posible consultar el corpus partiendo de

etiquetas fonéticas, de marcas prosódicas o de la transcripción ortográfica, al tiempo que se accede

a la grabación correspondiente.

Los corpus de lengua oral que consisten únicamente en transcripciones ortográficas - ya que no

suele ser factible realizar una transcripción fonética completa de un número elevado de horas de

grabación - conllevan un procesamiento menos complejo, aunque en algunos casos contienen

marcas prosódicas útiles para el análisis del discurso o de la conversación, como veremos en el

apartado 6.

5.1.- Niveles de etiquetado

Una cuestión que se plantea inevitablemente a la hora de introducir información adicional sobre los

datos recogidos es el nivel de etiquetado del corpus. Se han realizado varias propuestas sobre los

Page 15: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

distintos niveles en los que se puede realizar el etiquetado fonético de un corpus, algunas de ellas

ligadas al proyecto SAM como la de Barry y Fourcin (1992) que presentamos a continuación.

5.1.1.- La propuestas del proyecto SAM

En la propuesta de Barry y Fourcin se plantean cinco niveles posibles de etiquetado fonético de un

corpus:

Nivel físico, en el que se etiquetan las propiedades acústicas presentes en la señal sonora.

Nivel acústico-fonético, en el que se marcan las propiedades de los segmentos en términos

de categorías fonéticas como oclusión, fricción, sonoridad, nasalización, etc.

Nivel de transcripción estrecha, en el que se caracterizan los segmentos utilizando los

símbolos del AFI o de sus equivalentes computacionales.

Nivel de transcripción fonológica (o fonémica), señalando únicamente aquellos elementos

funcionalmente distintivos que se encuentran en la palabra pronunciada aisladamente en un

estilo cuidado (citation form).

Nivel de transcripción ancha, en el que se utilizan los símbolos correspondientes a los

elementos fonológicos en una lengua dada para transcribir realizaciones alofónicas

condicionadas por el contexto.

A estos cinco niveles debe añadirse aún la anotación prosódica, considerada de forma independiente

por los autores de la propuesta.

Una propuesta similar de etiquetado, también en cinco niveles - características acústicas de

naturaleza subfonémica, características segmentales, realizaciones fonéticas, forma canónica de las

palabras y transcripción ortográfica - se presenta en Tillmann y Pompino-Marschall (1993) y ha

sido utilizada con éxito en el proyecto alemán PhonDat.

5.1.2.- La propuesta de EAGLES

La transcripción y el etiquetado de corpus orales se ha abordado en el marco del proyecto EAGLES

desde una doble perspectiva: la de la foneacute;tica y las tecnologías del habla en el Grupo de

Trabajo sobre Lengua Oral y desde la de la lingüística de corpus en el marco de las actividades del

Grupo de Trabajo sobre Corpus Textuales.

El trabajo llevado a cabo en el grupo dedicado a la lengua hablada en EAGLES recoge

esencialmente las propuestas desarrolladas en el marco de SAM y de PhonDat. Los niveles de

etiquetado propuesto son los siguientes (EAGLES, 1995):

Nivel ortográfico, en el que se utiliza la representación ortográfica convencional.

Nivel de formas canónicas (citation form), representando la forma de pronunciación aislada

de las palabra en estilo cuidado.

Nivel de transcripción ancha o fonotípica: en este nivel se utilizan los símbolos que

representan elementos fonológicos en una lengua dada, pero, al igual que en la propuesta de

Barry y Fourcin, se transcriben aquellos fenómenos predictibles propios de la fonética

sintáctica. SAMPA sería, pues, un alfabeto fonético adecuado para este nivel de

transcripción.

Nivel de transcripción estrecha, basado en una representación alofónica de las realizaciones

fonéticas de los hablantes, para el cual puede utilizarse un alfabeto fonético como X-

SAMPA.

Page 16: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

Nivel acústico-fonético, en el que se distinguen características acústicas de los segmentos

observables en una representación de la onda sonora

Nivel físico, representado en términos de parámetros acústicos o articulatorios

Fenómenos no lingüísticos: la inclusión de este nivel permite representar sonidos de

naturaleza comunicativa o no introducidos por el hablante, así como toda aquella

información paralingüística que se considere de interés; también permite señalas los ruidos

externos en la grabación.

Vale la pena detenerse brevemente en el nivel de las formas canónicas y en el concepto de

“transcripción fonotípica” que, como puede verse, aparecen de forma constante en diversas

propuestas. La inclusión en el etiquetado de un corpus de forma canónicas responde a un doble

motivo, especialmente ligado a necesidades tecnológicas: en primer lugar, estas formas permiten

derivar automáticamente, mediante un conjunto de reglas, una transcripción ancha o fonotípica en la

que se incluyen los elementos alofónicos cuya aparición esta condicionada por el contexto fonético;

en segundo lugar, a partir de las formas canónicas puede crearse de forma automática un diccionario

fonético partiendo de un corpus transcrito (Senia y van Velden, 1997; Wesenick y Schiel, 1995), lo

que tiene utilidad para el desarrollo de sistemas de síntesis y reconocimiento del habla y también

para la descripción lingüística.

La transcripción denominada “fonotípica” en los trabajos de SAM constituye un nivel intermedio

entre la realización fonética y la transcripción puramente fonológica. Por otra parte, el nivel de

transcripción de formas canónicas está directamente relacionado con la representación ortográfica,

facilitando así la transcripción fonética automática de corpus en este nivel mediante el desarrollo de

los correspondientes sistemas de reglas.

En el informe del Grupo de Trabajo de Corpus Textuales de EAGLES (EAGLES, 1996) se intenta

realizar una síntesis entre las necesidades de diversos campos de estudio. Se sugieren, por ello, tres

niveles de representación:

S1: representación ortográfica del texto.

S2: representación fonológica de las palabras en su forma canónica.

S3: transcripción fonética, consistente en una representación simbólica discreta de la

realización del enunciado tal como es percibido por el transcriptor.

Como puede observarse, estos tres niveles encuentran su equivalente en los niveles propuesto por

Barry y Fourcin (1992) y en los definidos por el Grupo de Trabajo de Lengua Oral. Para la

transcripción del nivel S2 puede utilizarse SAMPA, mientras que la del nivel S3 requiere el uso de

un alfabeto fonético como X-SAMPA.

5.2.- La transcripción y el etiquetado automático de corpus orales

La tarea de transcribir y etiquetar fonéticamente un corpus oral representa un considerable esfuerzo,

tanto en términos de tiempo como de los recursos económicos necesarios para llevar a cabo esta

labor. El etiquetado manual requiere, por otro lado, el desarrollo de convenciones detalladas para

asegurar la consistencia entre diversos transcriptores (Keating et al., 1994; Lander, 1997) además

del establecimiento de un proceso de validación, comprobando la fiabilidad de los resultados

obtenidos (Cole et al., 1994; Eisen, 1993; Strangert y Heldener, 1995).

Por estos motivos, uno de los intereses principales de los investigadores en el campo de las

tecnologías del habla ha sido llevar a cabo el etiquetado de forma semi-automática o, idealmente,

Page 17: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

completamente automática. Un primer nivel de transcripción - tanto de formas canónicas como

fonotípica - puede obtenerse automáticamente, como acabamos de mencionar, a partir de la

representación ortográfica si se dispone de un conjunto de reglas que establezcan las

correspondencias entre la representación ortográfica y la fonética.

Sin embargo, un etiquetado fonético en los niveles de transcripción más detallada requiere la

posibilidad de acceder a la onda sonora y un procedimiento de análisis de la señal. La primera

operación que debe realizar un sistema de etiquetado automático es la segmentación

del continuum sonoro en unidades menores - segmentos o características acústicas, en función del

nivel de transcripción deseado - para pasar después a la asignación de etiquetas - símbolos de

transcripción - que describan sus características. Este es el proceso conocido propiamente como

etiquetado (labelling) que, cuando se realiza de forma automática, debe superar los obstáculos

derivados de la naturaleza no discreta de la señal sonora - resultado de mecanismos como la

coarticulación - y de la variabilidad de realizaciones fonéticas entre hablantes o incluso en un

mismo hablante.

Para que el corpus sea útil, el etiquetado fonético debe estar temporalmente sincronizado con la

señal sonora y con la representación ortográfica, operación que se realiza en el proceso conocido

como alineación temporal (time alignment), llevado a cabo también de forma automática. Esta

alineación puede hacerse de un modo global, señalando en la onda sonora las fronteras entre

palabras ortográficas - para facilitar el acceso a la grabación a partir de este nivel de representación

- o los puntos en los que se encuentran sílabas acentuadas tal como sucede, por ejemplo, en el

proyecto MULTEXT.

En el campo de las tecnologías del habla se han llevado a cabo numerosísimos trabajos

encaminados al diseño de sistemas de segmentación, etiquetado y alineación temporal automáticas

de corpus orales, utilizando las técnicas propias del reconocimiento del habla como los Modelos de

Markov o las redes neuronales. No constituye el objeto de la presente contribución presentar tales

procedimientos, por lo que remitimos al lector a los trabajos publicados, por ejemplo, en

Eurospeech (1991, 1993, 1995) o en las revistas de la especialidad como Speech

Communication(Amsterdam: Elsevier). Cabe destacar que tales técnicas no sólo son útiles en el

desarrollo de corpus para las tecnologías del habla, sino que constituyen una herramienta importante

en otros tipos de corpus; sin embargo, es preciso reconocer que el habla espontánea - especialmente

si se ha recogido mediante grabaciones realizadas en un entorno natural - plantea aún problemas en

lo que se refiere a su transcripción y etiquetado automáticos pese a los notabilísimos avances que

tienen lugar en este campo.

6.- Transcripción y codificación de corpus para el análisis de la

lengua oral

En este último apartado incidiremos en las cuestiones relacionadas con la transcripción y

codificación de corpus orales que pueden presentar un mayor interés para ámbitos como el análisis

de discurso o de la conversación y para el estudio de la lengua oral en todos los niveles de la

descripción lingüística. Como indicábamos al principio, la transcripción y la codificación de los

elementos transcritos son, en principio, dos operaciones conceptualmente diferentes. Sin embargo,

en la práctica habitual en las áreas a las que se refiere este apartado, suelen ser dos operaciones que

se realizan simultáneamente, ya que al mismo tiempo que se realiza la transliteración se introducen

las marcas necesarias para la codificación de los elementos que se ha decidido introducir en el

Page 18: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

corpus. Por ello, en muchos casos la discusión sobre la transcripción y la codificación se realiza

conjuntamente en la bibliografía sobre el tema.

6.1.- Los requisitos de una transcripción

El investigador que decide constituir un corpus de lengua oral se encuentra, en estos momentos, con

una gran variedad de criterios en lo que se refiere a la transcripción y a la selección de los

elementos que aparecerán codificados en el corpus. Hemos hecho ya referencia en el apartado 3 a

las diversas convenciones para la representación ortográfica y, ciñéndonos al ámbito del análisis del

discurso y la conversación, constatamos igualmente la existencia una gran diversidad de propuestas.

En una revisión de las mismas, Payrató (1995) hace referencia a los sistemas de transcripción y

codificación procedentes de la etnometodología, interesados en reflejar la interacción verbal

(Atkinson y Heritage (Eds.), 1984; Button y Lee (Eds.), 1987), a los métodos desarrollados en el

marco de la etnografía de la comunicación y de la sociolingüística interaccional (Ochs, 1979;

Tannen, 1987; DuBois, 1991; DuBois et al. 1993; Gumperz y Berenz, 1993) o a propuestas

utilizadas en el estudio del lenguaje infantil como la de CHILDES (MacWhynney, 1991). Cabe

añadir también sistemas como los presentados en Blanche-Benveniste y Colette (1987) para la

transcripción de un corpus centrado en la investigación del francés hablado, o en Stenström (1994),

Cestero (1994) y Tusón (1995) orientados al análisis de la conversación, así como a la propuesta

detallada en Payrató (1995).

Ante tal situación, parece conveniente plantearse cuáles son los requisitos que debe cumplir una

transcripción de la lengua oral, tema que ha sido abordado por diversos autores (DuBois, 1991;

Elich, 1993; Edwards, 1993; OíConnell y Kowal, 1994). Tras revisar aportaciones anteriores,

Payrató (1995) resume los requisitos que, teóricamente, deberían exigirse a toda transcripción:

Neutralidad o fidelidad, de modo que la transcripción no sea interpretativa.

Globalidad o complejidad, recogiendo la totalidad de los fenómenos que aparecen en el

discurso oral.

Omnifuncionalidad, permitiendo diversos usos y aplicaciones.

Claridad, tanto desde el punto de vista del aprendizaje del sistema como de la legibilidad de

la representación.

Universalidad y compatibilidad entre sistemas informáticos.

Sin embargo, puesto que en la práctica se transcribe en función de los objetivos para los que se ha

definido el corpus, Payrató (1995) considera que un sistema de transcripción debe ser, ante todo,

interpretativo de los datos, selectivo en cuanto a los fenómenos que se transcriben, pertinente para

el objeto de investigación, coherente con la base teórica adoptada por el investigador, fiel en cuanto

a la representación de los datos y flexible para que sea posible su utilización en diversos estudios.

Por otra parte, en opinión de este autor, la simbología utilizada debe ser clara, económica, sencilla,

exenta de ambigüedad y compatible con sistemas internaciones estandarizados. Este último aspecto

nos parece especialmente importante ya que, como señala el mismo Payrató (1995: 58)

“. . . en ningún caso puede olvidarse que los datos de una investigación no deberían ser tratados

nunca de forma tan parcial o idiosincrásica que se impidiera o dificultara el uso por parte de otros

investigadores. La transcripción del discurso oral es una actividad suficientemente costosa y

conflictiva para tomar precauciones en este sentido, y ninguna comunidad científica puede

permitirse el lujo de particularismos (en aspectos tan elementales) que obstruyan el debate o

conviertan en inaprovechables una fuente de información”.

Page 19: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

6.2.- Los elementos transcritos y las prácticas de transcripción y

codificación

A fin de estudiar la viabilidad de disponer de criterios mínimamente estandarizados para la

transcripción y la codificación de corpus orales, en EAGLES (1996) se realiza una revisión de los

elementos que suelen encontrarse representados con más frecuencia en los sistemas de transcripción

diseñados para el estudio de la lengua oral. Además de los métodos mencionados en el apartado

anterior desarrollados en el marco del análisis del discurso y de la conversación, cabe considerar

también las distintas convenciones empleadas en la transcripción y codificación de corpus orales

desde la propia lingüística de corpus.

Los elementos transcritos pueden relacionarse con los diversos niveles de representación del corpus,

tal como se presenta en la siguiente tabla:

Nivel de análisis Elementos transcritos, marcados o codificados

Nivel segmental Alargamiento, timbre, acento, reconstrucción de segmentos elididos.

Nivel silábico Fronteras silábicas, alargamiento silábico.

Nivel léxico

Fronteras de palabras, palabras truncadas, formas no estándar, formas

onomatopéyicas, formas deletreadas, acrónimos, abreviaturas, cambios

entonativos en la palabra, acento léxico, pausas percibidas entre

palabras o en el interior de una palabra.

Nivel sintáctico Fronteras entre enunciados, modalidad, interrupciones en el enunciado

con o sin presencia de pausas.

Nivel suprasegmental Unidades entonativas

Fronteras entre unidades entonativas o entre unidades menores,

unidades tonales incompletas o truncadas, reajustes (resets) tonales,

junturas, índices de cohesión, contornos tonales terminales.

Tono

Cambios melódicos en el enunciado o en parte del enunciado, nivel

tonal, rango tonal, registro, movimiento tonal en la palabra o en el

enunciado.

Acento

Acento de palabra, acento de frase, acento tonal, niveles de acento,

prominencia, énfasis, acento contrastivo, tensión, propiedades rítmicas.

Intensidad

Intensidad absoluta o relativa de partes del enunciado

Velocidad de elocución

Cambios en la velocidad de elocución, velocidad de elocución relativa

o absoluta.

Pausas

Pausas silenciosas, pausas vocalizadas, duración absoluta o relativa de

las pausas.

Nivel paralingüístico Vocalizaciones semi-léxicas, vocalizaciones no léxicas, timbre de la

voz, otros elementos vocalizados (canto, gritos, etc.).

Nivel discursivo Turnos de palabra, tipo de transición entre turnos, superposición de

turnos.

Nivel contextual Fenómenos no comunicativos no léxicos y no vocales, información

kinésica.

Page 20: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

Tabla 4: Elementos transcritos, codificados o marcados en el estudio de la lengua oral (EAGLES, 1996)

6.3.- Propuestas de estandarización para la transcripción y codificación

de corpus orales

Ante la diversidad de propuestas para la transcripción y codificación de la lengua oral que

acabamos de constatar, el surgimiento de la lingüística de corpus y, muy especialmente, las

necesidades derivadas del intercambio electrónico de textos propiciaron la aparición de proyectos e

iniciativas centrados en la creación de estándares, tanto en lo que se refiere a la transcripción como

a la codificación. En los próximos apartados revisamos sucintamente algunos de ellos.

6.3.1.- TEI (Text Encoding Initiative)

Uno de los capítulos de las Guías desarrolladas por la TEI está dedicado a la transcripción de corpus

orales. En él se describe la estructura básica de la representación de un texto oral - cabecera, texto y

divisiones - y se definen los procedimientos, basados en SGML, para la representación de los

elementos estructurales básicos: información contextual, información temporal, enunciados, pausas,

elementos vocalizados semi-léxicos o no léxicos, elementos kinésicos, otros tipos de eventos

comunicativos y texto presentado en forma escrita al hablante. También se ofrecen en este capítulo

indicaciones para la segmentación y el alineamiento, así como recomendaciones para la

transcripción de superposiciones entre hablantes, de formas de palabras, prosodia, elementos

paralingüísticos - tempo, intensidad, rango tonal, tensión, ritmo y cualidad de voz - y alteraciones en

el decurso fónico. Para la representación de la información fonética se recomienda el uso del AFI.

En la siguiente tabla se resumen los principales elementos propuestos por la TEI para la

codificación de corpus orales considerados específicos de este tipo de texto (Sperberg-McQueen y

Burnard (Eds.), 1994):

Elemento codificado

Marca de

codificación en

SGML

Definición

Divisiones (division) <div>

Unidades intermedias entre el texto y el enunciado

que permiten delimitar partes diferenciadas en un

texto.

Enunciado (utterance) <u>

Segmento de habla comprendido entre dos pausas o

delimitado por un cambio en el turno de palabra;

puede incluir además información sobre la

superposición (<overlap>) de turnos cuando

interviene simultáneamente más de un hablante.

Pausa (pause) <pause>

Interrupción de la fonación percibida entre dos

enunciados o en el interior de los mismos; puede

describirse en términos relativos o indicando su

duración.

Vocal (vocal) <vocal> Elemento vocalizado semi-léxico o no léxico (p.ej.

pausas llenas o toses).

Kinésico (kinesic) <kinesic> Cualquier fenómeno comunicativo no vocal (p. ej.

gestos).

Acontecimiento (event) <event>

Cualquier fenómeno identificado en la grabación no

necesariamente vocalizado ni con valor

comunicativo (p. ej. ruidos de fondo).

Page 21: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

Texto escrito (writing) <writing> Texto escrito que se presenta al hablante durante su

intervención.

Cambio (shift) <shift>

Momento en el que se produce un cambio en

alguno de los rasgos paralingüísticos - cualidad de

voz, intensidad, rango tonal, ritmo y velocidad de

elocución -; cada uno de los rasgos puede

describirse mediante una lista de características.

Tabla 5: Elementos codificados en las transcripciones de lengua oral según los estándares de la TEI

(Adaptada de Sperberg-McQueen y Burnard (Eds.), 1994)

Por otra parte, la TEI ofrece mecanismos para indicar el comienzo y el final de un fenómeno, su

duración y su sincronización temporal con otros elementos; presenta también la posibilidad de

marcar unidades inferiores al enunciado - segmentos <seg> - que permiten delimitar, por ejemplo,

unidades prosódicas, e incluye también entre sus propuestas las marcas necesarias para señalar

fenómenos propios de la lengua hablada como palabras truncadas, repeticiones, falsos principios -

marcados como <del> (deletion) y especificando el fenómeno -. Las partes de la grabación que el

transcriptor no llega a interpretar correctamente - <unclear> - o no puede escuchar - <gap> - o las

correcciones de errores de producción realizadas por el transcriptor - <sic> para delimitar el error y

<corr> para indicar la corrección - son también elementos para los cuales la TEI establece marcas

de codificación.

Aunque las Guías de la TEI pueden considerarse un sistema adecuado para la transcripción y

codificación de gran variedad de materiales, los autores propios autores reconocen que:

“. . . the present proposals are not intended to support unmodified every variety of research

undertaken upon spoken material now or in the future; some discourse analysts, phonologists, and

doubtless other may wish to extend the scheme presented here to express more precisely the set of

distinctions they wish to draw in their transcriptions. Speech regarded as a purely acoustic

phenomenon may well require different methods from those outlined here, as may speech regarded

solely as a process of social interaction&” (Sperberg-McQueen y Burnard (Eds.), 1994, cap. 11)

6.3.2.- NERC (Network of European Reference Corpora)

El proyecto NERC (Network of European Reference Corpora) se planteó como uno de sus objetivos

la viabilidad de desarrollar una serie de recomendaciones para la constitución de corpus (NERC,

1994) y, por tanto, incluye entre sus resultados indicaciones sobre el tratamiento de los corpus

orales, tanto en lo que se refiere a su codificación como a la transcripción de los elementos

segmentales y suprasegmentales (Sinclair, 1994).

El sistema adoptado para la transcripción y codificación de corpus se basa, como hemos indicado

anteriormente, en el desarrollado por French (1991, 1992) para la transcripción del corpus oral

desarrollado en el proyecto COBUILD. La transcripción se plantea como una operación que puede

desarrollarse en varios niveles:

Nivel I: consiste en la representación ortográfica, introduciendo los mínimos signos

de puntuación necesarios, sin información sobre la interacción entre hablantes. En

este nivel se contemplan convenciones desarrolladas para la representación

ortográfica y para precisar el uso de la puntuación.

Page 22: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

Nivel II: consiste en una representación ortográfica enriquecida con información

básica sobre la identidad de los hablantes, el turno de palabra y los elementos no

verbales.

Nivel III: contiene toda la información presente en el nivel II además de

información sobre la interacción entre hablantes - marcando el principio y el final

de los solapamientos - y sobre la entonación - señalando las fronteras entre

unidades tonales y las sílabas acentuadas-. En opinión de French (1992) la

transcripción a este nivel requiere una formación específica en fonética.

Nivel IV: constituye el nivel más detallado de representación, incluyendo la

información propia del nivel III junto con marcas de tonos, sílabas nucleares y con

una transcripción fonológica alineada con una representación acústica -

espectrograma y curva melódica - del enunciado.

La recomendación del proyecto NERC es que la transcripción de un corpus para el estudio de la

lengua oral se lleve a cabo según las especificaciones del Nivel II, adecuado, según French, para

todas aquellas investigaciones que no requieran información prosódica.

En el marco de NERC se llevó a cabo una evaluación de las Guías de la TEI para la transcripción de

corpus orales (Payne, 1992), de la que se concluye que:

“The TEI proposals are broadly compatible with current practice in the user community, as

represented by J.P. French conventions. Furthermore, in the majority of cases it will be a

straightforward matter to link the machine-friendly TEI codes to the more user-friendly encoding

systems such as J.P. French conventions by means of a simple conversion programme” (Payne,

1992:60) La idea de una conversión automática entre las transcripciones realizadas según las

propuestas de NERC y de la TEI es, naturalmente, interesante, y refuerza la idea de que existe una

compatibilidad general entre ambos sistemas. De hecho, en el informe final de NERC se

recomienda que se sigan las normas de la TEI.

6.3.3.- EAGLES (Expert Advisory Group on Language Engineering Standards)

Uno de los objetivos del Grupo de Trabajo sobre Textos Orales de EAGLES -Subgrupo creado en el

seno del Grupo de Trabajo sobre Corpus Textuales - es proponer un conjunto mínimo de fenómenos

que deberían codificarse en cualquier texto oral. La propuesta realizada se describe en EAGLES

(1996) y toma elementos del proyecto NERC, de la TEI y del Grupo de Trabajo sobre Lengua Oral

de EAGLES. Considerando los elementos comunes a los sistemas que sirven de base, se sugiere que

la codificación de un texto oral debe contener, al menos, información sobre los siguientes aspectos:

(1) Elementos vocales y no vocales

Elementos vocales semi-léxicos

Pertenecen a esta categoría los elementos utilizados principalmente en el

habla espontánea durante los momentos en que el hablante planifica la

continuación de su discurso como las llamadas “pausas llenas” o “sonoras”

y los elementos que marcan dudas en el momento de la producción del

habla. Corresponden a los elementos que en la TEI se marcan con la

etiqueta <vocal>.

Elementos vocales no léxicos

Page 23: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

Se incluyen aquí todo tipo de sonidos producidos por el hablante - toses,

risas, bostezos, estornudos, etc. - que no constituyen formas léxicas de la

lengua. Corresponden igualmente a los codificados con la marca <vocal>

en la TEI.

Acontecimientos no vocales y no comunicativos

Comprenden los ruidos producidos por otros hablantes o procedentes del

entorno de grabación. Estos acontecimientos se codifican en la TEI

mediante la marca <event>.

(2) Elementos necesarios en la transcripción de interacciones verbales

Identidad del hablante

Este es un elemento imprescindible en la transcripción de interacciones

verbales. La TEI dispone de los mecanismos para documentar información

sobre los hablantes en la cabecera de los textos, así como de un sistema

para marcar la identidad de cada participante en el interior del texto,

aunque pueden utilizarse también otros procedimientos.

Turnos de palabra

La finalidad del marcado de los turnos de palabra es indicar un cambio de

hablante. Además de las convenciones de la TEI pueden emplearse otros

procedimientos, mientras se mantenga esta información, esencial en el

estudio de la interacción verbal.

Superposición de turnos de palabra

Existen igualmente diferentes procedimientos para marcar la superposición

de emisiones de dos hablantes, además de las propuestas de la TEI, que los

trata como parte de las estrategias para codificar acontecimientos

simultáneos.

(3) Elementos relacionados con la actuación del hablante

Omisiones en un texto leído

Si se transcribe un texto leído y se dispone del original, es recomendable

anotar las palabras o segmentos omitidos por el locutor.

Autocorrecciones

Es propio del habla espontánea, aunque también de la lectura, que los

hablantes realicen correcciones de su propia producción lingüística (self-

repairs). Parece conveniente marcarlas en la transcripción de un corpus

oral.

Page 24: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

Fragmentos de palabras

Los fragmentos de palabras corresponden a uno o más segmentos

pertenecientes a una palabra que no ha sido totalmente pronunciada por el

hablante en un primer intento y que suelen repetirse cuando éste consigue

producir la palabra completa. Es importante indicar este fenómeno en la

transcripción.

Fragmentos ininteligibles

Se trata de partes de la grabación que no son comprendidas por el

transcriptor y en la TEI se codifican con la etiqueta <unclear>, aunque si se

desea se pueden utilizar marcas más detalladas distinguiendo entre

transcripciones completamente ininteligibles y entre una posible

interpretación ofrecida por el transcriptor.

Un aspecto conflictivo sigue siendo la identificación de los enunciados que conforman un texto

oral. Mientras que en un texto escrito, los signos de puntuación constituyen un criterio de

delimitación, en el habla disponemos de indicios como las pausas, la entonación o el cambio de

turno de palabra que nos permiten, al menos convencionalmente, definir un enunciado.

6.4.- Transcripción y codificación de corpus orales en español: propuestas

y modelos

Existen actualmente en español diversos corpus orales transcritos y codificados para algunos de los

cuales hemos podido recoger información sobre las convenciones de transcripción y los

procedimientos de codificación utilizados. No se trata pues de realizar aquí una presentación

exhaustiva de los corpus elaborados o en preparación, sino de ofrecer algunas muestras que

proporcionen unas orientaciones, necesariamente someras, sobre los criterios considerados en

nuestro ámbito más cercano.

6.4.1.- El Corpus Oral de Referencia del Español Contemporáneo

Elaborado en el Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid

entre 1991 y 1992 en colaboración con IBM España, el Corpus Oral de Referencia del Español

Contemporáneo consiste en la transcripción ortográfica de diversos tipos de texto, pertenecientes al

registro oral.

Para la representación ortográfica del corpus se adoptan una serie de convenciones relacionadas con

el uso de las mayúsculas, las comillas, los puntos suspensivos - utilizados para señalar pausas,

vacilaciones, cortes bruscos o realizaciones repetidas de la misma palabra -, las comas - que se

emplean según las reglas de la ortografía aunque no exista pausa o para señalar las pausas de

sentido en el discurso - y el punto y aparte, usado para un cambio de tema. Las palabras trabadas o

cortadas, las confusiones, las autocorrecciones o las palabras inventadas por el locutor y no

documentadas en los diccionarios se transcriben tal como las pronuncia el hablante.

Las convenciones adoptadas para la codificación se basan, según los autores del corpus, en la TEI.

Se utilizan por ello etiquetas relativas a la pronunciación - marcando palabras cortadas,

reconstrucciones realizadas por el transcriptor, vacilaciones, elementos fáticos, ruidos superpuestos

Page 25: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

a la enunciación, sonidos de formación expresiva o imitativa como las onomatopeyas -, a los

hablantes - identificación de los papeles o del público y marcas señalando la superposición de todos

los hablantes -, a las intervenciones - marcando la presencia de texto leído o cantado, la

simultaneidad de intervenciones - o los problemas derivados de la grabación; se marca y codifica

igualmente la aparición de siglas o de palabras extranjeras.

6.4.2- El Corpus de Conversación Coloquial

Desarrollado por el Grupo Val.Es.Co de la Universidad de Valencia, tiene como objetivo permitir la

realización de estudios sobre el español coloquial. En Briz (Coord.) (1995) se ofrece una

panorámica general del proyecto, así como una presentación de las convenciones de transcripción

acompañada de abundantes materiales. Se señala en este trabajo que

“La transcripción intenta reproducir lo más fielmente posible la conversación y al mismo tiempo

facilitar la labor del lector. El sistema de signos y convenciones empleado es lo suficientemente

estrecho, por tanto, para conseguir que el lector pueda reproducir aproximadamente la conversación

original” (Briz (Coord.) 1995:39).

Este objetivo del corpus se pone de manifiesto en la selección de los fenómenos transcritos,

enumerados a continuación: fenómenos relacionados con el turno de palabra - alternancia de turno,

sucesión inmediata de emisiones, solapamientos, reinicios y autointerrupciones, escisiones

conversacionales - , pausas y silencios con diversos grados de duración, inflexiones finales o

interiores en los grupos entonativos, énfasis, fenómenos fonéticos - fonética sintáctica entre

palabras, aspiraciones, asimilaciones, alargamientos segmentales, fragmentos susurrados - y

modalidad del enunciado - preguntas, interrogaciones y exclamaciones -.

Las convenciones para la transcripción incluyen además pautas para la representación de las

transcripciones dudosas, las interrupciones de la grabación o de la transcripción y las

reconstrucciones de unidades léxicas, así como procedimientos de anotación pragmática en forma

de notas a pie de página. En lo que respecta a la prosodia, se transcriben los indicios prosódicos

“que influían notablemente en el curso de la conversación o introducían alguna modificación en la

prosodia „normativa‟” (Briz (Coord.) 1995:41), para lo cual se realiza, cuando es necesario, una

comprobación mediante el análisis acústico de las grabaciones.

6.4.3.- El Corpus de Variedades Vernáculas Malagueñas

Constituido con un objetivo predominantemente sociolingüístico, el Corpus de Variedades

Vernáculas Malagueñas (VUM) se ha recogido en el Departamento de Filología Española y el

Departamento de Filología Románica I de la Universidad de Málaga (Alvar y Villena (Coord.),

1994).

La transcripción del corpus se basa en la ortografía convencional, pero se enriquece por medio de

convenciones y rasgos específicos “que permitan al lector de la misma la reconstrucción lo más

exacta posible de la situación de habla originaria, así como de algunas características fónicas,

discursivas y estilísticas” (Avila, 1996:103). Informan los investigadores del proyecto de que en la

codificación se han seguido los estándares de la TEI - utilizando para ello SGML -, tomando como

punto de partida los criterios del Corpus Oral de Referencia del Español Contemporáneo.

Las etiquetas utilizadas codifican pues información sobre los hablantes y los turnos de palabra -

simultaneidad o interrupción -, los rasgos prosódicos - tono, intensidad, entonación, tempo, diversos

Page 26: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

tipos de pausa en función de su duración relativa y énfasis - las acciones no verbales y los

fenómenos no vocales, la actuación lingüística y las incidencias que tienen lugar en la grabación. Se

han introducido también, de acuerdo con la especificidad del corpus, etiquetas para “la

representación de la características fonéticas propias de las hablas meridionales en general y de las

variedades de Málaga en particular” (Ávila, 1996:106); en este aspecto se marca la elisión de

consonantes en tensión silábica, la reaparición de consonantes implosivas y el aumento de la

duración segmental, además de incluirse una representación de diversos tipos de pausas en función

de su duración relativa.

6.4.4.- El Corpus de Referencia del Español Actual

Desarrollado por el Instituto de Lexicografía de Real Academia Española, el Corpus de Referencia

del Español Actual (CREA) es fundamentalmente un corpus textual que incluirá, sin embargo,

transcripciones de lengua oral. La transcripción que actualmente se está realizando corresponde al

nivel II definido en NERC y al nivel S1 según la caracterización de EAGLES. Para la codificación

se emplean los estándares de la TEI, por lo que, una a vez transcrito y codificado, el texto se

almacena en formato SGML.

La representación ortográfica se lleva a cabo de acuerdo con la normativa del español y se

introducen una serie de convenciones para el tratamiento de los problemas relacionados con formas

reducidas de palabras, abreviaturas y acrónimos, palabras deletreadas, secuencias numéricas,

interjecciones, fenómenos comunicativos no vocales, fenómenos no comunicativos no vocales,

errores de producción, repeticiones, rectificaciones e interrupciones en el discurso, titubeos y

fragmentos ininteligibles. Se utilizan los signos ortográficos habituales siguiendo los principios que

rigen la normativa de puntuación en español, excepto en el caso del punto y coma, que no se emplea

en la transcripción, y de las comillas, cursivas y mayúsculas que se usan como un medio tipográfico

de resalte.

Las marcas de codificación incluidas en el corpus se dividen en dos grandes categorías:

estructurales e intratextuales. Entre las marcas estructurales se utiliza la que señala una división

interna en el texto (<div>, division) con posibilidad de indicar su nivel jerárquico, la que marca un

segmento precedido y/o seguido de un cambio de hablante (<u>, utterance) acompañada de una

indicación del tipo de transición, y la que codifica la superposición entre hablantes (<overlap>).

Las marcas intratextuales se emplean para codificar la presencia de abreviaturas y acrónimos,

palabras extranjeras, discurso directo, números, texto escrito leído por los hablantes, texto resaltado

- en casos de discurso directo o cita así como para señalar los elementos que aparecerían

tipográficamente marcados en los textos escritos como las palabras extranjeras no adaptadas, los

usos metalingüísticos, las marcas o nombres comerciales, etc. - formas deletreadas y titubeos. La

codificación recoge también los elementos vocales (<vocal>), para los cuales se elabora una

tipología, los fenómenos comunicativos no vocales (<kinesic>) o los fenómenos no vocales y no

comunicativos que se detectan en las grabaciones (<event>); se codifican igualmente los fragmentos

poco claros de la grabación (<unclear>).

En el procedimiento de codificación adoptado, los signos de puntuación introducidos por el

transcriptor son automáticamente interpretados y etiquetados. Así, los enunciados ortográficos

separados por signos como el punto, la exclamación o la interrogación se marcan con la etiqueta

<s> (sentence). La etiqueta <pause> se reserva, en cambio, para los casos en que aparecerían puntos

suspensivo en un texto escrito, señalando una interrupción en el discurso resultado de un titubeo o

una cláusula inconclusa.

Page 27: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

7.- Conclusiones

La revisión - sin pretensiones de exhaustividad - de los principales sistemas de transcripción,

etiquetado y codificación de corpus orales expuesta en este trabajo pone de manifiesto, en primer

lugar, la multiplicidad de propuestas desarrolladas frente a los intentos de estandarización, algunos

de los cuales aún no se han consolidado plenamente pese a su creciente aceptación. En segundo

lugar, destaca también la heterogeneidad de tradiciones que confluyen en el estudio de la lengua

hablada, desde la fonética y las tecnologías del habla hasta el análisis del discurso y de la

conversación, diversidad que lleva a la creación de convenciones específicas para responder a las

necesidades de diversas comunidades científicas. Ante esta situación, la distinción propuesta por

Sinclair (1995:107) entre “conformidad” y “compatibilidad” adquiere todo su sentido, ya que si en

ciertos casos la conformidad a un estándar determinado es problemática por las limitaciones

inherentes a todo sistema común, la compatibilidad - entendida como la facilidad de conversión

entre sistemas - debería ser, en cambio, un requisito imprescindible en el desarrollo de los recursos

lingüísticos. De esta manera puede tal alcanzarse el equilibrio entre las necesidades de un proyecto

y las indudables ventajas científicas y económicas que resultan de la reutilización de los datos

disponibles.

Bibliografía

ALLEN, G.D. (1988) “The PHONASCII System”, Journal of the International Phonetic Association 18,1: 9-

25.

ALVAR EZQUERRA, M.- VILLENA PONSODA, J.A. (Coords.) (1994) Estudios para un corpus del

español. Málaga: Universidad de Málaga (Analecta Malacitana, Anejo 7)

ANDERSON, A.H. - BADGER, M.- BARD, E.G.- BOYLE, E.- DOHERTY, G.- GARROD, S.- ISARD, S.-

KOWTKO, J.- McALLISTER, J.- MILLER, J.- SOTILLO, C.- THOMPSON, H.S.- WEINERT, R. (1991)

“The HCRC Map Task corpus”, Language and Speech 34,4: 351-366

ATKINSON, J.M. - HERITAGE, J. (Eds.) (1984) Structures of social action. Studies in conversation

analysis. Cambridge / Paris: Cambridge University Press/Editions de la Maison dels Sciences de l'Homme

AUTESSERRE, D.- PÉRENNOU, G.- ROSSI, M. (1989) “Methodology for the transcription and labeling of

a speech corpus”, Journal of the International Phonetic Association 19,1: 2-15

ÁVILA MUÑOZ, A.M. (1996) “Problemas prácticos en la realización de corpus orales. La transliteración del

corpus oral del proyecto de investigación de las variedades vernáculas malagueñas (VUM)”, in LUQUE

DURÁN, J. de D.- PAMIES BERTRÁN, A. (Eds.) Actas del Primer Simposio de Historiografía Lingüística.

Granada, 1996. Granada: Método Ediciones. pp. 103-112.

BARRY, W.J.- FOURCIN, A.J. (1992) “Levels of Labelling”, Computer Speech and Language 6: 1-14

BECKMAN, M.E. - AYERS, G.M. (1994) Guidelines for ToBI Labelling. Version 2.0, February

1994. URL: http://www.ling.ohio-state.edu/~tobi/

BECKMAN, M.E.- HIRSCHBERG, J. (1994) The ToBI Annotation Conventions. Appendix A of

BECKMAN, M.E. - AYERS, G.M. (1994) Guidelines for ToBI Labelling. Version 2.0, February 1994.

URL: http://www.ling.ohio-state.edu/~tobi/

Page 28: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

BLANCHE-BENVENISTE, C.- COLETTE, J.J. (1987) Le français parlé: Transcription et Edition. Paris:

Didier Erudition.

BOVES, L.- REFICE, M.- MARTÍNEZ, M.- CASADO, C.- PARDO, M. (1988) “El procesador lingüístico

para un sistema multilingüe de conversión texto-habla y habla-texto”, Procesamiento del Lenguaje Natural,

Boletín nº 6: 53-68.

BRIZ, A. (Coord.) (1995) La conversación coloquial (Materiales para su estudio). València: Universitat de

València, Facultad de Filología, Departamento de Filología Española (Lengua Española) (Cuadernos de

Filología, Anejo XVI).

BRIZ, A.- GÓMEZ MOLINA, J.R. (1992) “Scheme of Study of Colloquial Spanish: Some Methodological

Considerations”, in MORENO FERNÁNDEZ, F. (Ed.)Sociolinguistics and Stylistic Variation, LynX 3: 111-

124

BRUCE, G. (1988) “2.3. Supasegmental categories and 2.4. The symbolization of temporal events”, Journal

of the International Phonetic Association 18,2: 75-76

BRUCE, G. (1989) “Report from the IPA working group on suprasegmental categories”, Lund University

Department of Linguistics, General Linguistics, Phonetics, Working Papers 35: 25-40

BRYAN, M. (1988) SGML: An Author's Guide to the Standard Generalized Markup Language. Wokingham:

Addison-Wesley

BURNARD, L. (1995) “What is SGML and how does it help?”, Computers and the Humanities 29,1: 41-50;

in IDE, N.- VÉRONIS, J. (Eds.) (1995) The Text Encoding Initiative. Background and Context. Dordrecht:

Kluwer Academic Publishers.

BURNARD, L. (1995a) Text Encoding for Information Exchange. An Introduction to the Text Encoding

Initiaive. TEI Document no TEI J31.

BURNARD, L. (1995b) “The Text Encoding Initiative: an overview”, in LEECH, G.- MYERS, G.-

THOMAS, J. (Eds) Spoken English on Computer: Transcription, Markup and Applications. Harlow:

Longman. pp. 69-81

BUTTON, G.- LEE, J.R.E. (Eds.) (1987) Talk and Social Organization. Clevedon: Multilingual Matters

CAPPELLI, G.- MARRERO, V.- ALBALÁ, M.J. (1994) “Aplicación del sistema MORPHO a una muestra

de lenguaje infantil”, Sociedad Española para el Procesamiento del Lenguaje Natural, Boletín nº 14: 23-31.

CASACUBERTA, F.- GARCÍA, R.- LLISTERRI, J.- NADEU, C.- PARDO, J.M.- RUBIO, A. (1992)

“Desarrollo de corpus para investigación en tecnologías del habla (Albayzín)”, Procesamiento del Lenguaje

Natural, Boletín 12: 35-42

CASTEJÓN LAPEYRA, F.- ESCALADA SARDINA, G.- MONZÓN SERRANO, L.- RODRÍGUEZ

CRESPO, M.A.- SANZ VELASCO, P. (1994) “Un conversor texto-voz para el español”, Comunicaciones de

Telefónica I+D, 5, 2: 114-131

CESTERO MANCERA, A. (1994) Análisis de la conversación: alternancia de turnos en la lengua española.

Tesis doctoral. Alcalá de Henares: Universidad de Alcalá de Henares.

Page 29: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

CHAFE, W. (1995) “Adequacy, user-friendliness, and practicality in transcribing”, in LEECH, G.- MYERS,

G.- THOMAS, J. (Eds.) Spoken English on Computer: Transcription, Markup and Applications. Harlow:

Longman. pp. 54-61

CHAN, D.- FOURCIN, A.- GIBBON, D.- GRANSTRÖM, B.- HUCKVALE, M.- KOKKINAKIS, G.-

KVALE, K.- LAMEL, L.- LINDBERG, B.- MORENO, A.- MOUROPOULOS, J.- SENIA, F.- TRANCOSO,

I.- VELD, C.- ZEILIGER, J. (1995) “EUROM - A Spoken Language Resource for the EU”,

in Eurospeech'95. Proceedings of the 4th European Conference on Speech Communication and Speech

Technology. Madrid, Spain, 18-21 September, 1995. Vol 1, pp. 867-870.

COLE, R.A.- OSHIKA, B.T.- NOEL, M.- LANDER, T.- FANTY, M. (1994) “Labeler Agreement in

Phonetic Labeling of Continuous Speech”, in Proceedings of the 1994 International Conference on Spoken

Language Processing, Yokohama, Japan, 18-22 September 1994.

COOK, G. (1995) “Theoretical issues: transcribing the untranscribable”, in LEECH, G.- MYERS, G.-

THOMAS, J. (Eds) Spoken English on Computer: Transcription, Markup and Applications. Harlow:

Longman. pp. 35-53

CROWDY, S. (1994) “Spoken corpus transcription”, Literary & Linguistic Computing 9,1: 25-28.

CROWDY, S. (1995) “The BNC spoken corpus”, in LEECH, G.- MYERS, G.- THOMAS, J. (Eds.) Spoken

English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 224-234

De la MOTA, C. - RÍOS, A. (1995) “Problemas en torno a la transcripción fonética del español: los alfabetos

fonéticos propuestos por IPA y RFE y su aplicación a un sistema automático”, Acta Universitatis

Wratislaviensis nº 1660, Estudios Hispánicos IV. Wroclaw. pp. 97-109.

DE LA TORRE MUNILLA, C.- HERNÁNDEZ-GÓMEZ, L.A.- TAPIAS, D. (1995) “CEUDEX: a Data Base

Oriented to Context-Dependent Units Training in Spanish for Continuous Speech Recognition”,

in Eurospeech'95. Proceedings of the 4th European Conference on Speech Communication and Technology.

Madrid, Spain, 18-21 September, 1995. Vol 1, pp. 845-848.

DEN OS, E.- BOOGAART, T.I.- BOVES, L.- KLABBERS, E. (1995) “The Dutch Polyphone Corpus”,

in Eurospeech'95. Proceedings of the 4th European Conference on Speech Communication and Technology.

Madrid, Spain, 18-21 September, 1995. Vol 1, pp. 825-828.

DU BOIS, J.W. (1991) “Transcription design principles for spoken discourse research”, Pragmatics 1: 71-106

DU BOIS, J.W.- SCHUETZE-COBURN, S.-CUMMING, S.- PAOLINO, D. (1993) “Outline of discourse

transcription”, in EDWARDS, J.A.- LAMPERT, M.D. (Eds.) Talking Data: Transcription and Coding in

Discourse Research. Hillsdale, N.J.: Lawrence Erlbaum Associates. pp. 45-90

EAGLES (1995) EAGLES Hanbdook on Spoken Language Systems. Draft - Work in Progress. EAGLES

Document SLWG, Phase 2, V1. May, 1995.

EAGLES (1996) Preliminary Recommendations on Spoken Texts. EAGLES Document EAG-TCWG-STP/P,

May 1996. URL: http://www.ilc.cnr.it/EAGLES96/spokentx/spokentx.html

EDWARDS, J.A. (1991) “Transcription in discourse” in BRIGHT, W. (Ed.) Oxford International

Encyclopedia of Linguistics. Oxford: Oxford University Press. Vol 1 pp. 367-371

Page 30: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

EDWARDS, J.A. (1992) “Design principles in the transcription of spoken discourse” in SVARTVIK, J.

(Ed.) Directions in Corpus Linguistics. Proceedings of Nobel Symposium 82. Stockholm, 4-8 August, 1991.

Berlin: Mouton de Gruyter. pp. 129-147

EDWARDS, J.A. (1993) “Principles and Contrasting Systems of Discourse Transcription”, in EDWARDS,

J.A.- LAMPERT, M.D. (Eds.) Talking Data: Transcription and Coding in Discourse Research. Hillsdale,

N.J.: Lawrence Erlbaum Associates. pp. 3-32

EDWARDS, J.A. (1995) “Principles and alternative systems in the transcription, coding and mark-up of

spoken discourse”, in LEECH, G.- MYERS, G.- THOMAS, J. (Eds) Spoken English on Computer:

Transcription, Markup and Applications. Harlow: Longman. pp. 19-34

EHLICH, K. (1993) “HIAT: A Transcription System for Discourse Data”, in EDWARDS, J.A.- LAMPERT,

M.D. (Eds) Talking Data: Transcription and Coding in Discourse Research. Hillsdale, N.J.: Lawrence

Erlbaum Associates. pp. 123-148

EISEN, B. (1993) “Reliability of speech segmentation and labelling at different levels of transcription”

in Eurospeech'93. 3rd European Conference on Speech Communication and Technology. Berlin, Germany,

21-23 September 1993. Vol. 1 pp. 673-676

ENRÍQUEZ, E. (1991) “El problema de las ambigüedades fonéticas y su tratamiento automático”, Boletín de

la Real Academia de la Lengua Española LXXI, XXLII: 157-183

ESLING, J.H. (1990) “Computer Coding of the IPA: Supplementary Report”, Journal of the International

Phonetic Association 20,1: 22-26

ESLING, J.H. (1988) “Computer coding of IPA symbols and detailed phonetic representations of computer

databases”, Journal of the International Phonetic Association18,2: 99-106

ESLING, J.H.- GAYLORD, H. (1993) “Computer Codes for Phonetic Symbols”, Journal of the International

Phonetic Association 23,2: 77-82

EUROSPEECH (1991) Eurospeech'91. 2nd European Conference on Speech Communication and

Technology. Genova, Italy, 24-26 September 1991.3 vols

EUROSPEECH (1993) Eurospeech'93. 3rd European Conference on Speech Communication and

Technology. Berlin, Germany, 21-23 September 1993. 3 vols.

EUROSPEECH (1995) Eurospeech'95. Proceedings of the 4th European Conference on Speech

Communication and Technology. Madrid, Spain, 18-21 September, 1995. 3 vols.

FOURCIN, A.- DOLMAZON, J.M. (on behalf of the SAM Project) (1991) “Speech knowledge, standards

and assessment”, in Actes du XIIème Congrès International des Sciences Phonétiques. 19-24 août 1991, Aix-

en-Provence, France. Aix-en-Provence: Université de Provence, Service des Publications. Vol 5 pp. 430-433.

FOURCIN, A.- HARLAND, G.- BARRY, W. - HAZAN, V (Eds.) (1989) Speech Input and Output

Assessment. Multilingual Methods and Standards. Chichester: Ellis Horwood Ltd.

FRENCH, J.P. (1991) Updated notes for soundprint transcribers. Working paper, University of Birmingham,

October 1991, NERC-WP4-47

FRENCH, J.P. (1992) Transcription proposals: multilevel system. Working paper, University of Birmingham,

October 1992. NERC-WP4-50

Page 31: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

GARRIDO ALMIÑANA, J.M. (1996) Modelling Spanish Intonation for Text-to-Speech Applications. Ph.D.

Thesis. Departament de Filologia Espanyola, Facultat de Lletres, Universitat Autònoma de Barcelona. 2 vols.

URL: http://liceu.uab.cat/juanma/ tesis.html

GIBBON, D. (1989) Survey of Prosodic Labelling for EC Languages. SAM-UBI-1/90, 12 February 1989;

Report e.6, in ESPRIT 2589 (SAM) Interim Report, Year 1. Ref. SAM-UCL G002. University College

London, February 1990.

GOLDFARB, C.F. (1990) The SGML Handbook. Oxford: Clarendon Press

GOLDMAN-EISLER, F. (1972) “Pauses, Clauses, Sentences”, Language and Speech 15: 103-113.

GRØNNUM THORSEN, N. (1987) “Suprasegmental transcription”, ARIPUC - Annual Report of the Institute

of Phonetics University of Copenhagen 21: 1-27

GUMPERZ, J.J.- BERENZ, N. (1993) “Transcribing Conversational Exchanges”, in EDWARDS, J.A.-

LAMPERT, M.D. (Eds) Talking Data: Transcription and Coding in Discourse Research. Hillsdale, N.J.:

Lawrence Erlbaum Associates. pp. 91-122

HALLIDAY, M.A.K. (1985) An Introduction to Functional Grammar. London: Edward Arnold, 1993.

HESS, W.- KOHLER, K.- TILLMANN, H.G. (1995) “The PhonDat-Verbmobil Speech Corpus” ,

in Eurospeech'95. Proceedings of the 4th European Conference on Speech Communication and Speech

Technology. Madrid, Spain, 18-21 September, 1995. Vol 1, pp. 863-866

HIERONYMUS, J.L. (1994) ASCII phonetic symbols for the world's languages: Worldbet. AT&T Bell

Laboratories, Technical Memo.

HIRST, D. - DI CRISTO, A.- ESPESSER, R. (en prensa) “Levels of representation and levels of analysis for

intonation”, in HORNE, M. (Ed.) Prosody: Theory and Experiments. Dordrecht: Kluwer.

HIRST, D.J. (1994) “The symbolic coding of fundamental frequency curves: from acoustics to phonology”, in

FUJISAKI, H. (Ed.) Proceedings of International Symposium on Prosody. Satellite Workshop of ICLSP94,

Yokohama, September, 1994.

HIRST, D.J. - DI CRISTO, A.- LE BESNERAIS, M.- NAJIM, Z.- NICOLAS, P.- ROMÉAS, P. (1993)

“Multilingual modelling of intonation patterns”, in HOUSE, D.- TOUATI, P. (Eds) Proceedings of an ESCA

Workshop on Prosody. September 27-29, 1993, Lund, Sweden. Lund University Department of Linguistics

and Phonetics, Working Papers 41. pp. 204-207

HIRST, D.J.(1991) “Intonation models: towards a third generation”, in Actes du XIIème Congrès

International des Sciences Phonétiques, 19-24 août 1991, Aix-en-Provence, France. Aix-en-Provence,

Université de Provence, Service des Publications, Vol 1 pp. 305-310

HIRST, D.J.- DI CRISTO, A. (en prensa) “A survey of intonation systems” in HIRST, D. - DI CRISTO, A.

(Eds.) Intonation Systems. A Survey of 20 Languages.Cambridge: Cambridge University Press.

HIRST, D.J.- IDE, N. - VÉRONIS, J. (1994) “Coding fundamental frequency patterns for multi-lingual

synthesis with INTSINT in the MULTEXT project”, in Conference Proceedings of the Second ESCA/IEEE

Workshop on Speech Synthesis. September 12-15, 1994. Mohonk Mountain House, New Paltz, New York,

USA. pp. 77-80

Page 32: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

IDE, N.- VÉRONIS, J. (Eds.) (1995) The Text Encoding Initiative: Background and Contexts. Computers and

the Humanities 29, 1-3. Publicado en forma de libro en: Dordrecht: Kluwer Academic Publishers.

INSTITUTO CERVANTES (1996) Informe sobre recursos lingüísticos para el español (II): Corpus escritos

y orales disponibles y en desarrollo en España. Alcalá de Henares: Observatorio Español de Industrias de la

lengua, Instituto Cervantes.

IPA (1989) “The IPA 1989 Kiel Convention Workgroup 9 report: Computer Coding of IPA symbols and

Computer Representation of Individual Languages”, Journal of the International Phonetic Association 19,2:

81-92

IPA (1993) “IPA Chart, revised to 1993”, Journal of the International Phonetic Association 23,1.

URL: http://www.internationalphoneticassociation.org/content/ipa-chart

IPA (1995) Preview of the IPA Handbook, Journal of the International Phonetic Association 25,1.

ISO 8879 (1986) Information Processing. Text and Office Systems. Standard Generalized Markup Language

(SGML). Geneva: International Organization for Standardization.

JOHANSSON, S. (1995a) “The approach of the Text Encoding Initiative to the encoding of spoken

discourse”, in LEECH, G.- MYERS, G.- THOMAS, J. (Eds.) Spoken English on Computer: Transcription,

Markup and Applications. Harlow: Longman. pp. 82-98

JOHANSSON, S. (1995b) “The Encoding of Spoken Texts”, Computers and the Humanities 29,1: 149-158;

in IDE, N.- VÉRONIS, J. (Eds) (1995) The Text Encoding Initiative. Background and Context. Dordrecht:

Kluwer Academic Publishers. pp. 149-158.

KEATING, P.- MacEACHERN, P.- SHRYOCK, A.- DOMÍNGUEZ, S. (1994) “A manual for phonetic

transcription: Segmentation and labelling of words in spontaneous speech”, UCLA Working Papers in

Phonetics 88: 91-120.

KLUGER-KRUSE, M. (1987) Computer Phonetic Alphabet. ESPRIT Linguistic Analysis of the European

Languages. Report BU-CPA0267, July, 1987.

LANDER, T. (1997) The CSLU Labeling Guide. Center for Spoken Language Understanding, Oregon

Graduate Institute.

LEHISTE, I. (1979) “Perception of Sentence and Paragraph Boundaries”, in LINDBLOM, B. - ÖHMAN, S.

(Eds.) (1979) Frontiers of Speech Communication Research. London: Academic Press. pp. 191-201.

LEÓN HURTADO, L. (1994) “Transcripción fonética asistida por ordenador”, in ALVAR EZQUERRA, M.-

VILLENA PONSODA, J.A. (Coord.) Estudios para un corpus del español. Málaga: Universidad de Málaga.

pp. 145-185

LEÓN HURTADO, L.- SÁNCHEZ SÁEZ, J.M. (1996) “Bases para el diseño de un transcriptor fonético a

partir de textos orales transliterados”, in LUQUE DURÁN, J. de D.- PAMIES BERTRÁN, A. (Eds.) Actas

del Primer Simposio de Historiografía Lingüística. Granada, 1996. Granada: Método Ediciones. pp. 113-122.

LÉON, P.- MARTIN, P. (1970) Prolegomènes à l'étude des structures intonatives. Montréal: Didier (Studia

Phonetica 2).

Page 33: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

LLISTERRI, J. (1994) Prosody Encoding Survey. WP 1 Specifications and Standards. T1.5. Markup

Specifications. Deliverable 1.5.3. Final version, 15 September 1994. LRE Project 62-050 MULTEXT.

URL: http://aune.lpl.univ-aix.fr/projects/multext/CES/CES1.html

LLISTERRI, J. (Ed.) (1996) Prosody Tools Efficiency and Failures. WP 4 Corpus. T4.6 Speech Markup and

Validation. Deliverable 4.5.2. Final version. 15 October 1996. LRE Project 62-050 MULTEXT.

MacWHINNEY, B. (1991) The CHILDES Project: Tools for Analyzing Talk. Hillsdale, N.J.: Lawrence

Erlbaum.

MARCHAL, A.- NGUYEN, N.- HARDCASTLE, W. (1995) “Multitiered phonetic approach to speech

labelling”, in SORIN, C.- MARIANI, J.- MELONI, H.- SCHOENTGEN, J. (Eds.) Levels in Speech

Communication. Relations and Interactions. A Tribute to Max Wajskop / Hommage à Max Wajskop.

Amsterdam: Elsevier Science B.V. pp. 149-158

MARCOS MARÍN, F. (1991) “Corpus lingüístico de referencia de la lengua española”, Boletín de la

Academia Argentina de Letras 56: 129-155

MARCOS MARÍN, F.- BALLESTER, A.- SANTAMARÍA, C. (1993) “Transcription Conventions used for

the Corpus of Spoken Contemporary Spanish”, Literary & Linguistic Computing 8, 4: 283-292

MARCOS MARÍN, F.- ZUMÁRRAGA, V. (1991) “El corpus de referencia de la lengua española”, Razón y

Fe 223/1, 109, Marzo 1991: 285-293

MARIÑO, J.B. - LLISTERRI, J. (1993) Spanish adaptation of SAMPA and automatic phonetic transcription.

SAM-A/UPC/001/v1 20th April 1993. ESPRIT PROJECT 6819 (SAM-A Speech Technology Assessment in

Multilingual Applications).

MARTÍ, J.- NIÑEROLA, D. (1987) “SINCAS: un conversor texto-voz en castellano”, Procesamiento del

Lenguaje Natural, Boletín nº 5: 111-122.

MARTÍNEZ, M. - PARDO, J.M.- BORRAJO, A.- SANTOS, A.- BARRIO, C.L.- MUÑOZ, E.- QUILIS, A.

(1986) “Conversión automática texto-habla y su relación con el procesamiento del lenguaje natural” in C.

MARTÍN VIDE (Ed) Lenguajes naturales y lenguajes formales I. Barcelona: Universitat de Barcelona pp.

366-375.

MORENO, A.- POCH, D.- BONAFONTE, A.- LLEIDA, E.- LLISTERRI, J.- MARIÑO, J.B.- NADEU, C.

(1993) “ALBAYZIN Speech Database: Design of the Phonetic Corpus”, in Eurospeech'93. 3rd European

Conference on Speech Communication and Technology. Berlin, Germany, 21-23 September 1993. Vol. 1 pp.

175-178

NELSON, G. (1995) “The International Corpus of English: mark-up for spoken language”, in LEECH, G.-

MYERS, G.- THOMAS, J. (Eds) Spoken English on Computer: Transcription, Markup and Applications.

Harlow: Longman. pp. 220-223

NERC (1994) NERC-1. Network of European Reference Corpora. Final Report. Pisa: Instituto di Linguistica

Computazionale - CNR. January 1994; versión en curso de publicación: CALZOLARI, N.- BAKER, M.-

KRUYT, P.G. (Eds) Towards a Network of European Reference Corpora. Pisa: Giardini.

NICOLAS, P.- HIRST, D. (1995) “Symbolic coding of Higher-Level Characteristics of Fundamental

Frequency Curves”, in Eurospeech'95. Proceedings of the 4th European Conference on Speech

Communication and Technology. Madrid, Spain, 18-21 September, 1995. Vol 2, pp. 989-992.

Page 34: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

O'CONNELL, D.C.- KOWAL, S. (1994) “Some Current Transcription Systems for Spoken Discourse: A

critical Analysis”, Pragmatics 4: 81-107

OCHS, E. (1979) “Transcription as Theory”, in OCHS, E.- SCHIEFFELIN, B.B. (Eds.)

(1979) Developmental Pragmatics. New York: Academic Press. pp. 43-72

PARDO, J.M.- ENRÍQUEZ, E.- AGUILERA, S.- SANTOS, A.- QUILIS, A. (1992) “Tecnología del habla

para siete idiomas: El proyecto ESPRIT Polyglot-I”, Boletín de la Sociedad Española para el Procesamiento

del Lenguaje Natural 12

PAYNE, J. (1992) Report on the compatibility of JP French's spoken corpus transcription conventions with

the TEI guidelines for transcription of spoken texts. Working paper, COBUILD Birmingham and IDS

Mannheim. December 1992, NERC-WP8/WP4-122

PAYNE, J. (1995) “The COBUILD spoken corpus: transcription conventions”, in LEECH, G.- MYERS, G.-

THOMAS, J. (Eds) Spoken English on Computer: Transcription, Markup and Applications. Harlow:

Longman. pp. 203-207

PAYRATÓ, L. (1995) “Transcripción del discurso coloquial”, in CORTÉS RODRÍGUEZ, L. (Ed.) El

español coloquial. Actas del I Simposio sobre Análisis del Discurso Oral. Almería, 23-25 de noviembre de

1994. Almería: Universidad de Almería, Servicio de Publicaciones. pp. 43-70

PEPPÉ, S. (1995) “The Survey of English Usage and the London-Lund Corpus: computerizing manual

prosodic transcription”, in LEECH, G.- MYERS, G.- THOMAS, J. (Eds) Spoken English on Computer:

Transcription, Markup and Applications. Harlow: Longman. pp.187-202

PÉREZ GUTIÉRREZ, J.A.- GUERRERO PÉREZ, J.L. (1993) “Transfon: transcriptor fonético para el

castellano” in MARTÍN VIDE, C. (Ed) Lenguajes Naturales y Lenguajes Formales IX. Actas del IX

Congreso de Lenguajes Naturales y Lenguajes Formales, Reus, 20-22 de diciembre de 1993. Barcelona: PPU.

pp. 227-236

PÉREZ, J.C.- VIDAL, E. (1991) “Un sistema de conversión de texto a voz para el castellano”, Boletín de la

Sociedad Española para el Procesamiento del Lenguaje Natural 11: 197-208.

PIERREHUMBERT, J. B.(1980) The Phonology and Phonetics of English Intonation. PhD Thesis,

Department of Linguistics, MIT. Bloomington: Indiana University Linguistics Club, 1987.

PINO, M. (1997) Transcripción, codificación y almacenamiento de los textos orales del corpus CREA.

Versión 1.2. Informe interno. Madrid: Instituto de Lexicografía, Real Academia Española.

PITRELLI, J. - BECKMAN, M. - HIRSCHBERG, J. (1994) “Evaluation of prosodic transcription labelling

reliability in the ToBI framework”, in Proceedings of the Third International Conference on Spoken

Language Processing, Yokohama, ICSLP, Vol. 2. pp. 123-126.

PULLUM, G.K.- LADUSAW, W.A. (1986) Phonetic Symbol Guide. Chicago: The University of Chicago

Press. 2nd. edition, 1996.

RFE (1915) “Alfabeto fonético de la RFE”, Revista de Filología Española II: 374-376.

RÍOS MESTRE, A. (1993) “La información lingüística en la transcripción fonética automática del

español”, Boletín de la Sociedad Española para el Procesamiento del Lenguaje Natural 13: 381-387

Page 35: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

RÍOS, A. (1994) “El contenido fónico en el Sistema de Diccionarios Electrónicos del Español”, in

LLISTERRI, J.- POCH, D. (Eds.) Actas del XII Congreso Nacional de la Asociación Española de Lingüística

Aplicada. Nuevos Horizontes de la Lingüística Aplicada. Barcelona, 20-22 de abril de 1994. pp. 333-340.

ROACH, P.- ROACH, H.- DEW, A.- ROWLANDS, P. (1990) “Phonetic analysis and the automatic

segmentation and labeling of speech sounds”, Journal of the International Phonetic Association 20,1: 15-21

RODRÍGUEZ CRESPO, M.A.- ESCALADA SARDINA, J.G.- MACARRÓN LARUMBE, A.- MONZÓN

SERRANO, L. (1993) “AMIGO: Un conversor texto-voz para el español”, Boletín de la Sociedad Española

para el Procesamiento del Lenguaje Natural 13: 389-400

SCHMIDT, M.S. -SCOTT, C.- JACK, M.A. (1993) “Phonetic transcription standards for European names

(ONOMASTICA)” in Eurospeech'93. 3rd European Conference on Speech Communication and Technology.

Berlin, Germany, 21-23 September 1993. Vol. 1 pp. 279-282

SCHUETZE-COBURN, S. (1991) “Units of intonation in discourse: a comparison of acoustic and auditory

analysis”, Language and Speech 34,3: 207-234

SELTING, M. (1987) “Descriptive categories for the auditive analysis of intonation in conversation”, Journal

of Pragmatics 11: 777-791

SELTING, M. (1988) “The role of intonation in the organisation of repair and problem handling sequences in

conversation”, Journal of Pragmatics 12: 293-322.

SENIA, F.- van VELDEN, J.G. (1997) Specifications of orthographic transcription and lexicon

conventions. LRE-4001 SpeechDat Technical Report SD1.3.2, Final version, 10 January 1997.

URL: http://www.speechdat.org/SpeechDat.html

SILVERMAN, K.- BECKMAN, M.- PITRELLI, J.- OSTENDORF, M.- WIGHTMAN, C.- PRICE, P.-

PIERREHUMBERT, J.- HIRSCHBERG, J. (1992) “TOBI: A standard for labelling English

prosody”, Proceedings of the Second International Conference on Spoken Language Processing, ICSLP-92.

Banff, October 1992. pp. 867-870

SINCLAIR, J. (1994) “Spoken Language” [3B] ,“Phonetic/Phonemic and Prosodic Annotation” [5.2], in

NERC (1994) NERC-1 Network of European Reference Corpora, Final Report.Pisa; versión en curso de

publicación: CALZOLARI, N.- BAKER, M.- KRUYT, P.G. (Eds.) Towards a Network of European

Reference Corpora. Pisa: Giardini.

SINCLAIR, J. (1995) “From theory to practice”, in LEECH, G.- MYERS, G.- THOMAS, J. (Eds.) Spoken

English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 99- 112

SINCLAIR, J. (Ed.) (1987) Looking Up, An Account of the Cobuild Project. London: Collins.

SPERBERG-McQUEEN, C.M.- BURNARD, L. (Eds) (1994) Guidelines for Electronic Text Encoding and

Interchange. TEI P3. Chicago and Oxford: Association for Computational Linguistics / Association for

Computers and the Humanities / Association for Literary and Linguistic Computing. [Cap. 11: Transcriptions

of Speech] URL: http://etext.lib.virginia.edu/standards/tei/teip4/index.html

STENSTRÖM, A.-B. (1994) An Introduction to Spoken Interaction. London - New York: Longman

(Learning about Language).

Page 36: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

STRANGERT, E.- HELDNER, M. (1995) “Labelling of boundaries and prominences by phonetically

experienced and non-experienced transcribers”, Phonum 3, Reports from the Department of Phonetics, Umeå

University: 85-109.

TANNEN, D. (1984) Conversational Style: Analyzing Talk about Friends. Norwood, N.J.: Ablex

TEUBERT, W. (1993) Phonetic / Phonemic and Prosodic Annotation. Final Report, IDS Mannheim.

February 1993. NERC-WP8-171

' T HART, J.- COLLIER, R.- COHEN, A. (1990) A Perceptual Study of Intonation. An Experimental -

Phonetic Approach to Intonation. Cambridge: Cambridge University Press. (Cambridge Studies in Speech

Science and Communication)

TILLMANN, H.G.- POMPINO-MARSCHALL, B. (1993) “Theoretical Principles Concerning Segmentation,

Labelling Strategies and Levels of Categorical Annotation for Spoken Language Database Systems”,

in Eurospeech'93. 3rd European Conference on Speech Communication and Technology. Berlin, Germany,

21-23 September 1993. Vol. 3 pp. 1691-1694

TRANCOSO, I. (1995) “The ONOMASTICA Interlanguage Pronunciation Lexicon”, in Eurospeech'95.

Proceedings of the 4th European Conference on Speech Communication and Technology. Madrid, Spain, 18-

21 September, 1995. Vol 1, pp. 829-832.

TUSÓN VALLS, A. (1995) Anàlisi de la conversa. Barcelona: Empúries (Biblioteca Universal Empúries, 73)

Van HERWIJNEN, E. (1994) Practical SGML. Boston: Kluwer

VILLENA PONSODA, J.A. (1994) “Pautas y procedimientos de representación del corpus oral de la

Universidad de Málaga. Informe preliminar”, in ALVAR EZQUERRA, M.- VILLENA PONSODA, J.A.

(Coord) Estudios para un corpus del español. Málaga: Universidad de Málaga. pp. 73-102

WELLS, J.C. (1987) “Computer Coded Phonetic Transcription”, Journal of the International Phonetic

Association 17,2: 94-114.

WELLS, J.C. (1989) “Computer-coded phonemic notation of individual languages of the European

Community”, Journal of the International Phonetic Association 19,1: 31-54

WELLS, J.C. (1994) “Computer-coding the IPA: a proposed extension of SAMPA”, Speech, Hearing and

Language, Work in Progress, 1994 (University College London, Department of Phonetics and Linguistics) 8:

271-289

WELLS, J.C. (1995) SAMPROSA (SAM Prosodic Transcription).

URL: http://www.phon.ucl.ac.uk/home/sampa/samprosa.htm

WELLS, J.C.- BARRY, W.- GRICE, M.- FOURCIN, A.- GIBBON, D. (1992) Standard Computer-

Compatible Transcription. SAM Stage Report Sen.3 SAM UCL-037, 28 February 1992. In SAM (1992)

ESPRIT PROJECT 2589 (SAM) Multilingual Speech Input/Output Assessment,Methodology and

Standardisation. Final Report. Year Three: 1.III.91-28.II.1992. London: University College London.

WESENICK, M.-B.- SCHIEL, F. (1995) Feasibility of Automatic Annotation and Building Pronunciation

Lexica from Corpus Material. LRE-63314 SpeechDat, Report D3.1.2.3., Final version, 10 October 1995.

URL: http://www.speechdat.org/

Page 37: Transcripción, etiquetado y codificación de corpus orales · las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones es, obviamente, debida

WINSKI, R. - MOORE, R.- GIBBON, D. (1995) “EAGLES Spoken Language Working Group: Overview

and Results”, in Eurospeech'95. Proceedings of the 4th European Conference on Speech Communication and

Speech Technology. Madrid, Spain, 18-21 September, 1995. Vol 1, pp. 841-844.

Etiquetado, transcripción y codificación de corpus orales

Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

http://liceu.uab.cat/~joaquim/publicacions/FDS97.html Last updated: 15/07/97

This work is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 3.0 License.