Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Transcripción, etiquetado y codificación de corpus orales
Joaquim Llisterri
Observatorio Español de Industrias de la Lengua, Instituto Cervantes
Libreros 23, 28801 Alcalá de Henares, Madrid
Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
Edifici B, 08193 Bellaterra, Barcelona
Seminario de Industrias de la Lengua, Curso “Etiquetación y extracción de información de
grandes corpus textuales”, Fundación Duques de Soria, Soria, 15 de julio de 1997.
Introducción
Niveles de representación
Representación ortográfica de corpus orales
Representación fonética de corpus orales
Etiquetado fonético de corpus orales
Transcripción y codificación de corpus para el estudio de la lengua oral
Conclusiones
1.- Introducción
La constitución de recursos lingüísticos, contrariamente a lo que algunas veces parece deducirse, no
consiste en la acumulación sistemática de materiales, sino que requiere una reflexión sobre muchos
aspectos que inciden de forma muy directa en el resultado final obtenido. Uno de ellos,
especialmente importante en el caso de los corpus orales, es el que se refiere a las cuestiones
relacionadas con la propia representación de los datos, tratadas generalmente bajo las
denominaciones de “transcripción”, “etiquetado” y “codificación”. En el presente trabajo
pretendemos poner de relieve que las decisiones relativas a estos tres aspectos no son puramente
mecánicas, sino que requieren un cuidadoso análisis lingüístico acompañado de unos
planteamientos más globales sobre las futuras posibilidades de explotación del corpus. Para ello, se
parte de una concepción del corpus como conjunto de niveles de representación de los datos, en
cada uno de los cuales se incorporan descripciones de los mismos que posteriormente deben ser
recogidas mediante algún procedimiento formal.
Como primer nivel de representación abordamos la transcripción ortográfica, para pasar a
continuación a un segundo nivel, el de la representación fonética, tanto en el aspecto segmental
como en el suprasegmental. En este mismo nivel planteamos la cuestión del etiquetado que,
asociado a otras operaciones como la segmentación y la alineación temporal, permite una
utilización posterior del corpus en diversas aplicaciones. Finalmente, se discuten las cuestiones
específicamente centradas en la transcripción y codificación de los corpus constituidos por
transcripciones de lengua oral, presentando a modo de ejemplo algunos trabajos llevados a cabo en
España. Hemos intentado, para cada nivel de representación, ofrecer información sobre algunas de
las convenciones desarrolladas y presentar las que llevan camino de convertirse - o se han
convertido ya - en estándares. Sin embargo, como se indica en las conclusiones, parece razonable
insistir en la noción de compatibilidad entre sistemas como modo de resolver la inevitable tensión
entre los requisitos específicos del investigador y las necesidades del intercambio de recursos.
2.- Niveles de representación, etiquetado y codificación
Tanto si es oral como escrito, un corpus puede concebirse como un conjunto estructurado de
materiales lingüísticos en el que se distinguen diversos niveles de representación correspondientes a
diferentes grados de elaboración de los datos que lo constituyen. El establecimiento de estos niveles
es una de las tareas que se llevan a cabo en la fase de definición del corpus y responde, lógicamente,
a los objetivos del mismo. Por ejemplo, un corpus para el análisis del discurso oral requiere, como
mínimo, un nivel de representación ortográfica, pero puede ser necesario un nivel de representación
prosódica si el estudio de estos fenómenos constituye el principal interés del investigador; para
realizar estudios sobre la sintaxis de la lengua coloquial es evidente que se impone definir una
representación de los datos que contenga información sintáctica, mientra que en otro tipo de
investigaciones se requerirá una representación en términos pragmáticos. Por otra parte, en corpus
aplicados al estudio fonético es común encontrar una representación fonética y, en algunos casos,
una caracterización de los datos mediante parámetros acústicos o articulatorios.
Para cada nivel de representación suele establecerse un conjunto de “etiquetas” que se asocian a un
determinado fragmento del corpus - un segmento sonoro, una unidad prosódica, una palabra, etc. - y
definen sus propiedades. Las etiquetas propias de un nivel fonético de representación corresponden
a las características articulatorias o acústicas de los sonidos del habla, mientras que, por ejemplo, las
etiquetas de un nivel de representación morfosintáctico describen propiedades morfológicas y
léxicas de las palabras. El etiquetado constituye, por tanto, un enriquecimiento del corpus mediante
información adicional introducida por el investigador en función de sus objetivos y, lo que es más
importante, de su interpretación lingüística de los materiales recogidos. El establecimiento del
inventario de etiquetas - estrechamente relacionado con los fenómenos que desean anotarse en un
corpus - y las características que se señalan con cada una de ellas no es en absoluto una tarea trivial,
especialmente si pretenden utilizarse en proyectos multilingües cubriendo simultáneamente las
necesidades de varias lenguas.
Finalmente, es preciso definir, en el proceso de creación de recursos lingüísticos, un sistema o
esquema de codificación tanto de los fenómenos representados en los diferentes niveles del corpus
como de sus correspondientes etiquetas. La codificación constituye pues, tal como se concibe en la
actualidad, una herramienta que dota al corpus de una estructura. Un esquema de codificación
adecuado permite, entre otras cosas, mantener una distinción entre los datos y su forma de
representación, que es útil cuando se requiere el intercambio de corpus o su reutilización en otros
proyectos. Por ello es esencial, a la hora de diseñar tal esquema, considerar sistemas que cumplan
este requisito.
En el caso de un corpus oral, el primer nivel de representación necesario es el de la transcripción.
Esto responde a la exigencia de materializar o fijar de alguna manera la información lingüística y
comunicativa presente en una onda sonora esencialmente transitoria. Tal como la caracteriza
Payrató (1995:45), la transcripción es “un procedimiento de traslado o transposición a una forma
gráfica (escrita) de una producción (lingüística, discursiva) originariamente oral”. Atendiendo a esta
definición, podemos referirnos tanto a la transcripción ortográfica - denominada “transliteración”
por algunos autores -como a la transcripción fonética, que se lleva a cabo mediante un conjunto de
símbolos especialmente diseñados para tal fin. En los apartados que siguen centraremos nuestra
atención en estos dos niveles de representación, el ortográfico y el fonético, considerando también
algunos aspectos relativos al etiquetado en el nivel fonético.
3.- Representación ortográfica de corpus orales
Uno de los primeros problemas a los que se enfrenta un investigador en el momento de constituir un
corpus oral, una vez establecido el diseño y recogidos los datos, es, evidentemente, el de la
representación ortográfica. Esta representación constituye una transcripción de los enunciados
producidos por los hablantes utilizando la ortografía convencional o, dicho en otras palabras, una
transliteración. Puesto que se trata de un nivel de representación común a todo tipo de corpus orales
sea cual sea su aplicación - tanto para el análisis de la interacción verbal como para el desarrollo de
los sistemas propios de las tecnologías del habla -, se han realizado una notable cantidad de
propuestas en lo que concierne a la forma escrita de los corpus orales. En el informe del Grupo de
Trabajo sobre Textos Orales de EAGLES (1996) - cuyos principales elementos se retoman a
continuación - se revisan algunas de ellas, incluyendo las que proceden del proyecto NERC en la
tradición de la lingüística de corpus y las que se derivan de proyectos en el ámbito de las
tecnologías del habla como SpeechDat o las desarrolladas por el Grupo de Trabajo sobre Lengua
Oral de EAGLES.
3.1.- Propuestas en el ámbito de la lingüística de corpus
3.1.1.- La propuesta de NERC
En el marco del proyecto NERC (Network of European Reference Corpora)(NERC, 1994), se
adoptaron para la representación ortográfica de corpus orales las convenciones desarrolladas por
French (1991, 1992), esencialmente concebidas para ser utilizadas en la constitución de la parte oral
del corpus COBUILD. En ellas se detalla el uso de los signos de puntuación - por ejemplo, no se
utilizan comas entre frases y se emplean puntos para delimitar frases -, de las mayúsculas -
únicamente al inicio de frase - o de los apóstrofes y las contracciones.
3.1.2.- La propuesta del Grupo de Trabajo de Textos Orales de EAGLES
En el informe del Grupo de Trabajo sobre Textos Orales de EAGLES (Expert Advisory Group on
Language Engineering Standards)(EAGLES, 1996) se proponen unas recomendaciones básicas
para la transcripción ortográfica de corpus orales, recogiendo tanto las sugerencias de NERC como
algunas de las ideas desarrolladas en el ámbito de las tecnologías del habla que se discuten en el
próximo apartado. Las recomendaciones pueden resumirse en tres puntos:
Se recomienda utilizar siempre que sea posible las formas ortográficas que aparecen en los
diccionarios normativos o estándares para cada lengua, convención que se aplica también a
contracciones, formas reducidas, apóstrofes, formas dialectales, interjecciones y formas
semi-léxicas.
Si puede darse más de una forma ortográfica de la misma palabra o si se introducen
representaciones ortográficas que no aparecen en los diccionarios, es recomendable
mantener una base de datos con las formas utilizadas en la transcripción.
Los números, las abreviaturas, los acrónimos y las palabras deletreadas deben representarse
ortográficamente tal como son pronunciadas por el hablante, utilizando la forma ortográfica
completa.
Como puede observarse, éstas son recomendaciones generales que constituyen principios básicos.
Un aspecto que requiere una discusión más detallada es el empleo de los signos de puntuación en la
transcripción ortográfica de corpus, tema sobre el que existen diversas posturas, desde las que
propugnan su completa eliminación - lo que disminuye notablemente la legibilidad del texto - hasta
las que abogan por su uso según las normas habituales de cada lengua. Tal diversidad de opiniones
es, obviamente, debida a las dificultades que plantea la introducción de puntuación en
transcripciones de habla espontánea, ya que implica necesariamente una segmentación del
enunciado que, en algunos casos, puede estar sujeta a la interpretación del transcriptor.
3.2.- Propuestas en el ámbito de las tecnologías del habla
En el campo de las tecnologías del habla existen diversas propuestas para la representación
ortográfica, dos de las cuales se presentan a continuación. Pueden verse otros ejemplos en las Guías
de Transcripción del Center for Spoken Language Understanding (CSLU, Oregon Graduate
Institute) (Lander, 1997) y en las convenciones desarrolladas para corpus como el HCRC Map
Task, Verbmobil o Polyphone (den Os et al., 1995).
3.2.1.- La propuesta de SpeechDat
Los sucesivos proyectos LRE-63314 SpeechDat (Infrastructure for Spoken Language Resources)y
LE2-4001 SpeechDat II (Speech Databases for the Creation of Voice Driven Teleservices)tienen
entre sus objetivos desarrollar estándares para la creación de recursos lingüísticos especialmente
adecuados al entrenamiento y evaluación de sistemas de reconocimiento automático del habla. Para
llevar a cabo la transcripción ortográfica se han definido una serie de convenciones - resumidas en
dos recomendaciones: “Keep it simple” y “Document everything adequately” - entre las cuales se
contempla el uso de mayúsculas y minúsculas, la transcripción de secuencias de números, de letras,
el empleo de los signos de puntuación; se establecen también procedimientos para la transcripción
de errores de pronunciación, de palabras ininteligibles, fragmentos de palabras, elisiones y
acontecimientos acústicos no verbales como las denominadas pausas llenas, ruidos producidos por
el hablantes, ruidos estacionarios en la grabación o ruidos intermitentes, respondiendo estas últimas
categorías a las necesidades de transcripción de una base de datos recogida a través del teléfono
(Senia y van Velden, 1997).
3.2.2.- La propuesta del Grupo de Trabajo de Lengua Oral de EAGLES
Los documentos del Grupo de Trabajo sobre Lengua Oral de EAGLES (EAGLES, 1995) ofrecen
las siguientes recomendaciones para transcripción ortográfica de corpus orales:
Las formas reducidas de las palabras se transcriben tal como aparecen en los diccionarios
normativos.
Si es necesario, y si se documentan adecuadamente, pueden utilizarse formas que no
aparezcan en los diccionarios.
Se recomienda el uso de formas reducidas si aparecen frecuentemente y si implican
elisiones de sílabas.
Las formas dialectales se marcan en la transcripción.
Los números se transliteran como palabras.
En la transcripción ortográfica se utilizan las formas completas de las abreviaturas.
Las abreviaturas que los hablantes pronuncian como palabras se transcriben de este mismo
modo.
En las transcripciones se indica la aparición de palabras deletreadas.
Las interjecciones se transcriben con la representación ortográfica que aparece en los
diccionarios.
Como puede deducirse fácilmente, la filosofía general de esta propuesta consiste en utilizar siempre
las formas que aparecen en los diccionarios normativos y documentar adecuadamente las formas no
estándares que se encuentren durante el proceso de transcripción.
4.- Representación fonética de corpus orales
A la hora de plantearse la elección de un sistema de transcripción fonética para un corpus oral,
útiles los planteamientos que Johansson (1995:93) realiza en el marco de la TEI (Text Encoding
Initiative):
“The degree of phonetic detail given in speech transcription varies from none to a very precise
phonetic or phonemic transcription . . . Where there is a great deal of phonetic or phonemic detail, it
will be more convenient to design a specialized writing system”
Evidentemente, hay casos en los que el objeto de la investigación no requiere la utilización de un
sistema de transcripción fonética, pero cuando es necesario disponer de un “sistema especializado
de escritura” el AFI (Alfabeto Fonético Internacional) aparece como el primer candidato para cubrir
las necesidades de la investigación, siendo igualmente el sistema recomendado tanto por la TEI
(Sperberg-McQueen y Burnard (Eds.), 1994) como por el Grupo de Trabajo sobre Textos Orales de
EAGLES (EAGLES, 1996). Sin embargo, cuando se requiere el intercambio electrónico de textos,
SAMPA (SAM Phonetic Alphabet) - considerado como una versión informática de parte del AFI
(EAGLES, 1995) - se presenta como una opción válida especialmente en lo que se refiere a las
lengua europeas y si se requiere una transcripción de carácter fonológico. Existe una extensión de
SAMPA (X-SAMPA) que ofrece los elementos del AFI inexistentes en SAMPA y que, por lo tanto,
puede considerarse como un sistema adecuado para la transcripción de corpus orales (EAGLES,
1996). Por otra parte, cabe considerar también Wordlbet como una alternativa cuando la naturaleza
del corpus aconseje disponer de un sistema más detallado. Estos sistemas, comúnmente utilizados
en la transcripción de corpus orales desarrollados en el ámbito de la fonética y las tecnologías del
habla, se presentan someramente a continuación. Dada la diversidad de sistemas existentes, parece
clara la conveniencia de desarrollar mecanismos que permitan la compatibilidad, asegurando la fácil
traducción de una representación a otra, de modo que diferentes investigadores puedan hacer uso de
corpus ya transcritos fonéticamente, incorporándolos a su propio entorno de trabajo.
4.1.- La representación de los elementos segmentales
4.1.1.- Alfabetos fonéticos convencionales
El Alfabeto Fonético Internacional (AFI / IPA, International Phonetic Alphabet) es el sistema más
ampliamente utilizado para la transcripción fonética. Es bien sabido que se basa en un principio
fonológico, según el cual se transcriben aquellos segmentos con valor diferencial, utilizándose los
diacríticos para introducir aspectos de tipo fonético (IPA, 1995). Sin embargo, a pesar del uso
extendido de este sistema, existen también diversas tradiciones nacionales resultantes, en general,
de las necesidades derivadas de la transcripción estrecha de una determinada lengua o de la
orientación de la investigación hacia un determinada área lingüística.
4.1.2.- Alfabetos fonéticos para el intercambio electrónico
4.1.2.1.- La codificación de los símbolos del AFI
La necesidad de intercambiar electrónicamente textos que contienen transcripciones fonéticas llevó,
a finales de los años 80, a plantearse la codificación de los símbolos del AFI, de modo que para
cada uno de los símbolos del alfabeto se ha definido un número (denominado “número AFI”) que
puede relacionarse también con los códigos ASCII (Esling, 1988, 1990; Esling y Gaylord, 1993;
IPA, 1989). Las equivalencias entre símbolos, números AFI y códigos ASCII forman parte de las
convenciones conocidas como CRIL (Computer Representation of Individual Languages) surgidas
del congreso de la Asociación Fonética Internacional celebrado en Kiel en 1991.
4.1.2.2.- SAMPA (SAM Phonetic Alphabet)
SAMPA (SAM Phonetic Alphabet) constituye seguramente el esfuerzo más significativo y
extendido por desarrollar un sistema de transcripción fonética informatizado. SAMPA tiene su
origen en el proyecto ESPRIT 1541 SAM (Speech Assessment Methods) (Fourcin et al., 1989;
Fourcin y Dolmazon, 1991) llevado a cabo entre 1987 y 1989. Al final del proyecto existían
versiones de SAMPA en danés, neerlandés, inglés, francés, alemán e italiano, incorporándose en
1992 el noruego y el sueco, y el español, el griego y el portugués en 1993. Durante 1996 se ha
extendido a una serie de lenguas de los países de la Europa del Este en el marco del proyecto
BABEL, y, en principio, no hay ningún obstáculo para su adaptación a otros idiomas. En cuanto a
su utilización práctica, puede señalarse que es el sistema desarrollado para la transcripción del
corpus multilingüe EUROM (Chan et al., 1995) y también el adoptado en el proyecto
ONOMASTICA, centrado en la transcripción de nombres propios en diversas lenguas europeas
SAMPA se basa en un conjunto de equivalencias entre símbolos del AFI y códigos ASCII,
restringiéndose al uso de caracteres de 7 bits (códigos 32 a 127). El principio que rige las
transcripciones en SAMPA, al igual que en el caso del AFI, es esencialmente fonológico,
empleándose únicamente símbolos distintos en el caso de segmentos con valor diferencial. Esta
filosofía viene motivada por tres razones: simplicidad de la transcripción sin incorporar
ambigüedades, ya que las realizaciones alofónicas son predictibles a partir del contexto; facilidad de
utilización por parte personas con poca formación en fonética; y falta de códigos ASCII para la
transcripción alofónica de todas las lenguas. Sin embargo, en algunos casos, se introducen símbolos
para la representación de alófonos cuando los investigadores que han desarrollado las adaptaciones
para cada lengua lo han considerado necesario.
4.1.2.3.- X-SAMPA
Una de las limitaciones de SAMPA es que no establece una codificación para todos los símbolos
del AFI. Por este motivo, Wells (1994) propone un sistema denominado X-SAMPA en el que se
prevén equivalencias en códigos ASCII para la totalidad de símbolos del AFI en su revisión de
1993, incluyendo diacríticos y marcas tonales. Una de las utilidades propuestas para este sistema es
el envío de textos en transcripción fonética a través del correo electrónico.
4.1.2.4.- Worldbet
Worldbet constituye una propuesta más ambiciosa que SAMPA y que su extensión X-SAMPA,
pues parte de la base de que “any spectrally and temporally distinct speech sound (not including
pitch) which is phonemic in some language should have a separate base symbol” (Hieronymus,
1994); los símbolos de base consisten normalmente en la concatenación de un símbolo del AFI con
una serie de diacríticos, de modo que puede representarse una gran variedad de alófonos hallados en
las lenguas del mundo, incluyendo símbolos inexistentes en el AFI. Uno de los objetivos de
Wordlbet - que en su versión actual usa 299 símbolos compuestos de dos caracteres ASCII - es
facilitar la transcripción de bases de datos multilingües que incluyan lenguas indias, asiáticas y
africanas, además de las europeas. Este sistema se ha utilizado, por ejemplo, en la transcripción de
los corpus distribuidos por el CSLU (Center for Spoken Language Understanding, Oregon
Graduate Institute)(Lander, 1997).
4.1.2.5.- Otros sistemas de transcripción fonética
Existen otros sistemas de transcripción fonética concebidos para el intercambio electrónico de
textos, tanto desarrollados desde la perspectiva de las tecnologías del habla - por ejemplo, el
CPA(Computer Phonetic Alphabet)surgido en el marco del proyecto ESPRIT Linguistic Analysis of
European Languages (Kluger-Kruse, 1987) - como diseñados para otros fines. En el ámbito del
estudio del lenguaje infantil, el proyecto CHILDES (Child Language Data Exchange
System)(MacWhinney, 1991) utiliza el sistema conocido como PHONASCII (Allen, 1988),
consistente en un conjunto de símbolos fonológicos - UNIBET - y un alfabeto fonético que permite
la transcripción estrecha.
4.1.3.- Transcripción fonética segmental en español
4.1.3.1.- Alfabetos fonéticos convencionales
En la tradición hispánica, el alfabeto fonético de la Revista de Filología Española (RFE, 1915)
constituye, sin duda, el sistema de transcripción fonética más ampliamente difundido. Sin embargo,
el Alfabeto Fonético Internacional tiende a utilizarse cada vez con mayor frecuencia, ya que, en la
mayoría de los casos, es posible establecer una correspondencia entre los dos sistemas tal como se
presenta, por ejemplo, en Quilis (1985).
4.1.3.2.- Alfabetos fonéticos para el intercambio electrónico
4.1.3.2.1.- La adaptación española de SAMPA
Las necesidades surgidas a raíz de la constitución de corpus en español adaptados al desarrollo de
las tecnologías del habla han propiciado la adaptación de sistemas adecuados para el tratamiento
informático desarrollados originalmente en otras lenguas. La presencia de grupos españoles en el
proyecto ESPRIT 2104 Polyglot I (Pardo et al., 1992) llevó a una primera adaptación del alfabeto
fonético del proyecto SAM realizada en la UNED, dando lugar a trabajos sobre transcripción
fonética automática en español (Enríquez, 1991).
La realización de la versión española del corpus EUROM en el marco del proyecto ESPRIT 6819
SAM-A llevó a la adaptación española de SAMPA (Mariño y Llisterri, 1993) tal como se presenta a
continuación, y al desarrollo de un programa de transcripción fonética automática basada en este
alfabeto que permitiera la generación automática de la representación fonética del corpus a partir de
los textos escritos leídos por los informantes. En la siguiente tabla, tomada de Wells (1995) se
ofrecen los símbolos de transcripción de SAMPA utilizados en español.
SAMPA Ejemplo Ejemplo transcrito
p padre "paDre
b vino "bino
t tomo "tomo
d donde "donde
k casa "kasa
g gata "gata
tS mucho "mutSo
jj hielo "jjelo
f fácil "faTil
B cabra "kaBra
(= /b/)
T cinco "Tinko
D nada "naDa
(= /d/)
s sala "sala
x mujer mu"xer
G luego "lweGo
(= /ɡ/)
m mismo "mismo
n nunca "nunka
J año "aJo
l lejos "lexos
L caballo ka"baLo
(o como jj)
r puro "puro
rr torre "torre
j rey
pie
rrej
pje
w deuda "dewDa
i pico "piko
e pero "pero
a valle "baLe
o toro "toro
u duro "duro
Tabla 1: Símbolos de SAMPA (SAM Phonetic Alphabet) para la transcripción del español (Wells, 1995)
SAMPA es el alfabeto fonético utilizado en el proyecto ALBAYZÍN, cuyo objetivo es la
constitución de tres bases de datos orales diseñadas para el entrenamiento y la evaluación de
sistemas de reconocimiento del habla y para estudios fonéticos (Casacuberta et al., 1992; Moreno et
al., 1993); tal como sucede en el caso de otras lenguas, podría, previsiblemente, convertirse en el
estándar para la transcripción de corpus orales en español cuando el nivel de transcripción requerido
responda al diseño de SAMPA que, como se ha indicado, constituye un alfabeto de naturaleza
fonológica adecuado para una transcripción ancha. Este podría ser el caso de los corpus para
aplicaciones a las tecnologías del habla y, en este mismo contexto, SAMPA constituye la base - en
algunos casos con modificaciones - de las representaciones generadas por los algoritmos de
transcripción fonética automática desarrollados para diversos sistemas de conversión de texto a
habla en español.
4.1.3.2.2.- Utilización de Worldbet para la transcripción en español
La siguiente tabla, tomada de Hyeronimus (1994) propone los símbolos de Worldbet utilizados para
la transcripción fonológica del español peninsular:
Worldbet Ejemplo Ejemplo transcrito
p punto p u n t o
b baños b a n~ o s
t tino t i n o
d donde d o n d e
k casa k a s a
g ganga g a N g a
V haba a V a
f falda f a l d a
s casa k a s a
z mismo m i z m o
T luces l u T e s
D dedo d e D o
x jamás x a m a s
G lago l a G o
tS chato t S a t o
dZ un yugo dZ u G o
m mano m a n o
n nada n a D a
n~ baño b a n~ o
N banco b a N k o
l lado l a D o
L pollo p o L o
r( pero p e r( o
r perro p e r o
j mayo m a j o
w cuento k w e n t o
i piso p i s o
e mesa m e s a
a caso k a s o
o modo m o D o
u cura k u r( a
Tabla 2: Símbolos de Worldbet para la transcripción del español (Hyeronimus, 1994)
La transcripción alofónica puede llevarse a cabo sin dificultades recurriendo al inventario completo
de símbolos de Worldbet presentado en Hyeronimus (1994). Por ejemplo, es posible especificar el
carácter dental de [t] y [d] mediante el uso de los símbolos [t[] y [d[] respectivamente, la fricativa
dental sonora mediante [z], la fricativa palatal sorda con [Z] y su equivalente sonoro con [s_j], así
como los alófonos reducidos (laxos) de las vocales mediante [Ix], [E], [&] o las aspiraciones
utilizando [hs] (Lander, 1997).
4.1.3.2.3.- Sistemas de transcripción fonética adaptados a corpus específicos
Transcripción de variantes geográficas
Sin embargo, una transcripción de base fonológica como la planteada en SAMPA no es,
evidentemente, apta para cubrir todas las necesidades de la investigación lingüística. Por este
motivo, en corpus informatizados como el recogido en el proyecto de investigación de las
Variedades Vernáculas Malagueñas (Alvar y Villena (Coords.), 1994) se ha adoptado un sistema de
transcripción basado en la adaptación del sistema de la RFE al ALEA (Atlas Lingüístico y
Etnográfico de Andalucía). En este proyecto se utiliza un entorno de transcripción asistida que
permite al investigador, mediante el uso de macros, crear símbolos fonéticos rasgo a rasgo,
introduciendo cuantos diacríticos sean necesarios (León, 1994). Con ello es posible realizar una
transcripción estrecha de las hablas meridionales que responde a los objetivos planteados para el
corpus. El procedimiento de transcripción asistida constituye la base de un futuro método de
transcripción fonética automática por reglas de textos orales transliterados, en el que se contempla
la utilización de SAMPA para la transcripción ancha, manteniendo el alfabeto fonético del ALEA
para la transcripción estrecha (León y Sánchez, 1996). Transcripción de diccionarios electrónicos
Un alfabeto fonético apto para ser utilizado en soportes digitales es también una herramienta
indispensable en la transcripción fonética de diccionarios electrónicos como, por ejemplo, el
Sistema de Diccionarios Electrónicos del Español . En el marco de este proyecto se lleva a cabo la
transcripción automática de una base de datos léxica que permite establecer de forma sistemática las
irregularidades ortográficas y que constituye la base para la realización de un diccionario de
pronunciación aplicable a las tecnologías del habla (Ríos, 1993, 1994).
4.2.- La representación de los elementos suprasegmentales
La incorporación de información sobre los elementos suprasegmentales - información prosódica -
en un corpus oral plantea diversos problemas, derivados precisamente de la propia naturaleza de
estos elementos, que se manifiestan en variaciones continuas en los dominios de la frecuencia, la
intensidad y el tiempo. Por tanto, es preciso llevar a cabo una abstracción para determinar, en
primer lugar, cuáles de estas variaciones son lingüísticamente significativas y, en segundo lugar,
cómo se relacionan con categorías discretas. Finalmente, estas categorías deben representarse en un
sistema de notación. No es pues extraño que se hayan desarrollado diversas convenciones para la
simbolización de los elementos suprasegmentales, algunas de las cuales se presentan en los
apartados siguientes.
En el momento de plantearse la selección de un sistema de transcripción prosódica adecuado a un
corpus oral el investigador se enfrenta nuevamente a la diversidad de sistemas, al igual que sucede
en el caso de la transcripción segmental. Aunque, como veremos más adelante, ToBI parece que se
está convirtiendo rápidamente en un estándar a pesar de su orientación hacia la transcripción del
inglés y del modelo fonológico subyacente, SAMPROSA ofrece la ventaja de haberse desarrollado
teniendo en cuenta las necesidades de la fonética y de las tecnologías del habla; además,
SAMPROSA se enmarca en el contexto de estándares extendidos en Europa como los del proyecto
SAM, recomendados, por ejemplo, por NERC (Teubert, 1993; Sinclair, 1994). En conjunto, el
sistema ideal de transcripción prosódica debería permitir una representación en varios niveles, ser
compatible con el intercambio electrónico de datos y cubrir las necesidades del mayor número de
lenguas posible, pudiendo aplicarse automáticamente en lugar de basarse en las impresiones
intuitivas del transcriptor, con vistas a la transcripción de grandes corpus. En ausencia de un sistema
que reúna tales características, parece adecuado establecer mecanismos de compatibilidad entre los
existentes a fin de facilitar la reutilización de los datos.
4.2.1.- La transcripción de los elementos suprasegmentales mediante el AFI
El AFI ofrece, además de la posibilidades de transcripción segmental, un conjunto de símbolos para
la representación de los elementos suprasegmentales. Con motivo del congreso para la revisión del
AFI celebrado en Kiel en 1989 se creó un grupo de trabajo sobre categorías suprasegmentales
(Bruce 1988, 1989), concluyéndose la necesidad de representar las categorías suprasegmentales de
un modo más adecuado, especialmente en lo que se refiere la entonación. El conjunto actual de
símbolos del AFI para los elementos suprasegmentales permite transcribir el tono, así como la
duración y el acento.
4.2.2.- Sistemas de transcripción prosódica para el intercambio electrónico
Las necesidades derivadas de una descripción detallada de la entonación tanto en el campo de la
fonética como en el de las tecnologías del habla han propiciado la creación de diversos sistemas de
transcripción prosódica, algunos de los cuales se presentan a continuación.
4.2.2.1.- Las propuestas de SAM
En el marco del proyecto ESPRIT SAM anteriormente mencionado se llevó también a cabo el
desarrollo de sistemas de transcripción prosódica compatibles con las necesidades de anotación de
bases de datos en soporte electrónico, resultando de ello propuestas como PROSPA, SAMSINT o
SAMPROSA (Gibbon, 1989; Wells et al., 1992).
PROSPA fue originalmente concebido por Selting y Gibbon (Selting, 1987, 1988) para el análisis
de la conversación y del discurso y, por tal motivo, se basa en criterios auditivos y recoge
únicamente los elementos necesarios para este fin. Por su parte, SAMSINT (SAM System for
Intonation Transcription) se plantea como objetivo la transcripción de contornos melódicos en el
interior de unidades entonativas, basándose en INTSINT (cf. 4.2.2.4.) con algunas modificaciones
adicionales.
SAMPROSA (SAM Alphabet)
A pesar de la coexistencia de los sistemas anteriormente mencionados en el proyecto SAM,
probablemente el conjunto de símbolos más extendido actualmente para la transcripción prosódica
sea SAMPROSA (SAM Prosodic Alphabet), propuesto inicialmente por Gibbon (1989) y
desarrollado por Wells et al.(1992) hasta llegar a su forma actual, que se presenta en la siguiente
tabla, reproducida de Wells (1995).
SAMPROSA ASCII Definition
Local tone
H 72 High pitch
L 76 Low pitch
T 84 Top pitch (extreme H)
B 66 Bottom pitch (extreme L)
M 77 Mid pitch
+ 43 Higher pitch
++ 43,43 Much higher pitch
+- 43,45 Peak (upward-downward)
- 45 Lower pitch
-- 45,45 Much lower pitch
-+ 45,43 Trough (downward-upward)
^ 94 Upstep
^^ 94,94 Wide upstep
! 33 Downstep
!! 33,33 Wide downstep
= or > or S 61 62 or 83 Level or same tone
Global tone: from Local and Nuclear tone repertoire
Terminal tone: from Local and Nuclear tone repertoire
Nuclear tone
- 45 Level tone (before tone group boundary)
' or / or R 39 47 or 82 Rising tone
` or \ or F 96 92 or 70 Falling tone
`' (etc.) 96,39 (etc.) Fall-rise
'` (etc.) 39,96 (etc.) Rise-fall
Length
: 58 Segment length mark
Stress
" 34 Primary stress
% 37 Secondary stress
Pause
... 46,46,46 Silence
Boundary
$ 36 Syllable boundary
# 35 Word boundary
| 124 Tone group boundary (non-directional)
[ 91 Tone group boundary (left)
] 93 Tone group boundary (right)
Metasymbols
- 45
Separator (the underscore, _, ASCII 95,
may replace this owing to ambiguity with
level tone)
* 42 Conjunctor
Tabla 3: SAMPROSA (SAM Prosodic Alphabet)(Wells, 1995)
SAMPROSA ofrece pues, al igual que SAMPA, un conjunto de caracteres correspondientes a
códigos ASCII, mediante los cuales es posible transcribir tonos globales, locales, terminales y
nucleares, la duración, el acento, la pausas y las fronteras entre unidades prosódicas. Aunque, como
puede observarse, presenta rasgos característicos de la tradición británica de análisis de la
entonación como la codificación de tonos nucleares, es un sistema que se plantea como adecuado
para la transcripción de diversas lenguas.
4.2.2.2.- ToBI (Tone and Break Index)
ToBI (Tone and Break Index)se desarrolló para cubrir al mismo tiempo las necesidades de la
descripción fonética y de la anotación de corpus adecuados al desarrollo de sistemas de tecnologías
del habla (Silverman et al., 1992). Basado en el inglés americano, permite principalmente la
transcripción de patrones entonativos partiendo de un análisis de la curva melódica representada
como evolución temporal de la frecuencia fundamental mediante herramientas de análisis y
etiquetado como el programa Waves. Sin embargo, se han definido también convenciones para la
anotación de textos representados ortográficamente.
Una transcripción utilizando ToBI consta de cuatro niveles:
Representación ortográfica del enunciado.
Nivel de índices de ruptura (break index), en el que se introducen los indicadores de límite
que marcan las fronteras entre las unidades melódicas estableciendo cuatro grados de
cohesión entre las mismas
Nivel tonal, en el que se marcan los denominados “eventos tonales” (pitch events) divididos
en tonos de frase al principio y al final de las unidades melódicas y en acentos tonales
(pitch accent) en las sílabas en las que se produce un movimiento de la frecuencia
fundamental
Nivel misceláneo, que facilita, por ejemplo, introducir los comentarios del transcriptor.
Para cada uno de los niveles se define un conjunto de símbolos, alineados temporalmente con los
fenómenos entonativos transcritos si se dispone de una herramienta adecuada como Waves.
Las críticas que se realizan más frecuentemente a ToBI son, por una parte, su dependencia del
modelo fonológico desarrollado por Pierrehumbert (1980) y, por otra, su mejor adaptación al inglés
que a otras lenguas, lo que explicaría su amplia utilización en Estados Unidos. Sin embargo, se han
realizado trabajos en italiano, alemán, húngaro y español, entre otras lenguas, usando ToBI como
sistema de representación. Un inconveniente más importante es que la anotación mediante ToBI
requiere un cierto conocimiento previo de los patrones entonativos de la lengua. Aun así, es un
sistema que ofrece indudables ventajas como pueden ser su estructura jerárquica, que permite
seleccionar entre subconjuntos o conjuntos mayores de símbolos, la posibilidad de representar
problemas que aparecen en la transcripción y el hecho de que existan experimentos demostrando un
alto grado de acuerdo entre transcriptores diferentes (Pitrelli et al., 1994).
4.2.2.3.- El sistema de representación del IPO
En el Institute for Perception Research (IPO, Eindhoven) se ha desarrollado una teoría sobre la
entonación basada en el modelado de contornos entonativos, consistentes en representaciones
estilizadas perceptivamente equivalentes al contorno original (ët Hart et al., 1990). Esta teoría ha
llevado también a la formalización de un sistema de representación de la curva melódica, definida
como un conjunto de movimientos tonales que se agrupan en secuencias de configuraciones tonales;
la agrupación de estas configuraciones da lugar, a su vez, a contornos melódicos, definiéndose los
patrones entonativos en función de agrupaciones similares de contornos melódicos. Un sistema
jerarquizado de esta naturaleza permite una representación de la curva melódica adecuada para la
transcripción prosódica, aunque que inicialmente no haya sido diseñado para tales fines.
4.2.2.4.- INTSINT (International Transcription System for Intonation)
El objetivo de INTSINT (International Transcription System for Intonation) es proporcionar un
sistema para la comparación interlingüística de sistemas prosódicos. Desarrollado por Hirst (1991,
1994; Hirst y Di Cristo, en prensa; Hirst, Di Cristo y Espesser, en prensa) en el marco de un
proyecto de análisis automático de la entonación, INTSINT se basa en la estilización de la curva
melódica realizada a partir de una interpolación entre puntos en los que se da un cambio
significativo en el valor de la frecuencia fundamental (target points). Estos puntos, que podríamos
denominar “de inflexión” - definidos como la combinación de un valor temporal y un valor
frecuencial - son susceptibles de codificarse automáticamente mediante los símbolos de INTSINT,
previa introducción de marcas de frontera entre las unidades entonativas. Con ello se obtiene una
representación fonológica del contorno melódico, simbolizando los diferentes niveles tonales de la
curva original. El sistema se basa en la representación de secuencias tonales, consideradas tanto
desde una perspectiva global en función del rango de variación tonal del hablante como desde un
punto de vista local en relación con la altura de puntos de inflexión anteriores. En el primer caso se
definen tres niveles: T (Top), M (Mid) y B (Bottom), mientras que en el segundo se marcan cinco
posibilidades: H (Higher), L (Lower), S (Same), U (Upstep) o D (Downstep).
El proceso de modelización necesario para transcribir mediante INTSINT ha sido aplicado a varias
lenguas (Hirst et al., 1993) y se emplea también para la anotación prosódica de parte del corpus
EUROM en francés, inglés, alemán, sueco y español (Hirst et al., 1994; Llisterri (Ed.), 1996)
llevada a cabo en el marco del proyecto LRE 62-050 MULTEXT (Multilingual Text Tools and
Corpora). Es posible también aplicar INTSINT a niveles más altos como el párrafo tal como se
muestra en Nicolas y Hirst (1995).
5.- Etiquetado fonético de corpus orales
Al igual que en el caso de los corpus textuales, una vez recogidos los materiales de base, debe
llevarse a cabo un procesamiento de los mismos que permita su utilización posterior. El primer paso
suele ser la transcripción ortográfica, que en determinado tipo de corpus se acompaña de una
transcripción fonética o fonológica. A continuación, a cada segmento de la onda sonora se le asocia
una etiqueta que lo define en términos fonéticos o fonológicos (labelling) y se lleva a cabo la
alineación (alignment) entre la señal sonora y las etiquetas, obteniendo una representación que
puede compararse a la partitura musical de una obra para voz y orquesta. El proceso de etiquetado
segmental puede llevarse a cabo a varios niveles, como veremos en este apartado, y completarse
con una anotación de las características suprasegmentales, codificadas según los diversos sistemas
que hemos expuesto anteriormente.
Si se cumplen las etapas mencionadas, se llega a disponer de un corpus que contiene la señal sonora
sincronizada con la transcripción ortográfica y con la transcripción fonética o fonológica, de modo
que, una vez definida una estructura de base de datos, es posible consultar el corpus partiendo de
etiquetas fonéticas, de marcas prosódicas o de la transcripción ortográfica, al tiempo que se accede
a la grabación correspondiente.
Los corpus de lengua oral que consisten únicamente en transcripciones ortográficas - ya que no
suele ser factible realizar una transcripción fonética completa de un número elevado de horas de
grabación - conllevan un procesamiento menos complejo, aunque en algunos casos contienen
marcas prosódicas útiles para el análisis del discurso o de la conversación, como veremos en el
apartado 6.
5.1.- Niveles de etiquetado
Una cuestión que se plantea inevitablemente a la hora de introducir información adicional sobre los
datos recogidos es el nivel de etiquetado del corpus. Se han realizado varias propuestas sobre los
distintos niveles en los que se puede realizar el etiquetado fonético de un corpus, algunas de ellas
ligadas al proyecto SAM como la de Barry y Fourcin (1992) que presentamos a continuación.
5.1.1.- La propuestas del proyecto SAM
En la propuesta de Barry y Fourcin se plantean cinco niveles posibles de etiquetado fonético de un
corpus:
Nivel físico, en el que se etiquetan las propiedades acústicas presentes en la señal sonora.
Nivel acústico-fonético, en el que se marcan las propiedades de los segmentos en términos
de categorías fonéticas como oclusión, fricción, sonoridad, nasalización, etc.
Nivel de transcripción estrecha, en el que se caracterizan los segmentos utilizando los
símbolos del AFI o de sus equivalentes computacionales.
Nivel de transcripción fonológica (o fonémica), señalando únicamente aquellos elementos
funcionalmente distintivos que se encuentran en la palabra pronunciada aisladamente en un
estilo cuidado (citation form).
Nivel de transcripción ancha, en el que se utilizan los símbolos correspondientes a los
elementos fonológicos en una lengua dada para transcribir realizaciones alofónicas
condicionadas por el contexto.
A estos cinco niveles debe añadirse aún la anotación prosódica, considerada de forma independiente
por los autores de la propuesta.
Una propuesta similar de etiquetado, también en cinco niveles - características acústicas de
naturaleza subfonémica, características segmentales, realizaciones fonéticas, forma canónica de las
palabras y transcripción ortográfica - se presenta en Tillmann y Pompino-Marschall (1993) y ha
sido utilizada con éxito en el proyecto alemán PhonDat.
5.1.2.- La propuesta de EAGLES
La transcripción y el etiquetado de corpus orales se ha abordado en el marco del proyecto EAGLES
desde una doble perspectiva: la de la foneacute;tica y las tecnologías del habla en el Grupo de
Trabajo sobre Lengua Oral y desde la de la lingüística de corpus en el marco de las actividades del
Grupo de Trabajo sobre Corpus Textuales.
El trabajo llevado a cabo en el grupo dedicado a la lengua hablada en EAGLES recoge
esencialmente las propuestas desarrolladas en el marco de SAM y de PhonDat. Los niveles de
etiquetado propuesto son los siguientes (EAGLES, 1995):
Nivel ortográfico, en el que se utiliza la representación ortográfica convencional.
Nivel de formas canónicas (citation form), representando la forma de pronunciación aislada
de las palabra en estilo cuidado.
Nivel de transcripción ancha o fonotípica: en este nivel se utilizan los símbolos que
representan elementos fonológicos en una lengua dada, pero, al igual que en la propuesta de
Barry y Fourcin, se transcriben aquellos fenómenos predictibles propios de la fonética
sintáctica. SAMPA sería, pues, un alfabeto fonético adecuado para este nivel de
transcripción.
Nivel de transcripción estrecha, basado en una representación alofónica de las realizaciones
fonéticas de los hablantes, para el cual puede utilizarse un alfabeto fonético como X-
SAMPA.
Nivel acústico-fonético, en el que se distinguen características acústicas de los segmentos
observables en una representación de la onda sonora
Nivel físico, representado en términos de parámetros acústicos o articulatorios
Fenómenos no lingüísticos: la inclusión de este nivel permite representar sonidos de
naturaleza comunicativa o no introducidos por el hablante, así como toda aquella
información paralingüística que se considere de interés; también permite señalas los ruidos
externos en la grabación.
Vale la pena detenerse brevemente en el nivel de las formas canónicas y en el concepto de
“transcripción fonotípica” que, como puede verse, aparecen de forma constante en diversas
propuestas. La inclusión en el etiquetado de un corpus de forma canónicas responde a un doble
motivo, especialmente ligado a necesidades tecnológicas: en primer lugar, estas formas permiten
derivar automáticamente, mediante un conjunto de reglas, una transcripción ancha o fonotípica en la
que se incluyen los elementos alofónicos cuya aparición esta condicionada por el contexto fonético;
en segundo lugar, a partir de las formas canónicas puede crearse de forma automática un diccionario
fonético partiendo de un corpus transcrito (Senia y van Velden, 1997; Wesenick y Schiel, 1995), lo
que tiene utilidad para el desarrollo de sistemas de síntesis y reconocimiento del habla y también
para la descripción lingüística.
La transcripción denominada “fonotípica” en los trabajos de SAM constituye un nivel intermedio
entre la realización fonética y la transcripción puramente fonológica. Por otra parte, el nivel de
transcripción de formas canónicas está directamente relacionado con la representación ortográfica,
facilitando así la transcripción fonética automática de corpus en este nivel mediante el desarrollo de
los correspondientes sistemas de reglas.
En el informe del Grupo de Trabajo de Corpus Textuales de EAGLES (EAGLES, 1996) se intenta
realizar una síntesis entre las necesidades de diversos campos de estudio. Se sugieren, por ello, tres
niveles de representación:
S1: representación ortográfica del texto.
S2: representación fonológica de las palabras en su forma canónica.
S3: transcripción fonética, consistente en una representación simbólica discreta de la
realización del enunciado tal como es percibido por el transcriptor.
Como puede observarse, estos tres niveles encuentran su equivalente en los niveles propuesto por
Barry y Fourcin (1992) y en los definidos por el Grupo de Trabajo de Lengua Oral. Para la
transcripción del nivel S2 puede utilizarse SAMPA, mientras que la del nivel S3 requiere el uso de
un alfabeto fonético como X-SAMPA.
5.2.- La transcripción y el etiquetado automático de corpus orales
La tarea de transcribir y etiquetar fonéticamente un corpus oral representa un considerable esfuerzo,
tanto en términos de tiempo como de los recursos económicos necesarios para llevar a cabo esta
labor. El etiquetado manual requiere, por otro lado, el desarrollo de convenciones detalladas para
asegurar la consistencia entre diversos transcriptores (Keating et al., 1994; Lander, 1997) además
del establecimiento de un proceso de validación, comprobando la fiabilidad de los resultados
obtenidos (Cole et al., 1994; Eisen, 1993; Strangert y Heldener, 1995).
Por estos motivos, uno de los intereses principales de los investigadores en el campo de las
tecnologías del habla ha sido llevar a cabo el etiquetado de forma semi-automática o, idealmente,
completamente automática. Un primer nivel de transcripción - tanto de formas canónicas como
fonotípica - puede obtenerse automáticamente, como acabamos de mencionar, a partir de la
representación ortográfica si se dispone de un conjunto de reglas que establezcan las
correspondencias entre la representación ortográfica y la fonética.
Sin embargo, un etiquetado fonético en los niveles de transcripción más detallada requiere la
posibilidad de acceder a la onda sonora y un procedimiento de análisis de la señal. La primera
operación que debe realizar un sistema de etiquetado automático es la segmentación
del continuum sonoro en unidades menores - segmentos o características acústicas, en función del
nivel de transcripción deseado - para pasar después a la asignación de etiquetas - símbolos de
transcripción - que describan sus características. Este es el proceso conocido propiamente como
etiquetado (labelling) que, cuando se realiza de forma automática, debe superar los obstáculos
derivados de la naturaleza no discreta de la señal sonora - resultado de mecanismos como la
coarticulación - y de la variabilidad de realizaciones fonéticas entre hablantes o incluso en un
mismo hablante.
Para que el corpus sea útil, el etiquetado fonético debe estar temporalmente sincronizado con la
señal sonora y con la representación ortográfica, operación que se realiza en el proceso conocido
como alineación temporal (time alignment), llevado a cabo también de forma automática. Esta
alineación puede hacerse de un modo global, señalando en la onda sonora las fronteras entre
palabras ortográficas - para facilitar el acceso a la grabación a partir de este nivel de representación
- o los puntos en los que se encuentran sílabas acentuadas tal como sucede, por ejemplo, en el
proyecto MULTEXT.
En el campo de las tecnologías del habla se han llevado a cabo numerosísimos trabajos
encaminados al diseño de sistemas de segmentación, etiquetado y alineación temporal automáticas
de corpus orales, utilizando las técnicas propias del reconocimiento del habla como los Modelos de
Markov o las redes neuronales. No constituye el objeto de la presente contribución presentar tales
procedimientos, por lo que remitimos al lector a los trabajos publicados, por ejemplo, en
Eurospeech (1991, 1993, 1995) o en las revistas de la especialidad como Speech
Communication(Amsterdam: Elsevier). Cabe destacar que tales técnicas no sólo son útiles en el
desarrollo de corpus para las tecnologías del habla, sino que constituyen una herramienta importante
en otros tipos de corpus; sin embargo, es preciso reconocer que el habla espontánea - especialmente
si se ha recogido mediante grabaciones realizadas en un entorno natural - plantea aún problemas en
lo que se refiere a su transcripción y etiquetado automáticos pese a los notabilísimos avances que
tienen lugar en este campo.
6.- Transcripción y codificación de corpus para el análisis de la
lengua oral
En este último apartado incidiremos en las cuestiones relacionadas con la transcripción y
codificación de corpus orales que pueden presentar un mayor interés para ámbitos como el análisis
de discurso o de la conversación y para el estudio de la lengua oral en todos los niveles de la
descripción lingüística. Como indicábamos al principio, la transcripción y la codificación de los
elementos transcritos son, en principio, dos operaciones conceptualmente diferentes. Sin embargo,
en la práctica habitual en las áreas a las que se refiere este apartado, suelen ser dos operaciones que
se realizan simultáneamente, ya que al mismo tiempo que se realiza la transliteración se introducen
las marcas necesarias para la codificación de los elementos que se ha decidido introducir en el
corpus. Por ello, en muchos casos la discusión sobre la transcripción y la codificación se realiza
conjuntamente en la bibliografía sobre el tema.
6.1.- Los requisitos de una transcripción
El investigador que decide constituir un corpus de lengua oral se encuentra, en estos momentos, con
una gran variedad de criterios en lo que se refiere a la transcripción y a la selección de los
elementos que aparecerán codificados en el corpus. Hemos hecho ya referencia en el apartado 3 a
las diversas convenciones para la representación ortográfica y, ciñéndonos al ámbito del análisis del
discurso y la conversación, constatamos igualmente la existencia una gran diversidad de propuestas.
En una revisión de las mismas, Payrató (1995) hace referencia a los sistemas de transcripción y
codificación procedentes de la etnometodología, interesados en reflejar la interacción verbal
(Atkinson y Heritage (Eds.), 1984; Button y Lee (Eds.), 1987), a los métodos desarrollados en el
marco de la etnografía de la comunicación y de la sociolingüística interaccional (Ochs, 1979;
Tannen, 1987; DuBois, 1991; DuBois et al. 1993; Gumperz y Berenz, 1993) o a propuestas
utilizadas en el estudio del lenguaje infantil como la de CHILDES (MacWhynney, 1991). Cabe
añadir también sistemas como los presentados en Blanche-Benveniste y Colette (1987) para la
transcripción de un corpus centrado en la investigación del francés hablado, o en Stenström (1994),
Cestero (1994) y Tusón (1995) orientados al análisis de la conversación, así como a la propuesta
detallada en Payrató (1995).
Ante tal situación, parece conveniente plantearse cuáles son los requisitos que debe cumplir una
transcripción de la lengua oral, tema que ha sido abordado por diversos autores (DuBois, 1991;
Elich, 1993; Edwards, 1993; OíConnell y Kowal, 1994). Tras revisar aportaciones anteriores,
Payrató (1995) resume los requisitos que, teóricamente, deberían exigirse a toda transcripción:
Neutralidad o fidelidad, de modo que la transcripción no sea interpretativa.
Globalidad o complejidad, recogiendo la totalidad de los fenómenos que aparecen en el
discurso oral.
Omnifuncionalidad, permitiendo diversos usos y aplicaciones.
Claridad, tanto desde el punto de vista del aprendizaje del sistema como de la legibilidad de
la representación.
Universalidad y compatibilidad entre sistemas informáticos.
Sin embargo, puesto que en la práctica se transcribe en función de los objetivos para los que se ha
definido el corpus, Payrató (1995) considera que un sistema de transcripción debe ser, ante todo,
interpretativo de los datos, selectivo en cuanto a los fenómenos que se transcriben, pertinente para
el objeto de investigación, coherente con la base teórica adoptada por el investigador, fiel en cuanto
a la representación de los datos y flexible para que sea posible su utilización en diversos estudios.
Por otra parte, en opinión de este autor, la simbología utilizada debe ser clara, económica, sencilla,
exenta de ambigüedad y compatible con sistemas internaciones estandarizados. Este último aspecto
nos parece especialmente importante ya que, como señala el mismo Payrató (1995: 58)
“. . . en ningún caso puede olvidarse que los datos de una investigación no deberían ser tratados
nunca de forma tan parcial o idiosincrásica que se impidiera o dificultara el uso por parte de otros
investigadores. La transcripción del discurso oral es una actividad suficientemente costosa y
conflictiva para tomar precauciones en este sentido, y ninguna comunidad científica puede
permitirse el lujo de particularismos (en aspectos tan elementales) que obstruyan el debate o
conviertan en inaprovechables una fuente de información”.
6.2.- Los elementos transcritos y las prácticas de transcripción y
codificación
A fin de estudiar la viabilidad de disponer de criterios mínimamente estandarizados para la
transcripción y la codificación de corpus orales, en EAGLES (1996) se realiza una revisión de los
elementos que suelen encontrarse representados con más frecuencia en los sistemas de transcripción
diseñados para el estudio de la lengua oral. Además de los métodos mencionados en el apartado
anterior desarrollados en el marco del análisis del discurso y de la conversación, cabe considerar
también las distintas convenciones empleadas en la transcripción y codificación de corpus orales
desde la propia lingüística de corpus.
Los elementos transcritos pueden relacionarse con los diversos niveles de representación del corpus,
tal como se presenta en la siguiente tabla:
Nivel de análisis Elementos transcritos, marcados o codificados
Nivel segmental Alargamiento, timbre, acento, reconstrucción de segmentos elididos.
Nivel silábico Fronteras silábicas, alargamiento silábico.
Nivel léxico
Fronteras de palabras, palabras truncadas, formas no estándar, formas
onomatopéyicas, formas deletreadas, acrónimos, abreviaturas, cambios
entonativos en la palabra, acento léxico, pausas percibidas entre
palabras o en el interior de una palabra.
Nivel sintáctico Fronteras entre enunciados, modalidad, interrupciones en el enunciado
con o sin presencia de pausas.
Nivel suprasegmental Unidades entonativas
Fronteras entre unidades entonativas o entre unidades menores,
unidades tonales incompletas o truncadas, reajustes (resets) tonales,
junturas, índices de cohesión, contornos tonales terminales.
Tono
Cambios melódicos en el enunciado o en parte del enunciado, nivel
tonal, rango tonal, registro, movimiento tonal en la palabra o en el
enunciado.
Acento
Acento de palabra, acento de frase, acento tonal, niveles de acento,
prominencia, énfasis, acento contrastivo, tensión, propiedades rítmicas.
Intensidad
Intensidad absoluta o relativa de partes del enunciado
Velocidad de elocución
Cambios en la velocidad de elocución, velocidad de elocución relativa
o absoluta.
Pausas
Pausas silenciosas, pausas vocalizadas, duración absoluta o relativa de
las pausas.
Nivel paralingüístico Vocalizaciones semi-léxicas, vocalizaciones no léxicas, timbre de la
voz, otros elementos vocalizados (canto, gritos, etc.).
Nivel discursivo Turnos de palabra, tipo de transición entre turnos, superposición de
turnos.
Nivel contextual Fenómenos no comunicativos no léxicos y no vocales, información
kinésica.
Tabla 4: Elementos transcritos, codificados o marcados en el estudio de la lengua oral (EAGLES, 1996)
6.3.- Propuestas de estandarización para la transcripción y codificación
de corpus orales
Ante la diversidad de propuestas para la transcripción y codificación de la lengua oral que
acabamos de constatar, el surgimiento de la lingüística de corpus y, muy especialmente, las
necesidades derivadas del intercambio electrónico de textos propiciaron la aparición de proyectos e
iniciativas centrados en la creación de estándares, tanto en lo que se refiere a la transcripción como
a la codificación. En los próximos apartados revisamos sucintamente algunos de ellos.
6.3.1.- TEI (Text Encoding Initiative)
Uno de los capítulos de las Guías desarrolladas por la TEI está dedicado a la transcripción de corpus
orales. En él se describe la estructura básica de la representación de un texto oral - cabecera, texto y
divisiones - y se definen los procedimientos, basados en SGML, para la representación de los
elementos estructurales básicos: información contextual, información temporal, enunciados, pausas,
elementos vocalizados semi-léxicos o no léxicos, elementos kinésicos, otros tipos de eventos
comunicativos y texto presentado en forma escrita al hablante. También se ofrecen en este capítulo
indicaciones para la segmentación y el alineamiento, así como recomendaciones para la
transcripción de superposiciones entre hablantes, de formas de palabras, prosodia, elementos
paralingüísticos - tempo, intensidad, rango tonal, tensión, ritmo y cualidad de voz - y alteraciones en
el decurso fónico. Para la representación de la información fonética se recomienda el uso del AFI.
En la siguiente tabla se resumen los principales elementos propuestos por la TEI para la
codificación de corpus orales considerados específicos de este tipo de texto (Sperberg-McQueen y
Burnard (Eds.), 1994):
Elemento codificado
Marca de
codificación en
SGML
Definición
Divisiones (division) <div>
Unidades intermedias entre el texto y el enunciado
que permiten delimitar partes diferenciadas en un
texto.
Enunciado (utterance) <u>
Segmento de habla comprendido entre dos pausas o
delimitado por un cambio en el turno de palabra;
puede incluir además información sobre la
superposición (<overlap>) de turnos cuando
interviene simultáneamente más de un hablante.
Pausa (pause) <pause>
Interrupción de la fonación percibida entre dos
enunciados o en el interior de los mismos; puede
describirse en términos relativos o indicando su
duración.
Vocal (vocal) <vocal> Elemento vocalizado semi-léxico o no léxico (p.ej.
pausas llenas o toses).
Kinésico (kinesic) <kinesic> Cualquier fenómeno comunicativo no vocal (p. ej.
gestos).
Acontecimiento (event) <event>
Cualquier fenómeno identificado en la grabación no
necesariamente vocalizado ni con valor
comunicativo (p. ej. ruidos de fondo).
Texto escrito (writing) <writing> Texto escrito que se presenta al hablante durante su
intervención.
Cambio (shift) <shift>
Momento en el que se produce un cambio en
alguno de los rasgos paralingüísticos - cualidad de
voz, intensidad, rango tonal, ritmo y velocidad de
elocución -; cada uno de los rasgos puede
describirse mediante una lista de características.
Tabla 5: Elementos codificados en las transcripciones de lengua oral según los estándares de la TEI
(Adaptada de Sperberg-McQueen y Burnard (Eds.), 1994)
Por otra parte, la TEI ofrece mecanismos para indicar el comienzo y el final de un fenómeno, su
duración y su sincronización temporal con otros elementos; presenta también la posibilidad de
marcar unidades inferiores al enunciado - segmentos <seg> - que permiten delimitar, por ejemplo,
unidades prosódicas, e incluye también entre sus propuestas las marcas necesarias para señalar
fenómenos propios de la lengua hablada como palabras truncadas, repeticiones, falsos principios -
marcados como <del> (deletion) y especificando el fenómeno -. Las partes de la grabación que el
transcriptor no llega a interpretar correctamente - <unclear> - o no puede escuchar - <gap> - o las
correcciones de errores de producción realizadas por el transcriptor - <sic> para delimitar el error y
<corr> para indicar la corrección - son también elementos para los cuales la TEI establece marcas
de codificación.
Aunque las Guías de la TEI pueden considerarse un sistema adecuado para la transcripción y
codificación de gran variedad de materiales, los autores propios autores reconocen que:
“. . . the present proposals are not intended to support unmodified every variety of research
undertaken upon spoken material now or in the future; some discourse analysts, phonologists, and
doubtless other may wish to extend the scheme presented here to express more precisely the set of
distinctions they wish to draw in their transcriptions. Speech regarded as a purely acoustic
phenomenon may well require different methods from those outlined here, as may speech regarded
solely as a process of social interaction&” (Sperberg-McQueen y Burnard (Eds.), 1994, cap. 11)
6.3.2.- NERC (Network of European Reference Corpora)
El proyecto NERC (Network of European Reference Corpora) se planteó como uno de sus objetivos
la viabilidad de desarrollar una serie de recomendaciones para la constitución de corpus (NERC,
1994) y, por tanto, incluye entre sus resultados indicaciones sobre el tratamiento de los corpus
orales, tanto en lo que se refiere a su codificación como a la transcripción de los elementos
segmentales y suprasegmentales (Sinclair, 1994).
El sistema adoptado para la transcripción y codificación de corpus se basa, como hemos indicado
anteriormente, en el desarrollado por French (1991, 1992) para la transcripción del corpus oral
desarrollado en el proyecto COBUILD. La transcripción se plantea como una operación que puede
desarrollarse en varios niveles:
Nivel I: consiste en la representación ortográfica, introduciendo los mínimos signos
de puntuación necesarios, sin información sobre la interacción entre hablantes. En
este nivel se contemplan convenciones desarrolladas para la representación
ortográfica y para precisar el uso de la puntuación.
Nivel II: consiste en una representación ortográfica enriquecida con información
básica sobre la identidad de los hablantes, el turno de palabra y los elementos no
verbales.
Nivel III: contiene toda la información presente en el nivel II además de
información sobre la interacción entre hablantes - marcando el principio y el final
de los solapamientos - y sobre la entonación - señalando las fronteras entre
unidades tonales y las sílabas acentuadas-. En opinión de French (1992) la
transcripción a este nivel requiere una formación específica en fonética.
Nivel IV: constituye el nivel más detallado de representación, incluyendo la
información propia del nivel III junto con marcas de tonos, sílabas nucleares y con
una transcripción fonológica alineada con una representación acústica -
espectrograma y curva melódica - del enunciado.
La recomendación del proyecto NERC es que la transcripción de un corpus para el estudio de la
lengua oral se lleve a cabo según las especificaciones del Nivel II, adecuado, según French, para
todas aquellas investigaciones que no requieran información prosódica.
En el marco de NERC se llevó a cabo una evaluación de las Guías de la TEI para la transcripción de
corpus orales (Payne, 1992), de la que se concluye que:
“The TEI proposals are broadly compatible with current practice in the user community, as
represented by J.P. French conventions. Furthermore, in the majority of cases it will be a
straightforward matter to link the machine-friendly TEI codes to the more user-friendly encoding
systems such as J.P. French conventions by means of a simple conversion programme” (Payne,
1992:60) La idea de una conversión automática entre las transcripciones realizadas según las
propuestas de NERC y de la TEI es, naturalmente, interesante, y refuerza la idea de que existe una
compatibilidad general entre ambos sistemas. De hecho, en el informe final de NERC se
recomienda que se sigan las normas de la TEI.
6.3.3.- EAGLES (Expert Advisory Group on Language Engineering Standards)
Uno de los objetivos del Grupo de Trabajo sobre Textos Orales de EAGLES -Subgrupo creado en el
seno del Grupo de Trabajo sobre Corpus Textuales - es proponer un conjunto mínimo de fenómenos
que deberían codificarse en cualquier texto oral. La propuesta realizada se describe en EAGLES
(1996) y toma elementos del proyecto NERC, de la TEI y del Grupo de Trabajo sobre Lengua Oral
de EAGLES. Considerando los elementos comunes a los sistemas que sirven de base, se sugiere que
la codificación de un texto oral debe contener, al menos, información sobre los siguientes aspectos:
(1) Elementos vocales y no vocales
Elementos vocales semi-léxicos
Pertenecen a esta categoría los elementos utilizados principalmente en el
habla espontánea durante los momentos en que el hablante planifica la
continuación de su discurso como las llamadas “pausas llenas” o “sonoras”
y los elementos que marcan dudas en el momento de la producción del
habla. Corresponden a los elementos que en la TEI se marcan con la
etiqueta <vocal>.
Elementos vocales no léxicos
Se incluyen aquí todo tipo de sonidos producidos por el hablante - toses,
risas, bostezos, estornudos, etc. - que no constituyen formas léxicas de la
lengua. Corresponden igualmente a los codificados con la marca <vocal>
en la TEI.
Acontecimientos no vocales y no comunicativos
Comprenden los ruidos producidos por otros hablantes o procedentes del
entorno de grabación. Estos acontecimientos se codifican en la TEI
mediante la marca <event>.
(2) Elementos necesarios en la transcripción de interacciones verbales
Identidad del hablante
Este es un elemento imprescindible en la transcripción de interacciones
verbales. La TEI dispone de los mecanismos para documentar información
sobre los hablantes en la cabecera de los textos, así como de un sistema
para marcar la identidad de cada participante en el interior del texto,
aunque pueden utilizarse también otros procedimientos.
Turnos de palabra
La finalidad del marcado de los turnos de palabra es indicar un cambio de
hablante. Además de las convenciones de la TEI pueden emplearse otros
procedimientos, mientras se mantenga esta información, esencial en el
estudio de la interacción verbal.
Superposición de turnos de palabra
Existen igualmente diferentes procedimientos para marcar la superposición
de emisiones de dos hablantes, además de las propuestas de la TEI, que los
trata como parte de las estrategias para codificar acontecimientos
simultáneos.
(3) Elementos relacionados con la actuación del hablante
Omisiones en un texto leído
Si se transcribe un texto leído y se dispone del original, es recomendable
anotar las palabras o segmentos omitidos por el locutor.
Autocorrecciones
Es propio del habla espontánea, aunque también de la lectura, que los
hablantes realicen correcciones de su propia producción lingüística (self-
repairs). Parece conveniente marcarlas en la transcripción de un corpus
oral.
Fragmentos de palabras
Los fragmentos de palabras corresponden a uno o más segmentos
pertenecientes a una palabra que no ha sido totalmente pronunciada por el
hablante en un primer intento y que suelen repetirse cuando éste consigue
producir la palabra completa. Es importante indicar este fenómeno en la
transcripción.
Fragmentos ininteligibles
Se trata de partes de la grabación que no son comprendidas por el
transcriptor y en la TEI se codifican con la etiqueta <unclear>, aunque si se
desea se pueden utilizar marcas más detalladas distinguiendo entre
transcripciones completamente ininteligibles y entre una posible
interpretación ofrecida por el transcriptor.
Un aspecto conflictivo sigue siendo la identificación de los enunciados que conforman un texto
oral. Mientras que en un texto escrito, los signos de puntuación constituyen un criterio de
delimitación, en el habla disponemos de indicios como las pausas, la entonación o el cambio de
turno de palabra que nos permiten, al menos convencionalmente, definir un enunciado.
6.4.- Transcripción y codificación de corpus orales en español: propuestas
y modelos
Existen actualmente en español diversos corpus orales transcritos y codificados para algunos de los
cuales hemos podido recoger información sobre las convenciones de transcripción y los
procedimientos de codificación utilizados. No se trata pues de realizar aquí una presentación
exhaustiva de los corpus elaborados o en preparación, sino de ofrecer algunas muestras que
proporcionen unas orientaciones, necesariamente someras, sobre los criterios considerados en
nuestro ámbito más cercano.
6.4.1.- El Corpus Oral de Referencia del Español Contemporáneo
Elaborado en el Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid
entre 1991 y 1992 en colaboración con IBM España, el Corpus Oral de Referencia del Español
Contemporáneo consiste en la transcripción ortográfica de diversos tipos de texto, pertenecientes al
registro oral.
Para la representación ortográfica del corpus se adoptan una serie de convenciones relacionadas con
el uso de las mayúsculas, las comillas, los puntos suspensivos - utilizados para señalar pausas,
vacilaciones, cortes bruscos o realizaciones repetidas de la misma palabra -, las comas - que se
emplean según las reglas de la ortografía aunque no exista pausa o para señalar las pausas de
sentido en el discurso - y el punto y aparte, usado para un cambio de tema. Las palabras trabadas o
cortadas, las confusiones, las autocorrecciones o las palabras inventadas por el locutor y no
documentadas en los diccionarios se transcriben tal como las pronuncia el hablante.
Las convenciones adoptadas para la codificación se basan, según los autores del corpus, en la TEI.
Se utilizan por ello etiquetas relativas a la pronunciación - marcando palabras cortadas,
reconstrucciones realizadas por el transcriptor, vacilaciones, elementos fáticos, ruidos superpuestos
a la enunciación, sonidos de formación expresiva o imitativa como las onomatopeyas -, a los
hablantes - identificación de los papeles o del público y marcas señalando la superposición de todos
los hablantes -, a las intervenciones - marcando la presencia de texto leído o cantado, la
simultaneidad de intervenciones - o los problemas derivados de la grabación; se marca y codifica
igualmente la aparición de siglas o de palabras extranjeras.
6.4.2- El Corpus de Conversación Coloquial
Desarrollado por el Grupo Val.Es.Co de la Universidad de Valencia, tiene como objetivo permitir la
realización de estudios sobre el español coloquial. En Briz (Coord.) (1995) se ofrece una
panorámica general del proyecto, así como una presentación de las convenciones de transcripción
acompañada de abundantes materiales. Se señala en este trabajo que
“La transcripción intenta reproducir lo más fielmente posible la conversación y al mismo tiempo
facilitar la labor del lector. El sistema de signos y convenciones empleado es lo suficientemente
estrecho, por tanto, para conseguir que el lector pueda reproducir aproximadamente la conversación
original” (Briz (Coord.) 1995:39).
Este objetivo del corpus se pone de manifiesto en la selección de los fenómenos transcritos,
enumerados a continuación: fenómenos relacionados con el turno de palabra - alternancia de turno,
sucesión inmediata de emisiones, solapamientos, reinicios y autointerrupciones, escisiones
conversacionales - , pausas y silencios con diversos grados de duración, inflexiones finales o
interiores en los grupos entonativos, énfasis, fenómenos fonéticos - fonética sintáctica entre
palabras, aspiraciones, asimilaciones, alargamientos segmentales, fragmentos susurrados - y
modalidad del enunciado - preguntas, interrogaciones y exclamaciones -.
Las convenciones para la transcripción incluyen además pautas para la representación de las
transcripciones dudosas, las interrupciones de la grabación o de la transcripción y las
reconstrucciones de unidades léxicas, así como procedimientos de anotación pragmática en forma
de notas a pie de página. En lo que respecta a la prosodia, se transcriben los indicios prosódicos
“que influían notablemente en el curso de la conversación o introducían alguna modificación en la
prosodia „normativa‟” (Briz (Coord.) 1995:41), para lo cual se realiza, cuando es necesario, una
comprobación mediante el análisis acústico de las grabaciones.
6.4.3.- El Corpus de Variedades Vernáculas Malagueñas
Constituido con un objetivo predominantemente sociolingüístico, el Corpus de Variedades
Vernáculas Malagueñas (VUM) se ha recogido en el Departamento de Filología Española y el
Departamento de Filología Románica I de la Universidad de Málaga (Alvar y Villena (Coord.),
1994).
La transcripción del corpus se basa en la ortografía convencional, pero se enriquece por medio de
convenciones y rasgos específicos “que permitan al lector de la misma la reconstrucción lo más
exacta posible de la situación de habla originaria, así como de algunas características fónicas,
discursivas y estilísticas” (Avila, 1996:103). Informan los investigadores del proyecto de que en la
codificación se han seguido los estándares de la TEI - utilizando para ello SGML -, tomando como
punto de partida los criterios del Corpus Oral de Referencia del Español Contemporáneo.
Las etiquetas utilizadas codifican pues información sobre los hablantes y los turnos de palabra -
simultaneidad o interrupción -, los rasgos prosódicos - tono, intensidad, entonación, tempo, diversos
tipos de pausa en función de su duración relativa y énfasis - las acciones no verbales y los
fenómenos no vocales, la actuación lingüística y las incidencias que tienen lugar en la grabación. Se
han introducido también, de acuerdo con la especificidad del corpus, etiquetas para “la
representación de la características fonéticas propias de las hablas meridionales en general y de las
variedades de Málaga en particular” (Ávila, 1996:106); en este aspecto se marca la elisión de
consonantes en tensión silábica, la reaparición de consonantes implosivas y el aumento de la
duración segmental, además de incluirse una representación de diversos tipos de pausas en función
de su duración relativa.
6.4.4.- El Corpus de Referencia del Español Actual
Desarrollado por el Instituto de Lexicografía de Real Academia Española, el Corpus de Referencia
del Español Actual (CREA) es fundamentalmente un corpus textual que incluirá, sin embargo,
transcripciones de lengua oral. La transcripción que actualmente se está realizando corresponde al
nivel II definido en NERC y al nivel S1 según la caracterización de EAGLES. Para la codificación
se emplean los estándares de la TEI, por lo que, una a vez transcrito y codificado, el texto se
almacena en formato SGML.
La representación ortográfica se lleva a cabo de acuerdo con la normativa del español y se
introducen una serie de convenciones para el tratamiento de los problemas relacionados con formas
reducidas de palabras, abreviaturas y acrónimos, palabras deletreadas, secuencias numéricas,
interjecciones, fenómenos comunicativos no vocales, fenómenos no comunicativos no vocales,
errores de producción, repeticiones, rectificaciones e interrupciones en el discurso, titubeos y
fragmentos ininteligibles. Se utilizan los signos ortográficos habituales siguiendo los principios que
rigen la normativa de puntuación en español, excepto en el caso del punto y coma, que no se emplea
en la transcripción, y de las comillas, cursivas y mayúsculas que se usan como un medio tipográfico
de resalte.
Las marcas de codificación incluidas en el corpus se dividen en dos grandes categorías:
estructurales e intratextuales. Entre las marcas estructurales se utiliza la que señala una división
interna en el texto (<div>, division) con posibilidad de indicar su nivel jerárquico, la que marca un
segmento precedido y/o seguido de un cambio de hablante (<u>, utterance) acompañada de una
indicación del tipo de transición, y la que codifica la superposición entre hablantes (<overlap>).
Las marcas intratextuales se emplean para codificar la presencia de abreviaturas y acrónimos,
palabras extranjeras, discurso directo, números, texto escrito leído por los hablantes, texto resaltado
- en casos de discurso directo o cita así como para señalar los elementos que aparecerían
tipográficamente marcados en los textos escritos como las palabras extranjeras no adaptadas, los
usos metalingüísticos, las marcas o nombres comerciales, etc. - formas deletreadas y titubeos. La
codificación recoge también los elementos vocales (<vocal>), para los cuales se elabora una
tipología, los fenómenos comunicativos no vocales (<kinesic>) o los fenómenos no vocales y no
comunicativos que se detectan en las grabaciones (<event>); se codifican igualmente los fragmentos
poco claros de la grabación (<unclear>).
En el procedimiento de codificación adoptado, los signos de puntuación introducidos por el
transcriptor son automáticamente interpretados y etiquetados. Así, los enunciados ortográficos
separados por signos como el punto, la exclamación o la interrogación se marcan con la etiqueta
<s> (sentence). La etiqueta <pause> se reserva, en cambio, para los casos en que aparecerían puntos
suspensivo en un texto escrito, señalando una interrupción en el discurso resultado de un titubeo o
una cláusula inconclusa.
7.- Conclusiones
La revisión - sin pretensiones de exhaustividad - de los principales sistemas de transcripción,
etiquetado y codificación de corpus orales expuesta en este trabajo pone de manifiesto, en primer
lugar, la multiplicidad de propuestas desarrolladas frente a los intentos de estandarización, algunos
de los cuales aún no se han consolidado plenamente pese a su creciente aceptación. En segundo
lugar, destaca también la heterogeneidad de tradiciones que confluyen en el estudio de la lengua
hablada, desde la fonética y las tecnologías del habla hasta el análisis del discurso y de la
conversación, diversidad que lleva a la creación de convenciones específicas para responder a las
necesidades de diversas comunidades científicas. Ante esta situación, la distinción propuesta por
Sinclair (1995:107) entre “conformidad” y “compatibilidad” adquiere todo su sentido, ya que si en
ciertos casos la conformidad a un estándar determinado es problemática por las limitaciones
inherentes a todo sistema común, la compatibilidad - entendida como la facilidad de conversión
entre sistemas - debería ser, en cambio, un requisito imprescindible en el desarrollo de los recursos
lingüísticos. De esta manera puede tal alcanzarse el equilibrio entre las necesidades de un proyecto
y las indudables ventajas científicas y económicas que resultan de la reutilización de los datos
disponibles.
Bibliografía
ALLEN, G.D. (1988) “The PHONASCII System”, Journal of the International Phonetic Association 18,1: 9-
25.
ALVAR EZQUERRA, M.- VILLENA PONSODA, J.A. (Coords.) (1994) Estudios para un corpus del
español. Málaga: Universidad de Málaga (Analecta Malacitana, Anejo 7)
ANDERSON, A.H. - BADGER, M.- BARD, E.G.- BOYLE, E.- DOHERTY, G.- GARROD, S.- ISARD, S.-
KOWTKO, J.- McALLISTER, J.- MILLER, J.- SOTILLO, C.- THOMPSON, H.S.- WEINERT, R. (1991)
“The HCRC Map Task corpus”, Language and Speech 34,4: 351-366
ATKINSON, J.M. - HERITAGE, J. (Eds.) (1984) Structures of social action. Studies in conversation
analysis. Cambridge / Paris: Cambridge University Press/Editions de la Maison dels Sciences de l'Homme
AUTESSERRE, D.- PÉRENNOU, G.- ROSSI, M. (1989) “Methodology for the transcription and labeling of
a speech corpus”, Journal of the International Phonetic Association 19,1: 2-15
ÁVILA MUÑOZ, A.M. (1996) “Problemas prácticos en la realización de corpus orales. La transliteración del
corpus oral del proyecto de investigación de las variedades vernáculas malagueñas (VUM)”, in LUQUE
DURÁN, J. de D.- PAMIES BERTRÁN, A. (Eds.) Actas del Primer Simposio de Historiografía Lingüística.
Granada, 1996. Granada: Método Ediciones. pp. 103-112.
BARRY, W.J.- FOURCIN, A.J. (1992) “Levels of Labelling”, Computer Speech and Language 6: 1-14
BECKMAN, M.E. - AYERS, G.M. (1994) Guidelines for ToBI Labelling. Version 2.0, February
1994. URL: http://www.ling.ohio-state.edu/~tobi/
BECKMAN, M.E.- HIRSCHBERG, J. (1994) The ToBI Annotation Conventions. Appendix A of
BECKMAN, M.E. - AYERS, G.M. (1994) Guidelines for ToBI Labelling. Version 2.0, February 1994.
URL: http://www.ling.ohio-state.edu/~tobi/
BLANCHE-BENVENISTE, C.- COLETTE, J.J. (1987) Le français parlé: Transcription et Edition. Paris:
Didier Erudition.
BOVES, L.- REFICE, M.- MARTÍNEZ, M.- CASADO, C.- PARDO, M. (1988) “El procesador lingüístico
para un sistema multilingüe de conversión texto-habla y habla-texto”, Procesamiento del Lenguaje Natural,
Boletín nº 6: 53-68.
BRIZ, A. (Coord.) (1995) La conversación coloquial (Materiales para su estudio). València: Universitat de
València, Facultad de Filología, Departamento de Filología Española (Lengua Española) (Cuadernos de
Filología, Anejo XVI).
BRIZ, A.- GÓMEZ MOLINA, J.R. (1992) “Scheme of Study of Colloquial Spanish: Some Methodological
Considerations”, in MORENO FERNÁNDEZ, F. (Ed.)Sociolinguistics and Stylistic Variation, LynX 3: 111-
124
BRUCE, G. (1988) “2.3. Supasegmental categories and 2.4. The symbolization of temporal events”, Journal
of the International Phonetic Association 18,2: 75-76
BRUCE, G. (1989) “Report from the IPA working group on suprasegmental categories”, Lund University
Department of Linguistics, General Linguistics, Phonetics, Working Papers 35: 25-40
BRYAN, M. (1988) SGML: An Author's Guide to the Standard Generalized Markup Language. Wokingham:
Addison-Wesley
BURNARD, L. (1995) “What is SGML and how does it help?”, Computers and the Humanities 29,1: 41-50;
in IDE, N.- VÉRONIS, J. (Eds.) (1995) The Text Encoding Initiative. Background and Context. Dordrecht:
Kluwer Academic Publishers.
BURNARD, L. (1995a) Text Encoding for Information Exchange. An Introduction to the Text Encoding
Initiaive. TEI Document no TEI J31.
BURNARD, L. (1995b) “The Text Encoding Initiative: an overview”, in LEECH, G.- MYERS, G.-
THOMAS, J. (Eds) Spoken English on Computer: Transcription, Markup and Applications. Harlow:
Longman. pp. 69-81
BUTTON, G.- LEE, J.R.E. (Eds.) (1987) Talk and Social Organization. Clevedon: Multilingual Matters
CAPPELLI, G.- MARRERO, V.- ALBALÁ, M.J. (1994) “Aplicación del sistema MORPHO a una muestra
de lenguaje infantil”, Sociedad Española para el Procesamiento del Lenguaje Natural, Boletín nº 14: 23-31.
CASACUBERTA, F.- GARCÍA, R.- LLISTERRI, J.- NADEU, C.- PARDO, J.M.- RUBIO, A. (1992)
“Desarrollo de corpus para investigación en tecnologías del habla (Albayzín)”, Procesamiento del Lenguaje
Natural, Boletín 12: 35-42
CASTEJÓN LAPEYRA, F.- ESCALADA SARDINA, G.- MONZÓN SERRANO, L.- RODRÍGUEZ
CRESPO, M.A.- SANZ VELASCO, P. (1994) “Un conversor texto-voz para el español”, Comunicaciones de
Telefónica I+D, 5, 2: 114-131
CESTERO MANCERA, A. (1994) Análisis de la conversación: alternancia de turnos en la lengua española.
Tesis doctoral. Alcalá de Henares: Universidad de Alcalá de Henares.
CHAFE, W. (1995) “Adequacy, user-friendliness, and practicality in transcribing”, in LEECH, G.- MYERS,
G.- THOMAS, J. (Eds.) Spoken English on Computer: Transcription, Markup and Applications. Harlow:
Longman. pp. 54-61
CHAN, D.- FOURCIN, A.- GIBBON, D.- GRANSTRÖM, B.- HUCKVALE, M.- KOKKINAKIS, G.-
KVALE, K.- LAMEL, L.- LINDBERG, B.- MORENO, A.- MOUROPOULOS, J.- SENIA, F.- TRANCOSO,
I.- VELD, C.- ZEILIGER, J. (1995) “EUROM - A Spoken Language Resource for the EU”,
in Eurospeech'95. Proceedings of the 4th European Conference on Speech Communication and Speech
Technology. Madrid, Spain, 18-21 September, 1995. Vol 1, pp. 867-870.
COLE, R.A.- OSHIKA, B.T.- NOEL, M.- LANDER, T.- FANTY, M. (1994) “Labeler Agreement in
Phonetic Labeling of Continuous Speech”, in Proceedings of the 1994 International Conference on Spoken
Language Processing, Yokohama, Japan, 18-22 September 1994.
COOK, G. (1995) “Theoretical issues: transcribing the untranscribable”, in LEECH, G.- MYERS, G.-
THOMAS, J. (Eds) Spoken English on Computer: Transcription, Markup and Applications. Harlow:
Longman. pp. 35-53
CROWDY, S. (1994) “Spoken corpus transcription”, Literary & Linguistic Computing 9,1: 25-28.
CROWDY, S. (1995) “The BNC spoken corpus”, in LEECH, G.- MYERS, G.- THOMAS, J. (Eds.) Spoken
English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 224-234
De la MOTA, C. - RÍOS, A. (1995) “Problemas en torno a la transcripción fonética del español: los alfabetos
fonéticos propuestos por IPA y RFE y su aplicación a un sistema automático”, Acta Universitatis
Wratislaviensis nº 1660, Estudios Hispánicos IV. Wroclaw. pp. 97-109.
DE LA TORRE MUNILLA, C.- HERNÁNDEZ-GÓMEZ, L.A.- TAPIAS, D. (1995) “CEUDEX: a Data Base
Oriented to Context-Dependent Units Training in Spanish for Continuous Speech Recognition”,
in Eurospeech'95. Proceedings of the 4th European Conference on Speech Communication and Technology.
Madrid, Spain, 18-21 September, 1995. Vol 1, pp. 845-848.
DEN OS, E.- BOOGAART, T.I.- BOVES, L.- KLABBERS, E. (1995) “The Dutch Polyphone Corpus”,
in Eurospeech'95. Proceedings of the 4th European Conference on Speech Communication and Technology.
Madrid, Spain, 18-21 September, 1995. Vol 1, pp. 825-828.
DU BOIS, J.W. (1991) “Transcription design principles for spoken discourse research”, Pragmatics 1: 71-106
DU BOIS, J.W.- SCHUETZE-COBURN, S.-CUMMING, S.- PAOLINO, D. (1993) “Outline of discourse
transcription”, in EDWARDS, J.A.- LAMPERT, M.D. (Eds.) Talking Data: Transcription and Coding in
Discourse Research. Hillsdale, N.J.: Lawrence Erlbaum Associates. pp. 45-90
EAGLES (1995) EAGLES Hanbdook on Spoken Language Systems. Draft - Work in Progress. EAGLES
Document SLWG, Phase 2, V1. May, 1995.
EAGLES (1996) Preliminary Recommendations on Spoken Texts. EAGLES Document EAG-TCWG-STP/P,
May 1996. URL: http://www.ilc.cnr.it/EAGLES96/spokentx/spokentx.html
EDWARDS, J.A. (1991) “Transcription in discourse” in BRIGHT, W. (Ed.) Oxford International
Encyclopedia of Linguistics. Oxford: Oxford University Press. Vol 1 pp. 367-371
EDWARDS, J.A. (1992) “Design principles in the transcription of spoken discourse” in SVARTVIK, J.
(Ed.) Directions in Corpus Linguistics. Proceedings of Nobel Symposium 82. Stockholm, 4-8 August, 1991.
Berlin: Mouton de Gruyter. pp. 129-147
EDWARDS, J.A. (1993) “Principles and Contrasting Systems of Discourse Transcription”, in EDWARDS,
J.A.- LAMPERT, M.D. (Eds.) Talking Data: Transcription and Coding in Discourse Research. Hillsdale,
N.J.: Lawrence Erlbaum Associates. pp. 3-32
EDWARDS, J.A. (1995) “Principles and alternative systems in the transcription, coding and mark-up of
spoken discourse”, in LEECH, G.- MYERS, G.- THOMAS, J. (Eds) Spoken English on Computer:
Transcription, Markup and Applications. Harlow: Longman. pp. 19-34
EHLICH, K. (1993) “HIAT: A Transcription System for Discourse Data”, in EDWARDS, J.A.- LAMPERT,
M.D. (Eds) Talking Data: Transcription and Coding in Discourse Research. Hillsdale, N.J.: Lawrence
Erlbaum Associates. pp. 123-148
EISEN, B. (1993) “Reliability of speech segmentation and labelling at different levels of transcription”
in Eurospeech'93. 3rd European Conference on Speech Communication and Technology. Berlin, Germany,
21-23 September 1993. Vol. 1 pp. 673-676
ENRÍQUEZ, E. (1991) “El problema de las ambigüedades fonéticas y su tratamiento automático”, Boletín de
la Real Academia de la Lengua Española LXXI, XXLII: 157-183
ESLING, J.H. (1990) “Computer Coding of the IPA: Supplementary Report”, Journal of the International
Phonetic Association 20,1: 22-26
ESLING, J.H. (1988) “Computer coding of IPA symbols and detailed phonetic representations of computer
databases”, Journal of the International Phonetic Association18,2: 99-106
ESLING, J.H.- GAYLORD, H. (1993) “Computer Codes for Phonetic Symbols”, Journal of the International
Phonetic Association 23,2: 77-82
EUROSPEECH (1991) Eurospeech'91. 2nd European Conference on Speech Communication and
Technology. Genova, Italy, 24-26 September 1991.3 vols
EUROSPEECH (1993) Eurospeech'93. 3rd European Conference on Speech Communication and
Technology. Berlin, Germany, 21-23 September 1993. 3 vols.
EUROSPEECH (1995) Eurospeech'95. Proceedings of the 4th European Conference on Speech
Communication and Technology. Madrid, Spain, 18-21 September, 1995. 3 vols.
FOURCIN, A.- DOLMAZON, J.M. (on behalf of the SAM Project) (1991) “Speech knowledge, standards
and assessment”, in Actes du XIIème Congrès International des Sciences Phonétiques. 19-24 août 1991, Aix-
en-Provence, France. Aix-en-Provence: Université de Provence, Service des Publications. Vol 5 pp. 430-433.
FOURCIN, A.- HARLAND, G.- BARRY, W. - HAZAN, V (Eds.) (1989) Speech Input and Output
Assessment. Multilingual Methods and Standards. Chichester: Ellis Horwood Ltd.
FRENCH, J.P. (1991) Updated notes for soundprint transcribers. Working paper, University of Birmingham,
October 1991, NERC-WP4-47
FRENCH, J.P. (1992) Transcription proposals: multilevel system. Working paper, University of Birmingham,
October 1992. NERC-WP4-50
GARRIDO ALMIÑANA, J.M. (1996) Modelling Spanish Intonation for Text-to-Speech Applications. Ph.D.
Thesis. Departament de Filologia Espanyola, Facultat de Lletres, Universitat Autònoma de Barcelona. 2 vols.
URL: http://liceu.uab.cat/juanma/ tesis.html
GIBBON, D. (1989) Survey of Prosodic Labelling for EC Languages. SAM-UBI-1/90, 12 February 1989;
Report e.6, in ESPRIT 2589 (SAM) Interim Report, Year 1. Ref. SAM-UCL G002. University College
London, February 1990.
GOLDFARB, C.F. (1990) The SGML Handbook. Oxford: Clarendon Press
GOLDMAN-EISLER, F. (1972) “Pauses, Clauses, Sentences”, Language and Speech 15: 103-113.
GRØNNUM THORSEN, N. (1987) “Suprasegmental transcription”, ARIPUC - Annual Report of the Institute
of Phonetics University of Copenhagen 21: 1-27
GUMPERZ, J.J.- BERENZ, N. (1993) “Transcribing Conversational Exchanges”, in EDWARDS, J.A.-
LAMPERT, M.D. (Eds) Talking Data: Transcription and Coding in Discourse Research. Hillsdale, N.J.:
Lawrence Erlbaum Associates. pp. 91-122
HALLIDAY, M.A.K. (1985) An Introduction to Functional Grammar. London: Edward Arnold, 1993.
HESS, W.- KOHLER, K.- TILLMANN, H.G. (1995) “The PhonDat-Verbmobil Speech Corpus” ,
in Eurospeech'95. Proceedings of the 4th European Conference on Speech Communication and Speech
Technology. Madrid, Spain, 18-21 September, 1995. Vol 1, pp. 863-866
HIERONYMUS, J.L. (1994) ASCII phonetic symbols for the world's languages: Worldbet. AT&T Bell
Laboratories, Technical Memo.
HIRST, D. - DI CRISTO, A.- ESPESSER, R. (en prensa) “Levels of representation and levels of analysis for
intonation”, in HORNE, M. (Ed.) Prosody: Theory and Experiments. Dordrecht: Kluwer.
HIRST, D.J. (1994) “The symbolic coding of fundamental frequency curves: from acoustics to phonology”, in
FUJISAKI, H. (Ed.) Proceedings of International Symposium on Prosody. Satellite Workshop of ICLSP94,
Yokohama, September, 1994.
HIRST, D.J. - DI CRISTO, A.- LE BESNERAIS, M.- NAJIM, Z.- NICOLAS, P.- ROMÉAS, P. (1993)
“Multilingual modelling of intonation patterns”, in HOUSE, D.- TOUATI, P. (Eds) Proceedings of an ESCA
Workshop on Prosody. September 27-29, 1993, Lund, Sweden. Lund University Department of Linguistics
and Phonetics, Working Papers 41. pp. 204-207
HIRST, D.J.(1991) “Intonation models: towards a third generation”, in Actes du XIIème Congrès
International des Sciences Phonétiques, 19-24 août 1991, Aix-en-Provence, France. Aix-en-Provence,
Université de Provence, Service des Publications, Vol 1 pp. 305-310
HIRST, D.J.- DI CRISTO, A. (en prensa) “A survey of intonation systems” in HIRST, D. - DI CRISTO, A.
(Eds.) Intonation Systems. A Survey of 20 Languages.Cambridge: Cambridge University Press.
HIRST, D.J.- IDE, N. - VÉRONIS, J. (1994) “Coding fundamental frequency patterns for multi-lingual
synthesis with INTSINT in the MULTEXT project”, in Conference Proceedings of the Second ESCA/IEEE
Workshop on Speech Synthesis. September 12-15, 1994. Mohonk Mountain House, New Paltz, New York,
USA. pp. 77-80
IDE, N.- VÉRONIS, J. (Eds.) (1995) The Text Encoding Initiative: Background and Contexts. Computers and
the Humanities 29, 1-3. Publicado en forma de libro en: Dordrecht: Kluwer Academic Publishers.
INSTITUTO CERVANTES (1996) Informe sobre recursos lingüísticos para el español (II): Corpus escritos
y orales disponibles y en desarrollo en España. Alcalá de Henares: Observatorio Español de Industrias de la
lengua, Instituto Cervantes.
IPA (1989) “The IPA 1989 Kiel Convention Workgroup 9 report: Computer Coding of IPA symbols and
Computer Representation of Individual Languages”, Journal of the International Phonetic Association 19,2:
81-92
IPA (1993) “IPA Chart, revised to 1993”, Journal of the International Phonetic Association 23,1.
URL: http://www.internationalphoneticassociation.org/content/ipa-chart
IPA (1995) Preview of the IPA Handbook, Journal of the International Phonetic Association 25,1.
ISO 8879 (1986) Information Processing. Text and Office Systems. Standard Generalized Markup Language
(SGML). Geneva: International Organization for Standardization.
JOHANSSON, S. (1995a) “The approach of the Text Encoding Initiative to the encoding of spoken
discourse”, in LEECH, G.- MYERS, G.- THOMAS, J. (Eds.) Spoken English on Computer: Transcription,
Markup and Applications. Harlow: Longman. pp. 82-98
JOHANSSON, S. (1995b) “The Encoding of Spoken Texts”, Computers and the Humanities 29,1: 149-158;
in IDE, N.- VÉRONIS, J. (Eds) (1995) The Text Encoding Initiative. Background and Context. Dordrecht:
Kluwer Academic Publishers. pp. 149-158.
KEATING, P.- MacEACHERN, P.- SHRYOCK, A.- DOMÍNGUEZ, S. (1994) “A manual for phonetic
transcription: Segmentation and labelling of words in spontaneous speech”, UCLA Working Papers in
Phonetics 88: 91-120.
KLUGER-KRUSE, M. (1987) Computer Phonetic Alphabet. ESPRIT Linguistic Analysis of the European
Languages. Report BU-CPA0267, July, 1987.
LANDER, T. (1997) The CSLU Labeling Guide. Center for Spoken Language Understanding, Oregon
Graduate Institute.
LEHISTE, I. (1979) “Perception of Sentence and Paragraph Boundaries”, in LINDBLOM, B. - ÖHMAN, S.
(Eds.) (1979) Frontiers of Speech Communication Research. London: Academic Press. pp. 191-201.
LEÓN HURTADO, L. (1994) “Transcripción fonética asistida por ordenador”, in ALVAR EZQUERRA, M.-
VILLENA PONSODA, J.A. (Coord.) Estudios para un corpus del español. Málaga: Universidad de Málaga.
pp. 145-185
LEÓN HURTADO, L.- SÁNCHEZ SÁEZ, J.M. (1996) “Bases para el diseño de un transcriptor fonético a
partir de textos orales transliterados”, in LUQUE DURÁN, J. de D.- PAMIES BERTRÁN, A. (Eds.) Actas
del Primer Simposio de Historiografía Lingüística. Granada, 1996. Granada: Método Ediciones. pp. 113-122.
LÉON, P.- MARTIN, P. (1970) Prolegomènes à l'étude des structures intonatives. Montréal: Didier (Studia
Phonetica 2).
LLISTERRI, J. (1994) Prosody Encoding Survey. WP 1 Specifications and Standards. T1.5. Markup
Specifications. Deliverable 1.5.3. Final version, 15 September 1994. LRE Project 62-050 MULTEXT.
URL: http://aune.lpl.univ-aix.fr/projects/multext/CES/CES1.html
LLISTERRI, J. (Ed.) (1996) Prosody Tools Efficiency and Failures. WP 4 Corpus. T4.6 Speech Markup and
Validation. Deliverable 4.5.2. Final version. 15 October 1996. LRE Project 62-050 MULTEXT.
MacWHINNEY, B. (1991) The CHILDES Project: Tools for Analyzing Talk. Hillsdale, N.J.: Lawrence
Erlbaum.
MARCHAL, A.- NGUYEN, N.- HARDCASTLE, W. (1995) “Multitiered phonetic approach to speech
labelling”, in SORIN, C.- MARIANI, J.- MELONI, H.- SCHOENTGEN, J. (Eds.) Levels in Speech
Communication. Relations and Interactions. A Tribute to Max Wajskop / Hommage à Max Wajskop.
Amsterdam: Elsevier Science B.V. pp. 149-158
MARCOS MARÍN, F. (1991) “Corpus lingüístico de referencia de la lengua española”, Boletín de la
Academia Argentina de Letras 56: 129-155
MARCOS MARÍN, F.- BALLESTER, A.- SANTAMARÍA, C. (1993) “Transcription Conventions used for
the Corpus of Spoken Contemporary Spanish”, Literary & Linguistic Computing 8, 4: 283-292
MARCOS MARÍN, F.- ZUMÁRRAGA, V. (1991) “El corpus de referencia de la lengua española”, Razón y
Fe 223/1, 109, Marzo 1991: 285-293
MARIÑO, J.B. - LLISTERRI, J. (1993) Spanish adaptation of SAMPA and automatic phonetic transcription.
SAM-A/UPC/001/v1 20th April 1993. ESPRIT PROJECT 6819 (SAM-A Speech Technology Assessment in
Multilingual Applications).
MARTÍ, J.- NIÑEROLA, D. (1987) “SINCAS: un conversor texto-voz en castellano”, Procesamiento del
Lenguaje Natural, Boletín nº 5: 111-122.
MARTÍNEZ, M. - PARDO, J.M.- BORRAJO, A.- SANTOS, A.- BARRIO, C.L.- MUÑOZ, E.- QUILIS, A.
(1986) “Conversión automática texto-habla y su relación con el procesamiento del lenguaje natural” in C.
MARTÍN VIDE (Ed) Lenguajes naturales y lenguajes formales I. Barcelona: Universitat de Barcelona pp.
366-375.
MORENO, A.- POCH, D.- BONAFONTE, A.- LLEIDA, E.- LLISTERRI, J.- MARIÑO, J.B.- NADEU, C.
(1993) “ALBAYZIN Speech Database: Design of the Phonetic Corpus”, in Eurospeech'93. 3rd European
Conference on Speech Communication and Technology. Berlin, Germany, 21-23 September 1993. Vol. 1 pp.
175-178
NELSON, G. (1995) “The International Corpus of English: mark-up for spoken language”, in LEECH, G.-
MYERS, G.- THOMAS, J. (Eds) Spoken English on Computer: Transcription, Markup and Applications.
Harlow: Longman. pp. 220-223
NERC (1994) NERC-1. Network of European Reference Corpora. Final Report. Pisa: Instituto di Linguistica
Computazionale - CNR. January 1994; versión en curso de publicación: CALZOLARI, N.- BAKER, M.-
KRUYT, P.G. (Eds) Towards a Network of European Reference Corpora. Pisa: Giardini.
NICOLAS, P.- HIRST, D. (1995) “Symbolic coding of Higher-Level Characteristics of Fundamental
Frequency Curves”, in Eurospeech'95. Proceedings of the 4th European Conference on Speech
Communication and Technology. Madrid, Spain, 18-21 September, 1995. Vol 2, pp. 989-992.
O'CONNELL, D.C.- KOWAL, S. (1994) “Some Current Transcription Systems for Spoken Discourse: A
critical Analysis”, Pragmatics 4: 81-107
OCHS, E. (1979) “Transcription as Theory”, in OCHS, E.- SCHIEFFELIN, B.B. (Eds.)
(1979) Developmental Pragmatics. New York: Academic Press. pp. 43-72
PARDO, J.M.- ENRÍQUEZ, E.- AGUILERA, S.- SANTOS, A.- QUILIS, A. (1992) “Tecnología del habla
para siete idiomas: El proyecto ESPRIT Polyglot-I”, Boletín de la Sociedad Española para el Procesamiento
del Lenguaje Natural 12
PAYNE, J. (1992) Report on the compatibility of JP French's spoken corpus transcription conventions with
the TEI guidelines for transcription of spoken texts. Working paper, COBUILD Birmingham and IDS
Mannheim. December 1992, NERC-WP8/WP4-122
PAYNE, J. (1995) “The COBUILD spoken corpus: transcription conventions”, in LEECH, G.- MYERS, G.-
THOMAS, J. (Eds) Spoken English on Computer: Transcription, Markup and Applications. Harlow:
Longman. pp. 203-207
PAYRATÓ, L. (1995) “Transcripción del discurso coloquial”, in CORTÉS RODRÍGUEZ, L. (Ed.) El
español coloquial. Actas del I Simposio sobre Análisis del Discurso Oral. Almería, 23-25 de noviembre de
1994. Almería: Universidad de Almería, Servicio de Publicaciones. pp. 43-70
PEPPÉ, S. (1995) “The Survey of English Usage and the London-Lund Corpus: computerizing manual
prosodic transcription”, in LEECH, G.- MYERS, G.- THOMAS, J. (Eds) Spoken English on Computer:
Transcription, Markup and Applications. Harlow: Longman. pp.187-202
PÉREZ GUTIÉRREZ, J.A.- GUERRERO PÉREZ, J.L. (1993) “Transfon: transcriptor fonético para el
castellano” in MARTÍN VIDE, C. (Ed) Lenguajes Naturales y Lenguajes Formales IX. Actas del IX
Congreso de Lenguajes Naturales y Lenguajes Formales, Reus, 20-22 de diciembre de 1993. Barcelona: PPU.
pp. 227-236
PÉREZ, J.C.- VIDAL, E. (1991) “Un sistema de conversión de texto a voz para el castellano”, Boletín de la
Sociedad Española para el Procesamiento del Lenguaje Natural 11: 197-208.
PIERREHUMBERT, J. B.(1980) The Phonology and Phonetics of English Intonation. PhD Thesis,
Department of Linguistics, MIT. Bloomington: Indiana University Linguistics Club, 1987.
PINO, M. (1997) Transcripción, codificación y almacenamiento de los textos orales del corpus CREA.
Versión 1.2. Informe interno. Madrid: Instituto de Lexicografía, Real Academia Española.
PITRELLI, J. - BECKMAN, M. - HIRSCHBERG, J. (1994) “Evaluation of prosodic transcription labelling
reliability in the ToBI framework”, in Proceedings of the Third International Conference on Spoken
Language Processing, Yokohama, ICSLP, Vol. 2. pp. 123-126.
PULLUM, G.K.- LADUSAW, W.A. (1986) Phonetic Symbol Guide. Chicago: The University of Chicago
Press. 2nd. edition, 1996.
RFE (1915) “Alfabeto fonético de la RFE”, Revista de Filología Española II: 374-376.
RÍOS MESTRE, A. (1993) “La información lingüística en la transcripción fonética automática del
español”, Boletín de la Sociedad Española para el Procesamiento del Lenguaje Natural 13: 381-387
RÍOS, A. (1994) “El contenido fónico en el Sistema de Diccionarios Electrónicos del Español”, in
LLISTERRI, J.- POCH, D. (Eds.) Actas del XII Congreso Nacional de la Asociación Española de Lingüística
Aplicada. Nuevos Horizontes de la Lingüística Aplicada. Barcelona, 20-22 de abril de 1994. pp. 333-340.
ROACH, P.- ROACH, H.- DEW, A.- ROWLANDS, P. (1990) “Phonetic analysis and the automatic
segmentation and labeling of speech sounds”, Journal of the International Phonetic Association 20,1: 15-21
RODRÍGUEZ CRESPO, M.A.- ESCALADA SARDINA, J.G.- MACARRÓN LARUMBE, A.- MONZÓN
SERRANO, L. (1993) “AMIGO: Un conversor texto-voz para el español”, Boletín de la Sociedad Española
para el Procesamiento del Lenguaje Natural 13: 389-400
SCHMIDT, M.S. -SCOTT, C.- JACK, M.A. (1993) “Phonetic transcription standards for European names
(ONOMASTICA)” in Eurospeech'93. 3rd European Conference on Speech Communication and Technology.
Berlin, Germany, 21-23 September 1993. Vol. 1 pp. 279-282
SCHUETZE-COBURN, S. (1991) “Units of intonation in discourse: a comparison of acoustic and auditory
analysis”, Language and Speech 34,3: 207-234
SELTING, M. (1987) “Descriptive categories for the auditive analysis of intonation in conversation”, Journal
of Pragmatics 11: 777-791
SELTING, M. (1988) “The role of intonation in the organisation of repair and problem handling sequences in
conversation”, Journal of Pragmatics 12: 293-322.
SENIA, F.- van VELDEN, J.G. (1997) Specifications of orthographic transcription and lexicon
conventions. LRE-4001 SpeechDat Technical Report SD1.3.2, Final version, 10 January 1997.
URL: http://www.speechdat.org/SpeechDat.html
SILVERMAN, K.- BECKMAN, M.- PITRELLI, J.- OSTENDORF, M.- WIGHTMAN, C.- PRICE, P.-
PIERREHUMBERT, J.- HIRSCHBERG, J. (1992) “TOBI: A standard for labelling English
prosody”, Proceedings of the Second International Conference on Spoken Language Processing, ICSLP-92.
Banff, October 1992. pp. 867-870
SINCLAIR, J. (1994) “Spoken Language” [3B] ,“Phonetic/Phonemic and Prosodic Annotation” [5.2], in
NERC (1994) NERC-1 Network of European Reference Corpora, Final Report.Pisa; versión en curso de
publicación: CALZOLARI, N.- BAKER, M.- KRUYT, P.G. (Eds.) Towards a Network of European
Reference Corpora. Pisa: Giardini.
SINCLAIR, J. (1995) “From theory to practice”, in LEECH, G.- MYERS, G.- THOMAS, J. (Eds.) Spoken
English on Computer: Transcription, Markup and Applications. Harlow: Longman. pp. 99- 112
SINCLAIR, J. (Ed.) (1987) Looking Up, An Account of the Cobuild Project. London: Collins.
SPERBERG-McQUEEN, C.M.- BURNARD, L. (Eds) (1994) Guidelines for Electronic Text Encoding and
Interchange. TEI P3. Chicago and Oxford: Association for Computational Linguistics / Association for
Computers and the Humanities / Association for Literary and Linguistic Computing. [Cap. 11: Transcriptions
of Speech] URL: http://etext.lib.virginia.edu/standards/tei/teip4/index.html
STENSTRÖM, A.-B. (1994) An Introduction to Spoken Interaction. London - New York: Longman
(Learning about Language).
STRANGERT, E.- HELDNER, M. (1995) “Labelling of boundaries and prominences by phonetically
experienced and non-experienced transcribers”, Phonum 3, Reports from the Department of Phonetics, Umeå
University: 85-109.
TANNEN, D. (1984) Conversational Style: Analyzing Talk about Friends. Norwood, N.J.: Ablex
TEUBERT, W. (1993) Phonetic / Phonemic and Prosodic Annotation. Final Report, IDS Mannheim.
February 1993. NERC-WP8-171
' T HART, J.- COLLIER, R.- COHEN, A. (1990) A Perceptual Study of Intonation. An Experimental -
Phonetic Approach to Intonation. Cambridge: Cambridge University Press. (Cambridge Studies in Speech
Science and Communication)
TILLMANN, H.G.- POMPINO-MARSCHALL, B. (1993) “Theoretical Principles Concerning Segmentation,
Labelling Strategies and Levels of Categorical Annotation for Spoken Language Database Systems”,
in Eurospeech'93. 3rd European Conference on Speech Communication and Technology. Berlin, Germany,
21-23 September 1993. Vol. 3 pp. 1691-1694
TRANCOSO, I. (1995) “The ONOMASTICA Interlanguage Pronunciation Lexicon”, in Eurospeech'95.
Proceedings of the 4th European Conference on Speech Communication and Technology. Madrid, Spain, 18-
21 September, 1995. Vol 1, pp. 829-832.
TUSÓN VALLS, A. (1995) Anàlisi de la conversa. Barcelona: Empúries (Biblioteca Universal Empúries, 73)
Van HERWIJNEN, E. (1994) Practical SGML. Boston: Kluwer
VILLENA PONSODA, J.A. (1994) “Pautas y procedimientos de representación del corpus oral de la
Universidad de Málaga. Informe preliminar”, in ALVAR EZQUERRA, M.- VILLENA PONSODA, J.A.
(Coord) Estudios para un corpus del español. Málaga: Universidad de Málaga. pp. 73-102
WELLS, J.C. (1987) “Computer Coded Phonetic Transcription”, Journal of the International Phonetic
Association 17,2: 94-114.
WELLS, J.C. (1989) “Computer-coded phonemic notation of individual languages of the European
Community”, Journal of the International Phonetic Association 19,1: 31-54
WELLS, J.C. (1994) “Computer-coding the IPA: a proposed extension of SAMPA”, Speech, Hearing and
Language, Work in Progress, 1994 (University College London, Department of Phonetics and Linguistics) 8:
271-289
WELLS, J.C. (1995) SAMPROSA (SAM Prosodic Transcription).
URL: http://www.phon.ucl.ac.uk/home/sampa/samprosa.htm
WELLS, J.C.- BARRY, W.- GRICE, M.- FOURCIN, A.- GIBBON, D. (1992) Standard Computer-
Compatible Transcription. SAM Stage Report Sen.3 SAM UCL-037, 28 February 1992. In SAM (1992)
ESPRIT PROJECT 2589 (SAM) Multilingual Speech Input/Output Assessment,Methodology and
Standardisation. Final Report. Year Three: 1.III.91-28.II.1992. London: University College London.
WESENICK, M.-B.- SCHIEL, F. (1995) Feasibility of Automatic Annotation and Building Pronunciation
Lexica from Corpus Material. LRE-63314 SpeechDat, Report D3.1.2.3., Final version, 10 October 1995.
URL: http://www.speechdat.org/
WINSKI, R. - MOORE, R.- GIBBON, D. (1995) “EAGLES Spoken Language Working Group: Overview
and Results”, in Eurospeech'95. Proceedings of the 4th European Conference on Speech Communication and
Speech Technology. Madrid, Spain, 18-21 September, 1995. Vol 1, pp. 841-844.
Etiquetado, transcripción y codificación de corpus orales
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona
http://liceu.uab.cat/~joaquim/publicacions/FDS97.html Last updated: 15/07/97
This work is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 3.0 License.