Upload
antonio-sandoval-larrain
View
21
Download
2
Embed Size (px)
Citation preview
UNIVERSIDAD PONTIFICIA DE SALAMANCA CAMPUS DE MADRID ESPAA
WEB SEMANTICA
ARTICULO: SISTEMAS BASADOS EN VOZ UTILIZANDO VOICEXML
Autor: Ing. Carlos Alvarado Quintana Doctorando de Ingeniera Informtica
Programa de Ingeniera de Software
Agosto, 2006
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page2
INDICE
RESUMEN 3
I. INTRODUCCION 4
1.1. Enunciado del Problema 4
1.2. Delimitacin del Estudio 4
1.3. Tesis 4
II. MARCO TEORICO
2.1 Definiciones del estndar VoiceXML 5
2.2 Referencias W3C respecto a VoiceXML 12
2.3 Aplicaciones 15
2.4 Otros conceptos relativos a Voice XML y Web Semantica 17
III. SISTEMAS BASADOS EN VOZ
3.1 Aportes de VoiceXML a los Sistemas Basados en Voz 18
3.2 Ejemplos de Cdigo VoiceXML 23
CONCLUSIONES 25
BIBLIOGRAFA 28
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page3
RESUMEN VoiceXML es una especificacin propuesta por la W3C que tiene como objetivo
crear archivos XML, llamados documentos, que puedan reproducir sonido
digitalizado, sonido sintetizado usando la tecnologa TTS, reconocer informacin
ingresada por el usuario (tonos DTMF) y reconocer palabra y/o frases
pronunciadas por una persona, todo esto usando un dispositivo telefnico
(telfono clsico, celular o cualquier otra variante).
VoiceXML esta basado completamente en XML, es decir necesita que el
documento VoiceXML bien estructurado para que pueda ser reconocido como
correcto. Esto no ocurre con HTML, pero s con XHTML.
Actualmente esta especificacin se encuentra en la versin 2.1 la cual ha recibido
el estado de "Recomendado" por parte de la W3C, faltndole muy poco para ser
declarada oficialmente como estndar, aunque en estos momentos ya es un
estndar "de facto" y crea una serie de ventajas significativas en los desarrollos
basados en web, entrega de contenidos para las aplicaciones interactivos en
respuesta a la voz.
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page4
I. INTRODUCCIN
Estos estndares evolucionan a travs de un proceso de maduracin
conducido por los principios de pragmatismo y eficacia. Entre los ejemplos
que resultan familiares para todos se incluyen HTTP, HTML, WAP, TCP/IP,
XML, y VoiceXML. Normalmente son realizados por ingenieros de software
de varias compaas que colaboran bajo los auspicios de organizaciones
como W3C, OASIS, OMA, ISO e IETF.
Voice Extensible Markup Language (VoiceXML o VXML). Es una
especificacin propuesta por la W3C que tiene como objetivo crear archivos
XML, llamados documentos, que puedan reproducir sonido digitalizado,
sonido sintetizado usando la tecnologa TTS(1), reconocer informacin
ingresada por el usuario (tonos DTMF(2)) y reconocer palabra y/o frases
pronunciadas por una persona, todo esto usando un dispositivo telefnico
(telfono clsico, celular o cualquier otra variante) VoiceXML esta basado
completamente en XML.
1.1. Enunciado del Problema .
El aporte de la tecnologa VoiceXML en los sistemas basados en voz
dirigindola especficamente en el mbito de la web semntica.
1.2. Delimitaciones del Estudio. El Estudio estar limitado al mbito de la especificacin del VoiceXML por
W3C como estndar de XML para Aplicaciones de Web Semntica,
actualmente en la versin 2.0. y en proceso de Aprobacin la versin 2.1.
1.3. Tesis Anlisis de la Norma W3C de VoiceXML 3.0 como aporte a los sistemas basados en voz
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page5
II. MARCO TEORICO 2.1 Definiciones del estndar VoiceXML
Los orgenes de VoiceXML empezaron en 1995 como un lenguaje diseado
de dialogo basado en XML buscando simplificar los procesos de desarrollo
de aplicaciones de reconocimiento de voz, fue un proyecto de AT&T
llamado Phone Markup Language (PML). Como AT&T reorganizado, los
grupos de AT&T, Lucent y Motorola continuaron trabajando en sus propios
lenguajes PML.
En 1998, W3C realizo una conferencia sobre browsers de voz. Para este
tiempo, AT&T y Lucent tenan variantes significativas de sus PML
originales, mientras Motorola haba desarrollado VoxML e IBM estaba
desarrollando su propio SpeechML. Muchos otros participantes de la
conferencia estuvieron tambin haciendo desarrollos similares de lenguajes
para el diseos de dilogos; por ejemplo, HP's TalkML and PipeBeach's
VoiceHTML.
Luego AT&T, IBM, Lucent, y Motorola formaron el Foro de VoiceXML para
agrupar sus esfuerzos. La misin del Foro fue definir un estndar de diseo
de lenguajes de dialogo para que los desarrolladores puedan usarlo para
construir sus aplicaciones de dilogos. Ellos escogieron XML como el
lenguaje bsico para estos esfuerzos porque es sencillo para todos, se
adapta y va en concordancia con los cambios tecnolgicos.
En el ao 2000, el Foro de VoiceXML libero al publico la versin 1.0 de
VoiceXML. Shortly thereafter, VoiceXML 1.0 fue sometido por W3C como la
base para la creacin de un Nuevo estndar internacional. VoiceXML 2.0 es
el resultado de este trabajo a travs de la colaboracin de compaas
miembros de W3C, otros grupos de trabajo de W3C, y el publico en general,
en especial desarrolladores independientes. Actualmente se esta
trabajando en la aprobacin de la versin 2.1
(http://www.w3.org/TR/2005/CR-voicexml21-20050613/), y el desarrollo de
VoiceXML Versin 3.0 (http://www.w3c.es/Prensa/2005/nota051206_ssml).
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page6
VoiceXML es un lenguaje de etiquetas que sigue las reglas sintcticas de
XML con reglas semnticas que permiten la creacin de aplicaciones de
voz. VoiceXML se puede utilizar para crear pginas tanto estticas como
dinmicas ya que, al igual que HTML, se puede embeber en programas
escritos en lenguajes de programacin como Java o C#. Se trata de un
lenguaje que permite la comunicacin entre el hombre y la mquina de
forma hablada, es decir, es posible, por ejemplo, acceder a Internet usando
simplemente la voz. No es necesario mencionar el gran avance que esto
supondra para las personas invidentes; podran acceder a gran parte de la
informacin de Internet sin que su discapacidad supusiese un impedimento
para ello. Para poder describir como funciona podemos guiarnos del
siguiente grfico:
Figura 1. Arquitectura VoiceXML
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page7
De esta figura podemos obtener los siguientes enunciados:
APPLICATION HOSTING ENVIROMENT
Llamado tambin "Document Server". Es un ambiente que genera
dinmicamente documentos VoiceXML. Bsicamente esta compuesto por 3
componentes.
1. Web Server: Servidor Web que recibe HTTP Request y enva HTTP
Response con un documento VoiceXML.
2. Application Server: Servidor de aplicaciones que mantiene una lgica de negocio que sobre la base de los parmetros enviados por el Web
Server genera documentos VoiceXML.
3. Database: Base de Datos de la cual se obtiene informacin para generar los documentos VoiceXML
VOICEXML INTERPRETER
Aplicacin que recibe un documento VoiceXML y lo interpreta, es decir
procesa las etiquetas que dicho documento contiene.
VOICEXML INTERPRETER CONTEXT
Modulo del VoiceXML Interpreter que monitorea las posibles actividades
que los usuarios realizan mientras se esta interpretando un documento
VoiceXML, por ejemplo el usuario podra presionar desconectarse (colgar el
telfono), lo generara que cancelacin de la interpretacin del documento.
IMPLEMENTATION PLATFORM
Este componente viene a ser el Browser en si, pues cada empresa puede
desarrollar su propio VoiceXML Browser el cual aparte de interpretar un
documento VoiceXML puede implementar mecanismos de cache,
procesamiento de llamadas telefnicas, etc.
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page8
Estos son los componentes generales de la arquitectura de VoiceXML, sin
embargo hay empresas que desarrollan VoiceXML Browsers y le adicionan
funcionalidades no detalladas en la especificacin, lo cual no ocurre solo
con VoiceXML sino con casi todas las especificaciones.
Alcances de VoiceXML El lenguaje describe la interaccin humano-maquina entregada por
sistemas de respuesta de voz lo que incluye:
Salida de dilogos Sintetizados(text -to-speech). Salida de archivos de audio. Reconocimiento de entradas habladas. Reconocimiento de entradas DTMF. Grabacin de entradas habladas. Control de flujo de dilogos. Los rasgos de telefona tales como llamar, transferir y desconectar. EL lenguaje provee medios para recolectar caracteres y/o entradas
habladas, asignando al documento de entrada peticiones de
variables definidas, y tomando decisiones que afectan la
interpretacin de documentos escritas en el idioma. Un documento
puede unirse a otros documentos a travs de los identificadores del
Recurso Universales (URIs).
Principios de Diseo sobre VoiceXML
VoiceXML es una aplicacin de XML.
El lenguaje entrega portabilidad de servicios a travs de la abstraccin de recursos sobre tipos de plataformas.
El idioma acomoda la diversidad de la plataforma en los formatos del archivo audio soportados, formatos de gramtica hablada, y
esquemas URI. Mientras los productores de plataformas pueden soportar varios
formatos de gramticas el lenguaje requiere un formato de gramtica
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page9
comn llamado Forma XML de W3C formato de reconocimiento de
gramtica hablada, facilita la interoperabilidad. Similarmente,
mientras varios formatos de audio para escuchar y grabar pueden
ser soportados.
El lenguaje soporta fcilmente la autora para tipos comunes de interacciones.
EL lenguaje a sido definido bien semnticamente preservando el intento del autor por mantener el comportamiento de las
interacciones con el usuario.
Las heursticas del cliente no son necesarias para determinar la interpretacin de los elementos del documento.
El lenguaje posee un mecanismo de control de flujo. El lenguaje habilita la separacin de un servicio lgico de un
comportamiento interactivo.
No esta pensado para un trabajo computacional extensivo, operaciones con bases de datos, o legar operaciones al sistema.
Este asume que puede ser manejado por recursos fuera del
interprete de documentos, es decir el servidor de documentos.
Lgica de servicio general, administracin de estados, generacin de dilogos, y secuencias de dilogos son asumidas para residir fuera
del interprete de documentos.
El lenguaje entrega caminos para enlazar documentos usando URIs, y tambin enviar datos a l servidor de scripts usando URIs.
VoiceXML entrega vas para identificar exactamente que dato enviar al servidor, y cual mtodo HTTP (get o post) usar para el envi.
El lenguaje no requiere que los autores del documento especifiquen lo recursos de dialogo asignados o no asignados, o por concurrencia.
La localizacin de recursos e hilos de control pueden ser manejados
por la implementacin de plataformas.
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page10
Requisitos de la Plataforma Esta seccin perfila los requisitos en las plataformas del hardware /
software que apoyarn a un intrprete de VoiceXML.
Adquisicin de Documentos. Se espera que el interprete de contexto adquiera documentos para que el interprete de VOICEXML acte. EL
protocolo URI de http debe ser soportado. En algunos casos, el
documento requerido es generado por la interpretacin de documentos
de VOICEXML, mientras otras peticiones son generadas por el
interprete de contexto en respuesta a los eventos fuera del alcance del
lenguaje, por ejemplo una llamada entrante. Cuando los emisores de
peticin de documentos son va http, e interprete de contexto se
identifica a si mismo como "User-Agent" variable de encabezado con el
valor "/", por ejemplo, "acmebrowser/1.2"
Salida de Audio. La implementacin de la plataforma debe soportar salida de audio usando archivos y text -to-speech (TTS). La plataforma
debe ser capaz de hacer secuencias libremente TTS y salidas en
formato audio. Los archivos de audio son referidos por una URL. El
lenguaje especifica los requerimientos de formatos de archivos de que
sern soportados (ver apndice A) formatos de archivos de audio
adicionales tambin pueden ser soportados
Entrada de Audio. La implementacin de la plataforma es requerida para detectar y reportar caracteres y/o entradas habladas
simultneamente y el control de la deteccin de la duracin del intervalo
de entrada con un cronmetro cuya longitud es especificada por un
documento de VOICEXML.
En la mayora de los reportes por caracteres (por ejemplo, DTMF)
ingresados por el usuario. Las Plataformas deberan soportar el formato
de gramtica descrito en Forma XML de W3C formato de
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page11
reconocimiento de gramtica hablada. Tambin debera soportar el
formato de gramtica descrito en Forma aumentada BNF forma XML de
W3C formato de reconocimiento de gramtica hablada .
Debe ser capaz de recibir dinmicamente datos de gramtica de
reconocimiento de dilogos.
Debe ser capaz de usar datos de gramtica de dialogo en forma XML de
W3C formato de reconocimiento de gramtica hablada .
Tambin debe ser capaz recibir datos de gramticas de reconocimiento
de dilogos Forma aumentada BNF forma XML de W3C formato de
reconocimiento de gramtica hablada, y puede soportar otros formatos
como el formato de gramtica jspeech o formatos propietarios. Algunos
elementos VoiceXML Contienen Datos de gramtica de dialogo; otros
refieren a daos de gramtica de dilogos a travs de una URI. EL
reconocimiento de dilogos debe ser capaz de acomodar
actualizaciones dinmicas de los dilogos de entrada por el cual esta
escuchando a travs de un mtodo especificado de datos de gramtica
de dilogos. Tambin debe ser capaz de grabar el audio recibido desde
el usuario. La implementacin de la plataforma debe ser capaz de crear
la grabacin disponible a una variable request.
Transferencia. La plataforma debe ser capaz de suportar la creacin de una conexin compartida a travs de una red de
comunicacin, como el telfono.
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page12
2.2 Referencias W3C respecto a VoiceXML
El W3C fue creado para guiar la Web hacia su potencial mximo mediante
el desarrollo de protocolos comunes que promuevan su evolucin y
garanticen la interoperabilidad. Se trata de un Consorcio de la industria
internacional gestionado conjuntamente por el Laboratorio de Ciencias de la
Computacin e Inteligencia Artificial del MIT (MIT CSAIL) en los Estados
Unidos, el Consorcio Europeo para la Investigacin en Informtica y
Matemticas (ERCIM) en Francia y la Universidad de Keio, en Japn. Los
servicios que proporciona el Consorcio incluyen un archivo de informacin
sobre el World Wide Web para desarrolladores y usuarios, y varios
prototipos y aplicaciones de ejemplo para demostrar el uso de estas nuevas
tecnologas. Hasta la fecha, ms de 400 organizaciones son Miembros del
Consorcio.
VoiceXML Versin 3.0 El W3C avanza en nuevas extensiones para las tecnologas de voz y la
Web La nueva versin de SSML incluye caractersticas de
internacionalizacin; VoiceXML 3.0 incorpora la verificacin del usuario.
El 6 de diciembre de 2005: El Consorcio World Wide Web (W3C) anunci
un nuevo trabajo sobre extensiones para componentes de la Infraestructura
de Interfaz del Habla que ampliar la funcionalidad del Lenguaje de
Etiquetado de Sntesis del Habla para lenguajes asiticos y de otros pases,
y que incluye caractersticas de verificacin del usuario en la nueva versin
3.0 de VoiceXML. Al cubrir ambas reas se expande tanto el alcance como
la funcionalidad de la infraestructura planteada por W3C.
La extensin de verificacin del usuario ser incluida en VoiceXML 3.0 Otra caracterstica que los usuarios demandan a los servicios telefnicos y
a la Web es la verificacin del usuario.
"Los robos, el fraude, el phishing, el terrorismo e incluso el alto coste de
restablecer contraseas ha aumentado el inters en proporcionar seguridad
biomtrica para todos los canales de comunicacin, incluyendo el telfono",
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page13
dijo Ken Rehor de Vocalocity que fue elegido recientemente presidente del
foro de VoiceXML, y es a su vez uno de los participantes del Grupo de
Trabajo del Navegador por Voz del W3C. "La verificacin del usuario y su
identificacin no son slo soluciones biomtricas para asegurar las
transacciones telefnicas y las comunicaciones, puede funcionar de forma
armnica con el reconocimiento de voz y la sntesis del habla en la
distribucin de VoiceXML".
Hasta ahora, la mayora de los proveedores han compensado la falta de
esta caracterstica llevando a cabo una solucin personalizada para sus
servicios. El resultado ha sido un conjunto de tecnologas divergentes que
no son interoperables. Gracias a la contribucin del Comit de Biomtrica
del Usuario del Foro de VoiceXML, el Grupo de Trabajo del Navegador por
Voz del W3C ha sido capaz de identificar las caractersticas necesarias
para un mdulo estandarizado de verificacin del habla. El Grupo de
Trabajo se encuentra actualmente tratando estos requisitos.
El Grupo de Trabajo internacionaliza SSML
El Lenguaje de Etiquetado de Sntesis del Habla (SSML), Recomendacin
del W3C desde el 2004, est diseado para proporcionar un lenguaje de
etiquetado basado en XML como apoyo a la generacin de habla sinttica
en la Web y en otras aplicaciones. El papel principal del lenguaje de
etiquetado es proporcionar a los autores de contenido sintetizable una
forma estndar para controlar aspectos del habla como son la
pronunciacin, el volumen, el todo, la frecuencia, etc. a travs de diferentes
plataformas de sntesis.
Estos atributos son esenciales, pero existen atributos adicionales que
pueden ser incluso ms importantes para idiomas concretos. Por ejemplo,
el chino mandarn, el idioma actualmente ms extendido en el mundo,
tambin tiene la singularidad de los tonos - el mismo carcter escrito puede
tener mltiples pronunciaciones y significados en funcin del tono utilizado.
Dada la profusin de telfonos mviles en China - aproximadamente ms
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page14
de un billn - la extensin de SSML para el mandarn es esencial para
poder satisfacer las necesidades del mercado. La inclusin de extensiones
para el japons, coreano y otros idiomas asegurar una mayor participacin
en la Web a nivel mundial.
En la infraestructura de Interfaz del habla del W3C, VoiceXML controla
cmo la aplicacin interacta con el usuario. Por otro lado, el Lenguaje de
Etiquetado de Sntesis del Habla (SSML) se utiliza para comandos
hablados, y la Especificacin de Gramtica de Reconocimiento del Habla
(SRGS) para guiar a los reconocedores de voz a travs de gramticas que
describen respuestas esperadas desde los usuarios.
Otras especificaciones de este entorno incluyen el Control de Llamada del
Navegador por voz (CCXML), que proporciona soporte para el control de
llamadas telefnicas para VoiceXML y otros sistemas de dilogo e
interpretacin semntica para el reconocimiento del habla (SI), que va a
definir la forma en la que las gramticas del habla se unen a semnticas de
aplicacin.
Figura 2. VoiceXML como Integrador de la Interaccin mediante Voz.
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page15
Todo esto converge en el esfuerzo que viene realizando el W3C para
desarrolla estndares que soportan diferentes modos de interaccin: auditiva, visual y tctil. Es posible acceder a la Web a travs de la voz o el
teclado, el ratn o el lpiz. Podr igualmente escuchar comandos hablados
y audio, as como ver informacin representada en grficos. Ha esta
concepcin se le conoce como la Web Multimodal.
W3C est desarrollando la Infraestructura de interaccin Multimodal con el
objetivo de:
Extender la Web permitiendo de esta forma diferentes modos de interaccin
Aumentar la interaccin de persona a ordenador y de persona a persona
Mejorar la usabilidad Web en los dispositivos mviles.
2.3 Aplicaciones de VoiceXML
Actualmente no todo el mundo posee un ordenador, por lo que carecen de
la posibilidad de acceder a Internet. Pero lo que s tiene casi todo el mundo
es un telfono, y con VoiceXML es posible el acceso a Internet desde el
telfono simplemente usando la voz. para ello el usuario realizar una
llamada al nmero que se ha asignado a la pgina, cuando se reciba esta
llamada, el navegador vocal buscar la URL en donde reside dicha pgina.
Adems el uso del telfono mvil est cada ms extendido y sus
caractersticas (son pequeos, ligeros, baratos y tienen bateras de larga
duracin) les hacen mucho ms porttiles que los ordenadores. Con el
telfono mvil se puede acceder a la informacin desde cualquier lugar y en
cualquier momento, adems puede utilizarse para aplicaciones que no es
posible llevar a cabo sobre un ordenador (como los servicios basados en
localizacin) y cada vez son ms utilizados para acceder a Internet. Por otra
parte, si tenemos en cuenta sus limitadas posibilidades ( pantallas
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page16
pequeas, reducida memoria... ) a la hora de acceder a la informacin de
Internet en modo texto, VoiceXML parece la solucin perfecta.
El acceso a Internet va voz se realiza mediante los Portales de Voz en los
que se permite interactuar automticamente con los clientes por medio de
conversin texto a voz, reconocimiento de voz y DTMF (pulsacin de
tonos). El acceso al servicio del Portal de Voz se realiza mediante una
llamada de telfono. La plataforma funciona como elemento intermediario,
estableciendo la conexin entre el usuario que realiza la llamada y el
servicio.
Pero el acceso a Internet va voz no es la nica posibilidad que ofrece el
uso de esta tecnologa, puede ser aplicada en numerosos y diversos
sectores:
Recuperacin de informacin Comercio electrnico: tiene sentido slo si el usuario ya conoce el
producto o dispone de un catlogo
Atencin al cliente Aplicaciones financieras: cotizacin de acciones, banca... Servicios telefnicos como marcacin por voz. Acceso a informacin de los conductores Acceso al correo electrnico Aplicaciones Intranet para control de inventario, realizacin de pedidos...
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page17
2.4 Otros conceptos relativos a Voice XML y Web Semantica
VoiceXML Gateway
Figura 3. Escenario de Aplicacin VoiceXML
El Gateway VoiceXML hace las funciones de navegador, aportando un nivel
de presentacin basado en la reproduccin y reconocimiento de la voz
(Voice Browser). Puede residir en un Router o RAS
Si los equipos utilizados no cuentan con capacidades de Voice Browser, o
estas son limitadas, tiene otra alternativa que es la de usar MRCP y puede
usar los servicios de sistemas ASR y TTS.
El VoiceXML GW puede interoperar con buzones de correo, servicios SIP,
H.323, etc.
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page18
Figura 4. Portabilidad de las Aplicaciones con VoiceXML Gateway
III. SISTEMAS BASADOS EN VOZ
3.1 Aportes de VoiceXML a los Sistemas Basados en Voz Caso de Telefnica Mviles de Espaa:
Telefnica I+D ha venido desarrollando, a lo largo de los ltimos aos, un
amplio abanico de servicios de voz para redes mviles que ofrecen a los
clientes nuevas prestaciones, que facilitan el acceso a informacin
relacionada con los clientes que estos desean conocer o que ofrecen
nuevas posibilidades de acceso a contenidos de informacin sin necesidad
de utilizar otro aparato que el telfono.
Con las plataformas y los servicios que han sido desarrollados por
Telefnica I+D es posible acceder a funciones que antes quedaban fuera
del alcance de los clientes, como acceder al buzn de voz personal cuando
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page19
se encuentra en el extranjero o poder recibir la notificacin de las llamadas
recibidas cuando se encuentre sin posibilidad de atenderla. Tambin es
posible conocer de forma cmoda y rpida informacin valiosa para el
cliente, como es el consumo que se ha realizado en su telfono hasta el
momento, el saldo de su tarjeta prepago, los correos electrnicos de su
cuenta personal o sus citas. Otra posibilidad que ofrecen los servicios
desarrollados es la de poder acceder desde el telfono a la informacin de
las ltimas noticias, las cotizaciones de bolsa o la cartelera de cines de una
ciudad y recibir los contenidos tanto de forma hablada como en forma de
mensaje corto.
Adems se anticipa la utilizacin del telfono en un entorno muy apropiado
para su uso, como es el automvil, con funciones de utilidad como es el
guiado hacia un destino requerido o la consulta de informacin basada en
localizacin. Ms an, se facilita la comunicacin de los clientes,
ofrecindoles servicios que permiten hacer una llamada a una persona de
su agenda vocal o comunicar con un grupo de personas. Asimismo se
anticipan servicios que integran voz y datos por medio de una tecnologa
avanzada para, por ejemplo, enviar por voz un mensaje corto. En el mbito
de la personalizacin de servicios se ha creado un servicio con el que se
permite seleccionar el saludo que un cliente coloca en su buzn de voz.
Adems, se extiende al mbito de los servicios de voz a las nuevas
terminales (como las PDAs), que abren la opcin a nuevos tipos de
servicios. Por ltimo, se proporcionan sistemas que sirven para mejorar el
nivel de servicio ofrecido por los operadores, al facilitar las pruebas y la
supervisin de sus servicios.
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page20
El desarrollo de estos servicios se ha realizado con las tecnologas y
plataformas desarrolladas por Telefnica I+D para el desarrollo de servicios:
Tecnologa del Habla. Tanto para reconocimiento de habla como para Sntesis de Voz la tecnologa de Telefnica I+D es lder para castellano,
lenguas cooficiales de Espaa y portugus de Brasil. Los servicios vocales
avanzados y los portales de voz utilizan estas tecnologas de manera
intensiva.
Plataforma Multiservicio. Se trata de una plataforma de altas prestaciones, alta disponibilidad y escalable sobre la que se despliegan los
servicios desarrollados. Esta plataforma integra la tecnologa del habla de
Telefnica I+D, adems de la de suministradores comerciales que la
complementan con otros idiomas, como ingls, francs, alemn, italiano,
etc.
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page21
Se puede llevara a cabo una clasificacin de los servicios en las siguientes
categoras:
Servicios Corporativos. Son servicios en los cuales se ofrece el servicio a
los usuarios que pertenecen a una corporacin.
Dentro de esta categora est disponible el servicio de Consulta de
Consumo para Clientes Corporativos.
Servicios de Mensajera. En estos servicios se ayuda a los clientes a
entablar comunicacin por medios alternativos al de la voz. Como ejemplo
podemos citar el servicio de Mensajera Mvil Avanzado que permite el
acceso al correo electrnico mediante la voz en diferentes idiomas.
Portales de Voz. Los contenidos, disponibles en Internet son accedidos por
voz. Dentro de los portales de voz se puede hacer una clasificacin
atendiendo al tipo de contenidos a los que se est accediendo, de acuerdo
con la presentada en la siguiente figura:
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page22
Otro aporte importante Hoy en da a los sistemas basados en voz es lo
referente a la Web Multimodal, El W3C est desarrollando la Infraestructura
de Interaccin Multimodal con el objetivo de que sirva como base para crear
aplicaciones multimodales mediante lenguajes de etiquetado, scripting,
estilos y otros recursos.
Interaccin mediante voz La interaccin a travs de la voz permite evitar las limitaciones fsicas, en lo
que se refiere a teclado y representacin grfica, que presentan los cada
vez ms pequeos dispositivos mviles. La voz proporciona una alternativa
accesible para utilizar el teclado o la pantalla. Esto adquiere gran
importancia en los coches y en otras situaciones donde es necesario que
tanto nuestras manos como nuestra vista queden libres.
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page23
3.2 Ejemplos de Cdigo de VoiceXML
Para poder entender ejemplos de cdigo primero describiremos el aspecto
de una aplicacin VoiceXML:
Una sesin VoiceXML se inicia cuando el telfono del cliente alcanza al
Gateway, en este instante se inicia la aplicacin.
Una aplicacin est constituida por un conjunto de dialog states. Por lo que
el usuario siempre se encuentra dentro de un dialog. Desde un dialog se
puede saltar a travs de un URL a otro dialog.
Hay dos tipos de dialog: forms y menus; Un form presenta y recoge informacin (voz o DTMF) y un menu presenta al usuario diferentes opciones y permite la transicin a otros dialog
Speech Synthesis Markup Language (SSML) define los aspectos relativos a
reproduccin de audio y sntesis de voz: pronunciacin, gnero, edad,
volumen, tono y nfasis.
Para el reconocimiento de voz, cada dialog emplea una Grammar. En una
Grammar se establecen las palabras y declaraciones que vlidas como
respuesta.
Tras el reconocimiento, la Grammar retorna variables a la aplicacin
VoiceXML en curso. Una Grammar puede residir como un elemento ms
dentro de la aplicacin (inline) o bien, puede ser referenciada: fichero.grxml
Speech Recognition Grammar Specification (SRGR) que es quien establece
el uso de XML como sintaxis para la programacin de Grammars.
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page24
A Continuacin Un Ejemplo de una Aplicacin VoiceXML y su Grammar
con las respuestas posibles:
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page25
Algunas consideraciones sobre la sintaxis de su codificacin: Entrada de datos: ,
Seleccionar gramticas:
Asignacin de variables: y
Reproduccin de un clip de audio:
Grabacin de la voz:
Definicin de mens: y
Condicionales y saltos: , ,, y
Anidar dilogos:
Control de la sesin: , ,
Incluir scripts ECMA/CTSA:
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page26
CONCLUSIONES
Internet condensa gran cantidad de informacin que hasta ahora slo era
accesible a travs de un navegador. Abrir paso para que todo este contenido
pueda volcarse sobre otros dispositivos es un reto que los portales de voz han
asumido y han superado, ya que ofrecen la posibilidad de obtener esta
informacin a travs de un telfono, ya sea mvil o fijo, con la movilidad,
flexibilidad y facilidad de acceso que esto supone.
El VoiceXML facilita el desarrollo de portales de voz ya que permite construir
dilogos hablados de forma sencilla, ofreciendo al usuario una forma alternativa de
interaccin. Su influencia ha sido decisiva en las nuevas aplicaciones de telefona
y el hecho de estar aprobado por el W3C, y avalado por AT&T, Lucent
Technologies, Motorola e IBM (y otras 350 empresas que en la actualidad son
miembros del Foro VoiceXML), hace que sus posibilidades de difusin sean
enormes.
Sin embargo hay que tener en cuenta que no son todo ventajas, ya que la voz no
es como un teclado, no se trata de un conjunto de tonos constantes y universales.
Siempre se producirn errores en el reconocimiento de la voz, en la comprensin
o simplemente al convertir la voz a texto. Adems a la hora de introducir datos con
la voz hay que tener en cuenta que existen gramticas que recogen las entradas
vlidas y por mucho vocabulario que abarquen estas gramticas siempre quedar
alguna que no contemple. Otro problema es la Gran variedad de lenguajes y
dialectos que existen y que dependen aun del lado usuario el de definirlo, por
ahora se sigue los esfuerzos para ampliar estos estndares a nuevos idiomas.
Pero no slo se presentan inconvenientes en el reconocimiento de la voz, sino
tambin a la hora de sintetizarla. La conversin texto a voz permite sintetizar voz a
partir de textos con una calidad muy alta, de hecho en un futuro no muy lejano se
supone que no se podr distinguir una voz sintetizada de una voz pregrabada.
Esto permite emitir por la lnea telefnica de forma natural informacin muy
variada y flexible. As, en los nuevos sistemas de respuesta telefnica automtica
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page27
el llamante puede interactuar hablando de forma natural y solicitar informacin
muy diversa mientras que el sistema responde con voz sintetizada. Pero la voz
sintetizada no es humana, eso est claro, y esto hace la comunicacin muy
impersonal, algo que no gusta a la mayora de la gente. Quin no ha dicho
alguna vez odio hablar con esta maquina?, y eso es precisamente lo que se
pretende con VoiceXML: hablar con las mquinas. Sin embargo, Se sigue
avanzando con este estndar aplicando nuevas tcnicas que nos permitan
acceder a la comunicacin plural entre hombre maquina.
Podemos concluir tambin que con la integracin del Hombre a esta gran red de
redes como es la Internet se hace cada vez mucho ms necesario poder acceder
de una manera mltiple, en este sentido la W3C sigue desarrollando esfuerzos
para la accesibilidad multimodal, El nuevo trabajo anunciado, as como los planes
sobre caractersticas adicionales para VoiceXML 3.0 en la verificacin del usuario,
constituyen hoy un momento idneo para que nuevas compaas, investigadores y
otros interesados, estn unindose al esfuerzo de W3C y participen en los ltimos
desarrollos de las tecnologas de voz y la Web.
Entre los contribuyentes potenciales estn aquellos procedentes del sector
empresarial y de la investigacin presentes por toda Asa, en las reas de idiomas
asiticos y la verificacin del usuario, para permitir la mejor especializacin en el
desarrollo de estndares que realmente cubran las necesidades de los usuarios
Web a nivel mundial.
Carlos Alvarado Quintana
www.complejocartavio.com.pe/semanticaweb/voicexml.html Nota: Se ha desarrollado una Pagina referida Al Tema en esta direccin conteniendo el trabajo desarrollado, artculos relacionados, Bibliografa, Link a paginas de referencia.
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page28
BIBLIOGRAFA
[IBM 2001] VoiceXML Programmers Guide, IBM documentation. Noviembre del 2001.
[Wiley 2002] Sharma, Chetan., VoiceXML : strategies and techniques for effective voice application development with VoiceXML 2.0 Wiley 2002.
[W3C 2002] The World Wide Web Consorcium W3C, Voice Extensible Markup Language (VoiceXML) Version 2.0 2002. http://www.w3.org/TR/2004/RECvoicexml2020040316/
[Foro 2004] VXIDiscuss. 2004. Foro de discusin sobre VoiceXML y todos los aspectos relacionados con el intrprete OpenVXI 2.0: http://www.speechinfo.org/vxi-discuss/.
[Burnett 2002] Burnett, D. C., M. R. Walker, A. Hunt. 2002. Speech Synthesis Markup Language Version 1.0. W3C Working Draft. http://www.w3.org/TR/speech-synthesis.
VoiceXML Forum (http://www.voicexml.org/) Intel Telecom Products
(http://www.intel.com/design/network/products/telecom/index.htm) Especificacin: http://www.w3.org/Voice/ http://www.voicexml.org. cVoiceXMLForum. Tutoriales: Gua a VoiceXML: http://www.w3.org/Voice/Guide/ VoiceXMLReview: http://www.voicexmlreview.org Portal sobre VoiceXML http://www.kenrehor.com/voicexml/ http://www.tellme.com Portal de Voz. Implementaciones: http://www.i6net.com Proyecto MCMS Gestion de Contenidos Multimodal http://www.intervoice.com OmviaMediaServerconexploradorcompatibleconVoiceXML2.0. http://www.fundacionucm.es/www.once.es Proyecto ONCE: Eliminacin de Barreras Mediante La Tecnologa del Habla. http://www.verbio.comAppliedTechnologiesonLanguageandSpeechS.L,http://www.softwareag.com Desarrollo de Proyectos Web Multimodal http://www1.softwareag.com/Corporate/Solutions/XML_Solutions/mobile_sol
Herramientas: http://studio.tellme.com/ Herramienta de Desarrollo sobre VoiceXML www.verbio.com Empresa ATLAS, producto basado en VoiceXML: Dialog@
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page29
Grupos de Inters
Grupo de Aplicaciones del Procesado de Seales: rea Procesamiento del Lenguaje Natural. Universidad Politcnica de Madrid. Investigador Principal: Luis A. Hernndez Gmez Persona de contacto: Luis A. Hernndez Gmez URL: http://www.gaps.ssr.upm.es/ E-mail: [email protected] Direccin Postal: ETSI Telecomunicaciones. Despacho C-330. Ciudad Universitaria s/n. 28040 Madrid. Espaa
Grupo de Estructuras de Datos y Lingstica Computacional.
Universidad de Las Palmas de Gran Canaria. Investigador Principal: Octavio Santana Surez Persona de contacto: Jos R. Prez Aguilar URL: http://www.gedlc.ulpgc.es E-mail: [email protected] Direccin Postal: Edificio de Informtica. Departamento de Informtica y Sistemas. Universidad de Las Palmas de Gran Canaria. Campus Universitario de Tafira. 35017 Las Palmas de Gran Canaria.
Grupo ECA-SIMM.
Universidad de Valladolid Investigador Principal: Valentn Cardeoso Persona de contacto: Valentn Cardeoso Payo URL: http://eca-simm.infor.uva.es E-mail: [email protected] Direccin Postal: Escuela Tcnica Superior de Ingeniera Informtica. Departamento de Informtica (ATC, CCIA, LSI). Campus Miguel Delibes s/n. 47011 VALLADOLID.
Otros Trabajos de Investigacin Referentes al tema: [Granel 2001] R. Lpez-Czar, R. Granell. Sistema de Dilogo Basado en VoiceXML
para Proporcionar Informacin de Viajes en Tren. Universidad de Granada. www.sepln.org/revistaSEPLN/revista/33/33-Pag171.pdf
[Gemini 2002] R. Crdoba, L.F. DHaro, J.M. Montero, J. Ferreiros, J. Macas-
Guarasa, J.D. Romeral, J.M. Pardo. Generacin semiautomtica de aplicaciones de dilogo multimodales: Proyecto GEMINI. Grupo de Tecnologa del Habla. Departamento de Ingeniera Electrnica. Universidad Politcnica de Madrid. www.gemini-project.org www-gth.die.upm.es/~macias/doc/pubs/telecomi+d03/abstract/resumen_Telecom_I+D_gemini.PDF
[Oropeza 2006] Oropeza Rodriguez, Jose Luis. Algoritmos y Metodos para el Reconocimiento de Voz en Espaol Mediante Silabas. Centro de Investigaciones en computacin = IPN, Mexico, 2006. www.ejournal.unam.mx/compuysistemas/vol09-03/CYS09307.pdf
[Hops 2004] Gatius, Martha, Gonzales, Maritzel. The Project HOPS: Enabling an Intelligent Natural Languaje Based Hub for the Deplpyment of Advance Semantically Enriched Multi-channel Mass Scale OnLine Public Services. Universitat Politecnica de Catalua, Espaa, 2004. http://www.bcn.es/hops/index.htm
UNIVERSIDADPONTIFICIADESALAMANCA 2006
[VoiceXML] Page30
AUTOR:
ALVARADO QUINTANA CARLOS ALBERTO Ingeniero de Computacin y Sistemas colegiado, egresado de la Escuela de ICS de Universidad Privada Antenor Orrego, Maestra en Administracin de Negocios MBA UCV-Univ. Miami, Actualmente he culminado el segundo ao de Doctorado en Ingeniera de Software en la Universidad Pontificia de Salamanca Madrid Espaa, Diplomado en Gerencia de Proyectos y Calidad en la Pontificia Universidad Catlica del Per y PMI, Diplomado en Gerencia de TI en ESAN y un Post Grado Tecnologas de la Informacin en CADEM. Catedrtico de diferentes Universidades de Trujillo, como es UPAO y UPN en cursos de Administracin de Proyectos. Me he desempeado como Jefe de Sistemas y Gerente de Proyectos, he tenido la Jefatura de Sistemas de Complejo Agroindustrial Cartavio 1998-2007, he sido Jefe de Proyectos de desarrollo de software integrado sobre Visual Studio y SQL Server (mdulos backoffice: Logstica, Recursos Humanos, Contabilidad, Comercial y Financiero). Tengo experiencia Laboral de ms de 8 aos asumiendo Jefaturas de Sistemas en diversas empresas Agroindustriales, he tenido Gerencias de Proyectos de Implementacin de ERP como Biosalc, Spring y Sapiens, he participado como Lder de Tecnologa y de Procesos en un programa de excelencia operacional en Cartavio y Casagrande con preparacin para la Implementacin de SAP.
Email: [email protected]