Upload
bbva-innovation-center
View
497
Download
2
Embed Size (px)
Citation preview
Centro de Innovación BBVAEVENTO - 1 3 DE FEBRERO DE 2012
Más información sobre MIT Research
MIT ResearchEl aprendizaje de máquinas a través del lenguaje
MIT Research: Aprendizaje de máquinas a través del lenguaje | 2
Tabla de contenido
Introducción 3
Razonamiento basado en el sentido común para los servicios financieros 4
Supuestos de negociación en las interfaces de lenguaje natural 8
Más información 11
MIT Research: Aprendizaje de máquinas a través del lenguaje | 3
Introducción
En una interfaz interactiva, ¿es posible que el software deje de ser
una simple herramienta y se convierta en un auténtico ayudante
del usuario? El grupo de software del MIT investiga un nuevo
paradigma que puede dar respuesta a este objetivo.
Aunque no sea necesariamente tan inteligente como un asistente
humano, el software puede aprender de la interacción con el usuario
y anticiparse de forma proactiva a sus necesidades. Las aplicaciones
de estos sistemas abarcan múltiples campos, desde la edición
gráfica y de texto a la navegación web, el comercio electrónico o la
visualización de información.
Para explicar estos avances, Henry Lieberman , científico de
Investigación en el Media Lab del MIT , y Dustin Smith , investigador
del laboratorio de Medios, protagonizaron el 13 de febrero una
sesión especial sobre inteligencia artificial en el Centro de
Innovación BBVA , dedicada al aprendizaje de las máquinas a
través del lenguaje.
Henry Lieberman, a la
izquierda, Dustin Smith, en
el centro, y David Zafrilla a la
derecha, minutos antes del
inicio del MIT Research: El
aprendizaje de las máquinas
a través del lenguaje.
MIT Research: Aprendizaje de máquinas a través del lenguaje | 4
Razonamiento basado en el sentido común para los servicios financieros
Henry Lieberman @medialab es científico de investigación en el
Media Lab del MIT desde 1987. Sus intereses de investivación
se centran en la intersección de la inteligencia artificial y la in-
terfaz humana. Actual director del Laboratorio de Software, ante-
riormente fue investigador en el Laboratorio de Inteligencia Artifi-
cial del MIT y escribió el primer mapa de bits y gráficos en color
para los sistemas de Logo.
En la nueva economía, las transacciones online se han convertido
en un servicio más, en especial para la industria financiera. La for-
ma en la que estos servicios financieros se adapten a la vida de
los clientes será clave para su éxito a largo plazo. Para poder to-
mar decisiones inteligentes, los clientes se interesan no solo por las
Henry Lieberman, recono-
cido científico e investigador,
durante su exposición sobre
inteligencia artificial y el
aprendizaje de las máquinas
en Madrid
MIT Research: Aprendizaje de máquinas a través del lenguaje | 5
opciones a su disposición, sino que les preocupan las consecuen-
cias de cada acción y, sobre todo, qué sucede cuando algo falla.
La relación banco-cliente se mueve entre dos tipos de objetivos.
Por un lado, el cliente tiene una meta vital (por ejemplo, ahorrar
la mayor cantidad posible de dinero para pagar antes su préstamo
hipotecario). Por otro lado, el banco le ofrece funciones (depósitos,
desgravaciones fiscales, préstamos personales…) La misión de la
entidad financiera debe ser aunar y combinar las metas del cliente
con sus productos. Cuando el proceso de elección tiene lugar en un
sistema automatizado, actualmente se coloca gran parte de la carga
directamente en el cliente. Las herramientas de software pueden
actuar, no obstante, como asistentes que aconsejen y guíen al
cliente en la toma de decisiones. El objetivo es reproducir con el
software la capacidad de anticipación que ofrecen los asesores en
una sucursal o en un sistema de atención telefónica. Un buen ejemplo
de reacción anticipatoria es el sistema de voz Siri incorporado en
el iPhone 4S. Aunque el grado de fiabilidad aún no sea del 100%, se
acerca a las intenciones del usuario, un factor clave.
Introducir “sentido común” en el funcionamiento de los ordenadores
es un viejo sueño de la inteligencia artificial. El objetivo es que las
máquinas puedan razonar y tomar decisiones en nuestra vida
diaria. Los primeros experimentos en este ámbito se enfrentaron
a importantes obstáculos, como la inmensidad del conocimiento
humano que habría que abarcar para reproducir este sentido
común, o la poca fiabilidad de parte de este conocimiento debido
a la vaguedad de las sentencias, las excepciones, las paradojas
lógicas y otros problemas lingüísticos.
El uso del sentido común puede mejorar los resultados en la
interacción hombre-máquina por muchos motivos. En primer lugar, el
usuario espera una respuesta directa. Si le satisface, seguirá utilizando
la herramienta; si la respuesta sigue siendo imprecisa después de
varios intentos, dejará de utilizar el sistema por completo. Por otro
lado, el sistema debe ser rápido en su respuesta para mantener la
El objetivo es reproducir con el software la anticipación que ofrecen los asesores en una sucursal o en un sistema de atención telefónica. Un ejemplo de reacción es el sistema de voz Siri incorporado en el iPhone 4S.
MIT Research: Aprendizaje de máquinas a través del lenguaje | 6
sensación de interactividad (no más de unos pocos segundos).
El grupo de software del MIT ha estado explorando en los últimos años
el campo de los agentes de interfaz inteligentes. Un agente de interfaz
es un programa de inteligencia artificial vinculado a una aplicación
interactiva convencional (editor gráfico o de texto, navegador web…),
que observa las interacciones del usuario y es capaz de operar la
interfaz como desea el usuario. La misión del agente puede ser
proporcionar ayuda, asistencia, consejos, automatización de tareas
comunes, adaptación o personalización de la interfaz. La experiencia
de los investigadores del MIT con estos agentes de interfaz es que
pueden utilizar el conocimiento de sentido común mucho más
eficazmente de lo que pueden hacer las tradicionales aplicaciones
de pregunta-respuesta.
Estas nuevas aplicaciones han sido construidas utilizando el
conocimiento de Open Mind Common Sense (OMCS), una base
de conocimiento de sentido común que tiene actualmente más de
un millón de afirmaciones del lenguaje natural, construidas a partir
de las contribuciones de 20.000 personas a través de la comunidad
web. En este corpus de OMCS se incluyen diversos vínculos de
relación de tipo taxonómico, merónimo (palabra cuyo significado
constituye una parte del significado total de otra palabra), temporal,
espacial, causal, funcional, etc.
En el reconocimiento del discurso oral se ha avanzado mucho, así
como en las aplicaciones de texto predictivo. Uno de los aspectos
más complicados es que el conocimiento expresado a menudo en
frases simples es, sin embargo, dependiente de un contexto al que
no se hace alusión. Por ello, contextualizar el conocimiento y añadir
elementos explícitos en cada frase es vital para dotar de sentido
a la respuesta.
En el caso de las transacciones bancarias, no cubrir las expectativas
del cliente puede suponer la destrucción de la relación con la
entidad. Por este motivo, se intenta acercar la programación al
Introducir “sentido común” en el funcionamiento de los ordenadores es un viejo sueño de la inteligencia artificial. El objetivo es que las máquinas puedan razonar y tomar decisiones en nuestra vida diaria.
MIT Research: Aprendizaje de máquinas a través del lenguaje | 7
comportamiento del usuario final, luchando contra la tradicional
desconexión entre las partes. Un camino interesante en este sentido
es la integración de plataformas y aplicaciones (teléfono móvil,
PC de casa, cloud…). Hoy por hoy, los datos deben ser transferidos
expresamente por el usuario de un entorno a otro. Pero el usuario no
tiene por qué ser un experto sobre las condiciones de cada caso, por
lo que lo lógico es facilitarles su intervención. Los actuales desarrollos
en los smartphones son un buen ejemplo. El usuario espera de
su entidad rapidez y múltiples opciones sobre las que tomar él
la decisión. Por ejemplo, si su tarjeta de crédito ha sido rechazada
al intentar comprar un billete de avión, el sistema le puede sugerir
distintas opciones y será el cliente el que elija la más adecuada a su
situación: solventar el retraso en el pago de la tarjeta, pagar con la
American Express en lugar de VISA, pagar en metálico, cancelar el
vuelo o coger un tren hasta su destino.
La contribución explícita del usuario resulta muy cara en una interfaz,
por lo que el conocimiento de sentido común puede actuar como
un “amplificador” de esta contribución, reuniendo hechos y conceptos
que amplíen el alcance de la aplicación. El Media Lab del MIT
ha sistematizado las bases de conocimiento y el desarrollo de
métodos de razonamiento para el conocimiento del sentido común,
aplicado al conocimiento general de las personas y a las situaciones
de la vida cotidiana, a través de frases sencillas como “se necesita
un préstamo para comprar una casa”. La clave es el vínculo entre el
conocimiento de la vida y el conocimiento de los propios servicios
financieros. Por ejemplo, “Un préstamo de interés variable es más
caro que un préstamo de interés fijo”.
Las interfaces basadas en iconos y menús ya no bastan. La solución
ahora es construir interfaces orientadas a objetivos, en las que la
funcionalidad sea muy rica y su uso resulte muy sencillo. Este tipo
de interfaces precisan la incorporación del conocimiento de sentido
común para hacer que nuestros ordenadores, teléfonos móviles y
todo tipo de dispositivos sean mucho más eficientes de lo que lo
son hoy al responder a las demandas de los usuarios.
El grupo de software del MIT ha explorado el campo de los agentes de interfaz inteligentes: usan el conocimiento de sentido común con más eficacia que las tradicionales a p l i c a c i o n e s d e pregunta-respuesta.
MIT Research: Aprendizaje de máquinas a través del lenguaje | 8
El joven investigador del
MIT Dustin Smith, en un
momento de su inter-
vención en el Centro de
Innovación BBVA
Dustin Smith @medialab es estudiante de doctorado en el La-
boratorio de Medios. Investiga las relaciones entre la planifica-
ción y el procesamiento del lenguaje natural, con Henry Lieberman
y Marvin Minsky como asesores.Su objetivo a largo plazo es lograr
que los ordenadores entiendan inglés con una capacidad funcional
similar a las personas.
La investigación que desarrolla Dustin Smith abarca diversas áreas
académicas: la lectura óptica y la comprensión de la historia, las
estructuras de eventos y la semántica léxica, el etiquetado de roles
semánticos, el aprendizaje de relaciones estadísticas, minería de
secuencias, el reconocimiento de eventos y la extracción, planificación,
plan de reconocimiento, la metacognición y el auto-modelado.
¿Qué es una interfaz natural? Aquella que tiene en cuenta al usuario y la información que es importante para él. Siri -asistente de voz del iPhone- y otras interfaces de este tipo reflejan un futuro donde
Supuestos de negociación en las interfaces de lenguaje natural
MIT Research: Aprendizaje de máquinas a través del lenguaje | 9
la gente podrá interactuar con los ordenadores usando lenguajes naturales. Este tipo de interfaces dan una gran flexibilidad a los usuarios en la toma de decisiones.
http://vimeo.com/30119388
Sin embargo, lo que una persona opta por decir y cómo lo dice depende de la información que cree que comparte con la audiencia. Es difícil para la gente usar interfaces de lenguaje natural, ya que los usuarios tienen dificultades para predecir qué información se comparte con el equipo y cómo la interfaz va a interpretar su texto. Pueden existir (y a menudo, existen) discrepancias en la creencia mutua.
Y es especialmente difícil para la pragmática de los supuestos, ya que muchas veces debe ir más allá de la información contenida en la superficie que figura en el texto. Los problemas de incomprensión pueden venir de la vaguedad e imprecisión de la información, de la pérdida de parte de los datos, de la ambigüedad… Si el cliente, por ejemplo, especifica en una interfaz que quiere invertir dinero y el sistema le responde “¿Cuál es tu tolerancia al riesgo?”, puede producirse una falta de entendimiento si no comparten los mismos conceptos. Lo mismo ocurre con la vaguedad de un aseveración: el cliente plantea “necesito un préstamo para una casa de 300.000 €”, y el sistema responde “¿cuánto dinero necesitas exactamente?”; una pregunta para la que el cliente seguramente no tendrá respuesta
exacta.
Las creencias mutuas son conceptos representados en nuestra
mente. Si un grupo de personas cree mutuamente algo, cada individuo lo creerá. En la construcción de interfaces inteligentes, la flexibilidad es clave. Si el usuario humano no sabe el concepto, la máquina debe tener capacidad para enseñárselo (mediante analogías, por ejemplo).
En el caso de las transacciones bancarias, no cubrir las expectativas del cliente puede suponer la destrucción de la relación con la entidad. Por ello, se intenta acercar la programación al comportamiento del usuario final.
MIT Research: Aprendizaje de máquinas a través del lenguaje | 10
Si es la interfaz la que carece de un concepto, debe permitir que sea el usuario el que navegue y amplíe el conjunto de referentes. Las interfaces de lenguaje natural y la manipulación directa son
complementarias, no tienen por qué excluir una a la otra.
Siempre que sea posible, lo común debe ser la posibilidad que
aparezca por defecto y, además, el sistema debe estar preparado
para revisar los supuestos a la luz de cualquier nueva información.
Para combatir la ambigüedad léxica y la polisemia, el contexto es
clave, ya que las composiciones sintácticas y semánticas están
limitadas por las situaciones en las que se producen.
En el Laboratorio de Medios han construido una interfaz de calendario
que permite a los usuarios comunicar en inglés descripciones de los
eventos e interactuar con los supuestos que hizo el equipo al tratar
de comprenderle. Los fallos de comunicación son oportunidades
para reconocer y modificar los supuestos. Permiten a los usuarios
interactuar con representaciones visuales del significado del texto,
revisar qué supuestos se aplicaron y sugerir o modificar los supuestos
existentes.
La manipulación directa –ampliando y combinando información-
es por tanto complementaria a las interfaces de lenguaje natural.
Debemos esperar fallos de comunicación y ser capaces de revisar
rápidamente los supuestos para adaptarlos al nuevo contexto.
Henry Lieberman
y Dustin Smith, en
el Palacio de Santa
Bárbara, sede del
Centro de Innovación
BBVA en Madrid
Más información
la weby en nuestros
canales... twitter
slideshareflickr
youtube
storify
más en
Más información