Mit research el aprendizaje de máquinas a través del lenguaje

Centro de Innovación BBVAEVENTO - 1 3 DE FEBRERO DE 2012

Más información sobre MIT Research

MIT ResearchEl aprendizaje de máquinas a través del lenguaje

https://www.centrodeinnovacionbbva.com/contents/5240-activa-internet?section_id=5

https://www.centrodeinnovacionbbva.com/contents/5364-mit-research--el-aprendizaje-de-maquinas-a-traves-del-lenguaje?section_id=5

MIT Research: Aprendizaje de máquinas a través del lenguaje | 2

Tabla de contenido

Introducción 3

Razonamiento basado en el sentido común para los servicios financieros 4

Supuestos de negociación en las interfaces de lenguaje natural 8

Más información 11


Introducción

En una interfaz interactiva, ¿es posible que el software deje de ser

una simple herramienta y se convierta en un auténtico ayudante

del usuario? El grupo de software del MIT investiga un nuevo

paradigma que puede dar respuesta a este objetivo.

Aunque no sea necesariamente tan inteligente como un asistente

humano, el software puede aprender de la interacción con el usuario

y anticiparse de forma proactiva a sus necesidades. Las aplicaciones

de estos sistemas abarcan múltiples campos, desde la edición

gráfica y de texto a la navegación web, el comercio electrónico o la

visualización de información.

Para explicar estos avances, Henry Lieberman , científico de

Investigación en el Media Lab del MIT , y Dustin Smith , investigador

del laboratorio de Medios, protagonizaron el 13 de febrero una

sesión especial sobre inteligencia artificial en el Centro de

Innovación BBVA , dedicada al aprendizaje de las máquinas a

través del lenguaje.

Henry Lieberman, a la

izquierda, Dustin Smith, en

el centro, y David Zafrilla a la

derecha, minutos antes del

inicio del MIT Research: El

aprendizaje de las máquinas

a través del lenguaje.

http://web.mit.edu/

http://www.media.mit.edu/people/lieber


http://web.media.mit.edu/~dustin/





Razonamiento basado en el sentido común para los servicios financieros

Henry Lieberman @medialab es científico de investigación en el

Media Lab del MIT desde 1987. Sus intereses de investivación

se centran en la intersección de la inteligencia artificial y la in-

terfaz humana. Actual director del Laboratorio de Software, ante-

riormente fue investigador en el Laboratorio de Inteligencia Artifi-

cial del MIT y escribió el primer mapa de bits y gráficos en color

para los sistemas de Logo.

En la nueva economía, las transacciones online se han convertido

en un servicio más, en especial para la industria financiera. La for-

ma en la que estos servicios financieros se adapten a la vida de

los clientes será clave para su éxito a largo plazo. Para poder to-

mar decisiones inteligentes, los clientes se interesan no solo por las

Henry Lieberman, recono-

cido científico e investigador,

durante su exposición sobre

inteligencia artificial y el

aprendizaje de las máquinas

en Madrid

https://twitter.com/#!/medialab



http://es.wikipedia.org/wiki/Logo_(lenguaje_de_programaci%C3%B3n)


opciones a su disposición, sino que les preocupan las consecuen-

cias de cada acción y, sobre todo, qué sucede cuando algo falla.

La relación banco-cliente se mueve entre dos tipos de objetivos.

Por un lado, el cliente tiene una meta vital (por ejemplo, ahorrar

la mayor cantidad posible de dinero para pagar antes su préstamo

hipotecario). Por otro lado, el banco le ofrece funciones (depósitos,

desgravaciones fiscales, préstamos personales…) La misión de la

entidad financiera debe ser aunar y combinar las metas del cliente

con sus productos. Cuando el proceso de elección tiene lugar en un

sistema automatizado, actualmente se coloca gran parte de la carga

directamente en el cliente. Las herramientas de software pueden

actuar, no obstante, como asistentes que aconsejen y guíen al

cliente en la toma de decisiones. El objetivo es reproducir con el

software la capacidad de anticipación que ofrecen los asesores en

una sucursal o en un sistema de atención telefónica. Un buen ejemplo

de reacción anticipatoria es el sistema de voz Siri incorporado en

el iPhone 4S. Aunque el grado de fiabilidad aún no sea del 100%, se

acerca a las intenciones del usuario, un factor clave.

Introducir “sentido común” en el funcionamiento de los ordenadores

es un viejo sueño de la inteligencia artificial. El objetivo es que las

máquinas puedan razonar y tomar decisiones en nuestra vida

diaria. Los primeros experimentos en este ámbito se enfrentaron

a importantes obstáculos, como la inmensidad del conocimiento

humano que habría que abarcar para reproducir este sentido

común, o la poca fiabilidad de parte de este conocimiento debido

a la vaguedad de las sentencias, las excepciones, las paradojas

lógicas y otros problemas lingüísticos.

El uso del sentido común puede mejorar los resultados en la

interacción hombre-máquina por muchos motivos. En primer lugar, el

usuario espera una respuesta directa. Si le satisface, seguirá utilizando

la herramienta; si la respuesta sigue siendo imprecisa después de

varios intentos, dejará de utilizar el sistema por completo. Por otro

lado, el sistema debe ser rápido en su respuesta para mantener la

El objetivo es reproducir con el software la anticipación que ofrecen los asesores en una sucursal o en un sistema de atención telefónica. Un ejemplo de reacción es el sistema de voz Siri incorporado en el iPhone 4S.


sensación de interactividad (no más de unos pocos segundos).

El grupo de software del MIT ha estado explorando en los últimos años

el campo de los agentes de interfaz inteligentes. Un agente de interfaz

es un programa de inteligencia artificial vinculado a una aplicación

interactiva convencional (editor gráfico o de texto, navegador web…),

que observa las interacciones del usuario y es capaz de operar la

interfaz como desea el usuario. La misión del agente puede ser

proporcionar ayuda, asistencia, consejos, automatización de tareas

comunes, adaptación o personalización de la interfaz. La experiencia

de los investigadores del MIT con estos agentes de interfaz es que

pueden utilizar el conocimiento de sentido común mucho más

eficazmente de lo que pueden hacer las tradicionales aplicaciones

de pregunta-respuesta.

Estas nuevas aplicaciones han sido construidas utilizando el

conocimiento de Open Mind Common Sense (OMCS), una base

de conocimiento de sentido común que tiene actualmente más de

un millón de afirmaciones del lenguaje natural, construidas a partir

de las contribuciones de 20.000 personas a través de la comunidad

web. En este corpus de OMCS se incluyen diversos vínculos de

relación de tipo taxonómico, merónimo (palabra cuyo significado

constituye una parte del significado total de otra palabra), temporal,

espacial, causal, funcional, etc.

En el reconocimiento del discurso oral se ha avanzado mucho, así

como en las aplicaciones de texto predictivo. Uno de los aspectos

más complicados es que el conocimiento expresado a menudo en

frases simples es, sin embargo, dependiente de un contexto al que

no se hace alusión. Por ello, contextualizar el conocimiento y añadir

elementos explícitos en cada frase es vital para dotar de sentido

a la respuesta.

En el caso de las transacciones bancarias, no cubrir las expectativas

del cliente puede suponer la destrucción de la relación con la

entidad. Por este motivo, se intenta acercar la programación al

Introducir “sentido común” en el funcionamiento de los ordenadores es un viejo sueño de la inteligencia artificial. El objetivo es que las máquinas puedan razonar y tomar decisiones en nuestra vida diaria.

http://www.facebook.com/pages/Open-Mind-Common-Sense/105946186103507


comportamiento del usuario final, luchando contra la tradicional

desconexión entre las partes. Un camino interesante en este sentido

es la integración de plataformas y aplicaciones (teléfono móvil,

PC de casa, cloud…). Hoy por hoy, los datos deben ser transferidos

expresamente por el usuario de un entorno a otro. Pero el usuario no

tiene por qué ser un experto sobre las condiciones de cada caso, por

lo que lo lógico es facilitarles su intervención. Los actuales desarrollos

en los smartphones son un buen ejemplo. El usuario espera de

su entidad rapidez y múltiples opciones sobre las que tomar él

la decisión. Por ejemplo, si su tarjeta de crédito ha sido rechazada

al intentar comprar un billete de avión, el sistema le puede sugerir

distintas opciones y será el cliente el que elija la más adecuada a su

situación: solventar el retraso en el pago de la tarjeta, pagar con la

American Express en lugar de VISA, pagar en metálico, cancelar el

vuelo o coger un tren hasta su destino.

La contribución explícita del usuario resulta muy cara en una interfaz,

por lo que el conocimiento de sentido común puede actuar como

un “amplificador” de esta contribución, reuniendo hechos y conceptos

que amplíen el alcance de la aplicación. El Media Lab del MIT

ha sistematizado las bases de conocimiento y el desarrollo de

métodos de razonamiento para el conocimiento del sentido común,

aplicado al conocimiento general de las personas y a las situaciones

de la vida cotidiana, a través de frases sencillas como “se necesita

un préstamo para comprar una casa”. La clave es el vínculo entre el

conocimiento de la vida y el conocimiento de los propios servicios

financieros. Por ejemplo, “Un préstamo de interés variable es más

caro que un préstamo de interés fijo”.

Las interfaces basadas en iconos y menús ya no bastan. La solución

ahora es construir interfaces orientadas a objetivos, en las que la

funcionalidad sea muy rica y su uso resulte muy sencillo. Este tipo

de interfaces precisan la incorporación del conocimiento de sentido

común para hacer que nuestros ordenadores, teléfonos móviles y

todo tipo de dispositivos sean mucho más eficientes de lo que lo

son hoy al responder a las demandas de los usuarios.

El grupo de software del MIT ha explorado el campo de los agentes de interfaz inteligentes: usan el conocimiento de sentido común con más eficacia que las tradicionales a p l i c a c i o n e s d e pregunta-respuesta.



El joven investigador del

MIT Dustin Smith, en un

momento de su inter-

vención en el Centro de

Innovación BBVA

Dustin Smith @medialab es estudiante de doctorado en el La-

boratorio de Medios. Investiga las relaciones entre la planifica-

ción y el procesamiento del lenguaje natural, con Henry Lieberman

y Marvin Minsky como asesores.Su objetivo a largo plazo es lograr

que los ordenadores entiendan inglés con una capacidad funcional

similar a las personas.

La investigación que desarrolla Dustin Smith abarca diversas áreas

académicas: la lectura óptica y la comprensión de la historia, las

estructuras de eventos y la semántica léxica, el etiquetado de roles

semánticos, el aprendizaje de relaciones estadísticas, minería de

secuencias, el reconocimiento de eventos y la extracción, planificación,

plan de reconocimiento, la metacognición y el auto-modelado.

¿Qué es una interfaz natural? Aquella que tiene en cuenta al usuario y la información que es importante para él. Siri -asistente de voz del iPhone- y otras interfaces de este tipo reflejan un futuro donde

Supuestos de negociación en las interfaces de lenguaje natural

http://web.media.mit.edu/~dustin/


http://vimeo.com/30119388


la gente podrá interactuar con los ordenadores usando lenguajes naturales. Este tipo de interfaces dan una gran flexibilidad a los usuarios en la toma de decisiones.


Sin embargo, lo que una persona opta por decir y cómo lo dice depende de la información que cree que comparte con la audiencia. Es difícil para la gente usar interfaces de lenguaje natural, ya que los usuarios tienen dificultades para predecir qué información se comparte con el equipo y cómo la interfaz va a interpretar su texto. Pueden existir (y a menudo, existen) discrepancias en la creencia mutua.

Y es especialmente difícil para la pragmática de los supuestos, ya que muchas veces debe ir más allá de la información contenida en la superficie que figura en el texto. Los problemas de incomprensión pueden venir de la vaguedad e imprecisión de la información, de la pérdida de parte de los datos, de la ambigüedad… Si el cliente, por ejemplo, especifica en una interfaz que quiere invertir dinero y el sistema le responde “¿Cuál es tu tolerancia al riesgo?”, puede producirse una falta de entendimiento si no comparten los mismos conceptos. Lo mismo ocurre con la vaguedad de un aseveración: el cliente plantea “necesito un préstamo para una casa de 300.000 €”, y el sistema responde “¿cuánto dinero necesitas exactamente?”; una pregunta para la que el cliente seguramente no tendrá respuesta

exacta.

Las creencias mutuas son conceptos representados en nuestra

mente. Si un grupo de personas cree mutuamente algo, cada individuo lo creerá. En la construcción de interfaces inteligentes, la flexibilidad es clave. Si el usuario humano no sabe el concepto, la máquina debe tener capacidad para enseñárselo (mediante analogías, por ejemplo).

En el caso de las transacciones bancarias, no cubrir las expectativas del cliente puede suponer la destrucción de la relación con la entidad. Por ello, se intenta acercar la programación al comportamiento del usuario final.



Si es la interfaz la que carece de un concepto, debe permitir que sea el usuario el que navegue y amplíe el conjunto de referentes. Las interfaces de lenguaje natural y la manipulación directa son

complementarias, no tienen por qué excluir una a la otra.

Siempre que sea posible, lo común debe ser la posibilidad que

aparezca por defecto y, además, el sistema debe estar preparado

para revisar los supuestos a la luz de cualquier nueva información.

Para combatir la ambigüedad léxica y la polisemia, el contexto es

clave, ya que las composiciones sintácticas y semánticas están

limitadas por las situaciones en las que se producen.

En el Laboratorio de Medios han construido una interfaz de calendario

que permite a los usuarios comunicar en inglés descripciones de los

eventos e interactuar con los supuestos que hizo el equipo al tratar

de comprenderle. Los fallos de comunicación son oportunidades

para reconocer y modificar los supuestos. Permiten a los usuarios

interactuar con representaciones visuales del significado del texto,

revisar qué supuestos se aplicaron y sugerir o modificar los supuestos

existentes.

La manipulación directa –ampliando y combinando información-

es por tanto complementaria a las interfaces de lenguaje natural.

Debemos esperar fallos de comunicación y ser capaces de revisar

rápidamente los supuestos para adaptarlos al nuevo contexto.

Henry Lieberman

y Dustin Smith, en

el Palacio de Santa

Bárbara, sede del

Centro de Innovación

BBVA en Madrid

Más información

la weby en nuestros

canales... twitter

slideshareflickr

facebook

linkedin

youtube

storify

más en

Más información

http://twitter.com/#!/CIBBVA

http://twitter.com/#!/CIBBVA

http://www.slideshare.net/cibbva/

http://www.flickr.com/photos/centrodeinnovacionbbva/

https://www.facebook.com/centrodeinnovacionbbva

http://www.linkedin.com/groups/Centro-Innovaci%C3%B3n-BBVA-71380?home=&gid=71380&trk=anet_ug_hm

http://www.youtube.com/user/centroinnovacionbbva

http://storify.com/cibbva

Documents

Mit research el aprendizaje de máquinas a través del lenguaje