Rojas Bello Richard Nolberto

Universidad Autónoma de Madrid

Escuela Politécnica Superior

Departamento de Ingeniería Informática

Identificación de características relevantes para reconocimiento de emociones en el

rostro

Richard Nolberto Rojas BelloTutor: Juan Alberto Sigüenza Pizarro

Trabajo de Fin de Master

Programa Oficial de Posgrado en Ingeniería Informática y de TelecomunicacionesUniversidad Autónoma de Madrid

Octubre de 2009

2

Índice de contenido 1.Introducción......................................................................................................................................5

1.1. Antecedentes generales............................................................................................................5 1.2.Problema...................................................................................................................................9 1.3. Justificación.............................................................................................................................9 1.4.Objetivo general........................................................................................................................9

1.4.1.Objetivos específicos........................................................................................................9 1.4.2.Diseño metodológico........................................................................................................9

2.Localización de rostros y formas....................................................................................................11 2.1. Introducción...........................................................................................................................11 2.2. Métodos basados en plantillas...............................................................................................12 2.3. Métodos basados en movimiento...........................................................................................13

2.3.1. Flujo óptico....................................................................................................................13 2.3.2.Detección de puntos de interés........................................................................................14 2.3.3.Diferencias......................................................................................................................14

2.4. Métodos basados en tonalidad...............................................................................................15 2.5. Métodos basados en texturas.................................................................................................15 2.6. Métodos basados en visión estereoscópica ...........................................................................16 2.7. Métodos basados en conocimiento........................................................................................18

2.7.1.Mosaicos jerárquicos.......................................................................................................18 2.8. Métodos basados en características invariantes.....................................................................19

2.8.1.Identificación de rasgos faciales.....................................................................................19 2.9. Métodos basados en apariencias............................................................................................20

2.9.1.Eigenfaces.......................................................................................................................21 2.9.2.Redes neuronales artificiales...........................................................................................21 2.9.3.Máquinas de soporte vectorial........................................................................................22 2.9.4.Hidden Markov models...................................................................................................23

2.10. Métodos basados en modelos geométricos..........................................................................24 2.10.1.AAM.............................................................................................................................25

2.11. Métodos 3D e infrarrojos.....................................................................................................27 3.Reconocimiento de emociones.......................................................................................................29

3.1.Introducción............................................................................................................................29 3.2.Estudios de la psicología.........................................................................................................29 3.3.Desafíos actuales.....................................................................................................................32 3.4.Técnicas de investigación para inferir emociones..................................................................34

3.4.1.Métodos de cuantificación de emociones.......................................................................34Regional Volumetric Difference (RVD)...............................................................................34Facial Action Coding System (FACS)..................................................................................36Facial Expression Coding System (FACES)........................................................................38

3.4.2.Análisis automático de expresión facial..........................................................................39Métodos basados en imágenes estáticas..........................................................................40Métodos basados en video...............................................................................................41Métodos basados en modelos geométricos......................................................................42Métodos basados en superficies 3D e infrarrojos............................................................43

4.Propuesta para sistemas de seguridad y control de tránsito de pasajeros......................................45 4.1.Resultados de la investigación sobre el estado del arte..........................................................45

3

4.2.Sistema propuesto...................................................................................................................46 4.3. Pruebas de rendimiento..........................................................................................................55

4.3.1.Pruebas con imágenes.....................................................................................................55 4.3.2.Pruebas con videos..........................................................................................................57

5.Conclusiones y proyección.............................................................................................................59Sobre la investigación y la propuesta...........................................................................................59Trabajo futuro................................................................................................................................60

6.Bibliografía.....................................................................................................................................63 7.ANEXOS........................................................................................................................................69

7.1.ANEXO I: AUs definidas en FACS........................................................................................69

4

Capítulo 1

Introducción

1.1. Antecedentes generales

Reconocer emociones o variaciones naturales en el rostro puede permitir encontrar campos

donde aplicar de forma concreta toda la base teórica existente tras las técnicas de obtención de

formas, seguimiento de cuerpos y reconocimiento de rostros; contextos reales posibles son: control

parental de programación televisiva, interacción de pasajeros con los sistemas de entretenimiento en

vuelos de larga distancia o modelos de interacción en videojuegos.

La obtención de formas puede abordarse como la manera de establecer una relación entre

una imagen en un sistema de coordenadas 2D y un objeto en un sistema 3D. Para resolver el

problema computacionalmente existen dos orientaciones: arriba-abajo, abajo-arriba [1].

La estrategia arriba-abajo parte de un conjunto de suposiciones y propiedades esperadas

basadas en conocimiento experto [2]; estas propiedades se verifican sucesivamente en cada etapa de

procesamiento hasta llegar a la imagen de datos. Por otra parte la estrategia abajo-arriba es la

propuesta hecha por David Marr (1985)[2][3]. Marr definió el proceso de detección de objetos

mediante un enfoque computacional, en la cual el sistema visual se trata como si fuera un ordenador

programado para recibir objetos; su diagrama de funcionamiento es el siguiente:

Fig. 1.1: Enfoque computacional de David Marr [2].

En la figura 1.1, el punto de partida es la imagen del objeto en la retina; la imagen se analiza

para identificar áreas de luz y oscuridad y las partes en las que cambia la intensidad. El resultado

del análisis es una serie de características básicas (áreas cerradas, segmentos de líneas, extremos de

líneas y líneas que definen bordes) llamadas primer boceto. Luego se agrupa el contenido del primer

boceto según características de tamaño y orientaciones similares, se procesa nuevamente el

5

resultado, y se obtiene un nuevo boceto llamado 2½ D que termina en una percepción

tridimensional [3].

Las técnicas de seguimiento de cuerpos, o body-tracking, despiertan gran interés, sobre todo

por su aplicación en seguridad y salud. Sus inicios se remontan a la detección simple de objetos por

visión artificial y se ha abordado frecuentemente con algoritmos bayesianos, algunos de ellos se

citan en los estudios de Pantrigo (2006)[4] y Chen (2003)[5]:

1. Particle Filtering [6]: está basado en el método de Monte Carlo. Crea partículas

aleatoriamente sobre una imagen, cada punto tendrá un valor relacionado con la cercanía al

objeto que se pretende seguir. Los valores más altos estarán dentro de objetos y tendrán

mayor probabilidad de ser escogidos al momento de capturar los puntos lanzados para

formar una nueva colección. En una segunda etapa se modificará levemente la información

de posición del conjunto actual, de esta forma se pretende predecir la nueva posición del

objeto; el proceso es iterativo.

2. Sampling Importance Resampling [7]: es una variación de Particle Filtering; se aplica a

problemas de filtrado bayesiano recursivo donde es necesario un remuestreo.

3. Genetic Particle Filter [8]: rescata los principios de los algoritmos genéticos aplicando

mecanismos de selección natural. Introduce mayor diversidad en la población durante la

etapa de muestreo de Particle Filter.

4. Annealed Particle Filter [9]: variante de Particle Filter; adapta el método para espacios de

configuración de dimensión alta, utiliza operadores de cruce como en los algoritmos

genéticos.

5. Hybrid Monte Carlo [10][5]: es una cadena de Markov de Monte Carlo con refinado por

gradientes, se fundamenta en el principio básico de la mecánica Hamiltoniana1. Es aplicada

comúnmente en espacios de dimensiones grandes donde Particle Filter no tiene buen

rendimiento. Además, suele utilizarse en experimentos de simulación molecular.

Una propuesta interesante es el sistema de estimación de movimiento implementado por

Siddiqui y Medioni (2006)[11]. Interpretan el cuerpo de una persona como una composición de

1 Enfoque de la mecánica donde las ecuaciones de movimiento vienen dadas por sistemas de ecuaciones diferenciales ordinarias de primer orden escritas en función de la energía total del sistema H (hamiltoniano).

6

figuras geométricas; identifican el rostro, luego los brazos, y aplican un detector de piel (textura) y

contornos para acotar la región de interés; mejoraron la orientación de los objetos aplicando

métodos de optimización por gradientes. Los sujetos en escena tenían los brazos descubiertos para

simplificar los experimentos y siempre fueron vistas frontales o 2D. El siguiente diagrama refleja su

propuesta completa:

Fig. 1.2: Sistema propuesto por Siddiqui y Medioni (2006) [11].

El estudio realizado por Higuera (2006)[12] aborda el problema de seguimiento desde una

perspectiva más analítica, en su investigación esencialmente presenta dos algoritmos:

1. Gradientes espacio-temporales (detecta cambios en el patrón de grises de la imagen).

2. Segmentación de imágenes en objetos (análisis local que luego busca correspondencia entre

objetos).

Higuera concluye – luego de implementar los algoritmos basados en gradientes – que el

rendimiento de estos puede aumentar si se complementan con una mejora en la resolución de las

imágenes, parámetros fijados en las ecuaciones y métodos de cálculo de gradiente.

Por otra parte, el reconocimiento de rostros se ha estudiado en gran medida desde el punto

7

de vista de la seguridad biométrica verificando identidades [13]. Este proceso se lleva a cabo en dos

etapas:

1. Localización y detección del rostro.

2. Reconocimiento e individualización del rostro.

Sin embargo, el reconocimiento de rostros posee enfoques que no dependen directamente de

la identificación en particular del individuo sometido a captura de rasgos faciales, estos son:

identificación de las emociones e identificación de variaciones causadas por el paso del tiempo.

Además, estos enfoques poseen la ventaja de que:

• No es necesaria una cooperación forzada de la persona a identificar, siendo

totalmente transparente al usuario.

• No requieren validaciones contra base de datos de usuarios.

• Tienen bajo coste de hardware y software.

La identificación de emociones en el rostro recaba información asociada a las formas de

ojos, nariz, boca, ubicación de vértices, arrugas, surcos y protuberancias. Los principales campos

donde se ha desarrollado es la HCII (Human Computer Intelligent Interaction) [14][15][16][17]

[18], y la medicina [19][2][20][21]. Estimaciones, como la edad, también podrían inferirse de los

métodos empleados para detectar emociones si la atención se centra en surcos o brillo de la piel.

Quedan problemas por resolver a la hora de interpretar expresiones faciales, es complejo

interpretar estados emocionales sólo a partir de la cara, y es mucho más complejo si se desconoce si

la persona dice la verdad o no. El estudio de Ekman et al. (1975)[22] reveló que el rostro transmite

mensajes involuntariamente en fracciones de segundo, mensajes que son claros indicadores de lo

que pueda estar sintiendo una persona. Considerando esto último se estaría en presencia de un

nuevo mecanismo que además de aplicar a sistemas HCII y medicina también aplicaría a sistemas

de seguridad y control en entornos públicos.

8

1.2.Problema

Identificar estados emocionales en entornos públicos – donde las personas no colaboran

activamente – es una tarea de mayor complejidad que localizar objetos o cuerpos ya que también es

necesario analizar características o rasgos que rápida y continuamente cambian de forma, sin

embargo extraer información de dichos rasgos sería útil para identificar estados psicológicos

potencialmente peligrosos y/o poco habituales para un contexto determinado.

1.3. Justificación

Encontrar las características específicas para identificar emociones expresadas mediante

gestos permitiría aplicar este conocimiento a aplicaciones de seguridad (comportamiento de clientes

en bancos, oficinas publicas, aeropuertos, estaciones de tren, etc.), por lo tanto poder identificarlas

es una tarea de carácter crítico. Las situaciones potencialmente peligrosas o de nerviosismo –

debido a una posible intención delictiva – podrían advertirse con antelación y evitar escenarios de

mayor riesgo si se presta atención a eventos como: expresiones faciales reiteradas, movimiento de

los ojos, contacto frecuente de manos con la cara, e incluso cambios en la temperatura corporal.

1.4.Objetivo general

Identificar y analizar las características más relevantes para determinar estados de alerta

emocionales y/o sanitarios.

1.4.1. Objetivos específicos

i. Definir el tipo de acciones que pueda ocasionar una alteración en estados emocionales.

ii. Proponer la tecnología necesaria para identificar en tiempo real estados emocionales

anómalos en el rostro de un individuo.

1.4.2. Diseño metodológico

i. Profundizar la investigación sobre el estado del arte del reconocimiento de emociones en

rostros.

ii. Definir claramente que tipo de acciones se buscarán en los videos.

iii. Proponer un sistema automático de detección, seguimiento y clasificación de expresiones

9

faciales.

iv. Validar los algoritmos y/o modelos de la propuesta, que permitan procesar las expresiones

empleando recursos de BD públicas – usadas comúnmente en aplicaciones biométricas – y

video en tiempo real.

Nota:

Este trabajo de fin de master forma parte de un proyecto CENIT que comparte la Universidad

Autónoma de Madrid y la empresa Vaelsys Formación y Desarrollo dedicada principalmente a

desarrollar soluciones, empleando visión artificial, para problemas de tratamiento, reconocimiento

y clasificación de imágenes.

(Proyecto INTEGRA, ref:16/02/08, convocatoria CENIT 2008, división 2008-2011)

10

Capítulo 2

Localización de rostros y formas

2.1. Introducción

La detección del rostro es el primer paso de los algoritmos de reconocimiento de cara y por

lo tanto es de crucial importancia que su desempeño sea lo mejor posible. Aquí se decide si la

imagen o video incluye caras; si las incluye, se identifican sus posiciones y se segmentan

separándolas del fondo de la imagen.

Fig. 2.1.: Identificación de rostros.

Los factores principales que se deben tener en consideración en la detección de rostros son:

luminosidad, orientación, escala, textura y accesorios u objetos que puedan afectar a la geometría

esperada (gafas, bufandas, etc.) [13]. Estos factores hacen que el proceso no sea sencillo.

Como ya se mencionó, para analizar una expresión facial el primer paso es detectar el rostro.

Uno de los métodos más empleado – debido a su simplicidad – es el de plantillas, sin embargo, lo

que se pretende detectar en estricto rigor es una forma que posee características específicas2, así

entonces obtener la forma es un concepto que se aborda comúnmente mediante métodos basados en:

• Plantillas.

2 Entiéndase por forma las superficies y orientación 3D de un objeto.

11

• Movimiento.

• Tonalidad.

• Texturas.

• Visión estereoscópica.

• Conocimiento humano.

• Características invariantes.

• Apariencias.

• Modelos geométricos.

• Modelos 3D e infrarrojos.

2.2. Métodos basados en plantillas

Este tipo de métodos se caracteriza por su sencilla implementación. Calculan valores de

correlación entre una imagen de entrada y sus plantillas. Si los valores de correlación alcanzan un

determinado umbral se acepta que la imagen contiene una cara. Los valores de correlación se

calculan por separado para los contornos del rostro, ojos, boca y nariz. Generalmente emplean

plantillas de vistas frontales, y esto suele traer problemas a la hora de detectar las caras ya que son

muy sensibles a variaciones de orientación, posición, escala o forma [23]. En respuesta a dichas

limitaciones se proponen métodos multiresolución, multiescala, sub-plantillas y plantillas

deformables con relaciones de distancia preestablecidas [24] (fig.2.2).

Fig. 2.2: Plantilla compuesta de 16 regiones y 23 relaciones entre las regiones [24]

12

2.3. Métodos basados en movimiento

El análisis de movimiento, también llamado análisis dinámico de imágenes, usa

generalmente un cierto número de imágenes consecutivas, algunas veces dos o tres en secuencia. En

este planteamiento comparan frames como en un análisis de imágenes estáticas y el movimiento se

determina buscando correspondencias entre pares de puntos de interés en la secuencia.

Existen tres grandes grupos de problemas relacionados con el movimiento desde un punto de

vista práctico [1]:

1. Detección del movimiento. Es el problema más simple, se trata de registrar cualquier

movimiento detectado. Es útil en el campo de la seguridad, se suele utilizar una simple

cámara estática.

2. Detección y localización de los objetos en movimiento. Una cámara se sitúa en una posición

estática y los objetos se mueven en la escena, o la cámara se mueve y los objetos son

estáticos o ambas cosas a la vez. El problema característico consiste en la detección del

objeto, la detección de la trayectoria de su movimiento y la predicción de su futura

trayectoria. Ejemplos de esto son: la evolución de una masa nubosa mediante secuencias de

imágenes por satélite incluyendo la predicción de su movimiento; o también el control y

predicción del tráfico de vehículo en una ciudad.

3. Obtención de las propiedades 3D de los objetos a partir de un conjunto de proyecciones 2D

adquiridas en distintos instantes de tiempo de su movimiento.

A la representación bidimensional de un movimiento tridimensional se le llama campo de

movimiento, donde cada punto tiene asignado un vector de velocidad correspondiente a la dirección

del movimiento, velocidad y distancia a partir de un observador en una localización apropiada de la

imagen.

En las tres subsecciones que continúan se describen métodos frecuentemente usados en

detección según formas y movimiento.

2.3.1. Flujo óptico

Una forma de analizar el movimiento es mediante la obtención del flujo óptico, el cual

requiere de intervalos temporales pequeños entre imágenes consecutivas y no ocurren cambios

13

importantes entre ellas. Para obtener el flujo óptico se necesita determinar la dirección y la

velocidad del movimiento en todos los puntos de la imagen; el objetivo inmediato es determinar el

campo de movimiento aunque el flujo óptico no siempre coincidirá con él ya que los cambios de

iluminación también se reflejan en el flujo óptico [1]. En síntesis, el flujo óptico refleja los cambios

de la imagen debido al movimiento durante un intervalo de tiempo dt, y el campo de flujo óptico es

el campo de velocidad que representa el movimiento tridimensional de puntos de los objetos a

través del movimiento bidimensional de la imagen; sin embargo, calcular el flujo óptico puede

resultar costoso si los objetos en movimiento son muchos o se mueven muy rápido.

2.3.2. Detección de puntos de interés.

Esta técnica trabaja bien incluso para intervalos de tiempo relativamente altos, al contrario

del flujo óptico donde los intervalos ideales deben ser muy pequeños. El primer paso del método es

encontrar puntos significativos en todas las imágenes de la secuencia (puntos de borde, esquinas,

etc.). Luego se aplica un proceso de emparejamiento que busca correspondencias entre dichos

puntos de la secuencia. El resultado final es la construcción de un campo de velocidad cuya

densidad depende del número de puntos de interés [1].

Thompson y Barnard (1981) proponen un proceso de búsqueda de correspondencia iterativo

[25], que comienza con la detección de todos los posibles pares de correspondencias en imágenes

consecutivas. Para reducir el número de posibles correspondencias se puede imponer un límite a la

velocidad. Así, cada par bajo correspondencia tiene asignada una probabilidad de correspondencia.

Este proceso termina si cada punto de interés en una imagen previa se corresponde precisamente

con un punto de interés en la siguiente imagen y además la probabilidad global de correspondencia,

a) entre pares de puntos es significativamente más alta que otras posibles correspondencias.

b) o es mayor que un umbral prefijado.

c) o proporciona un máximo (óptimo) de probabilidad de todas las posibles correspondencias.

2.3.3. Diferencias

La sustracción de imágenes adquiridas en distintos instantes puede ser suficiente para

detectar movimiento si se supone que la cámara es estacionaria y que no hay cambios de

14

iluminación. Una imagen de diferencias d(i,j), es una imagen binaria donde los valores de 1

representan áreas de la imagen con movimiento, es decir, áreas donde hay una diferencia sustancial

entre los niveles de intensidad de las imágenes consecutivas f1(i,j,t1) y f2(i,j,t2).

d i , j ={0, si∣ f 1i , j , t1− f 2i , j , t2ε∣1, de otro modo

donde ε: umbral predeterminado.

Un elemento d(i,j) de la diferencia de imágenes entre f1 y f2 puede tener valor 1 si f1(i,j) es un

pixel de un objeto en movimiento y:

a) f2(i,j) es un pixel estático de fondo y viceversa.

b) f2(i,j) es un pixel de otro objeto en movimiento.

c) f2(i,j) es un pixel de una parte diferente del mismo objeto en movimiento.

La imagen de diferencias puede calcularse a partir de otras características tales como: nivel

medio de intensidad en alguna vecindad, texturas locales, etc.

2.4. Métodos basados en tonalidad

La variación de brillo sobre la superficie de un objeto es conocida como tonalidad. Sin

embargo la tonalidad no sólo se ve afectada por la forma del objeto, sino que también por las

propiedades de reflectancia de la superficie y la distribución de las fuentes de luz.

Los mapas de reflectancia capturan la dependencia del brillo con la orientación de la

superficie, existe una correspondencia única de la orientación de la superficie a la reflectancia

especificada por el mapa de reflectancia. Sin embargo la correspondencia inversa no es única, un

número infinito de orientaciones de superficies producen el mismo brillo, por lo tanto, un contorno

constante conecta dicho conjunto de orientaciones en el mapa de reflectancia [1].

15

2.5. Métodos basados en texturas

Extraer la profundidad a partir de la textura es una capacidad que poseemos los seres

humanos se puede comprobar fácilmente al observar las siguientes figuras:

Fig. 2.3: Texturas 3D a distintos niveles de profundidad [1].

Dado que la percepción de forma proviene de la observación de la uniformidad, como del

gradiente de textura derivado de la distorsión de los texels3, el problema puede abordarse desde la

proyección en perspectiva o desde la proyección ortogonal.

En localización de caras los métodos de texturas han destacado por su rapidez y altos

porcentajes de acierto, incluso sobre fondos complejos, como es el caso del estudio presentado por

Dai y Nakano (1995) [26] donde emplean parámetros característicos de una matriz de dependencias

de niveles de gris entre celdas de píxeles [27]; su modelo de texturas faciales busca caras sobre

imágenes en color detectando tonos naranja. La ventaja de este método es que es capás de localizar

rostros que no tengan una vista frontal y es tolerante a oclusión por barba o gafas, además de tener

bajas tasas de falsos positivos en la escala YIQ4 y aciertos de hasta 98% en 30 imágenes con caras

de 60 personas.

2.6. Métodos basados en visión estereoscópica

La visión estereoscópica artificial tomó como referencia el modelo estereoscópico biológico.

En estos sistemas el desplazamiento relativo de los ojos permite obtener la tercera dimensión

mediante un proceso de triangulación a partir de las 2 imágenes generadas por el mismo objeto de la

escena 3D en cada ojo. Este fenómeno es posible porque el hecho de que los ojos estén desplazados

entre sí hace que las imágenes en cada ojo se muestren desplazadas según la distancia de los objetos

a los ojos.

3 Contracción del inglés texture element.4 Espacio de color donde Y representa luminancia e I y Q información de crominancia.

16

Fig. 2.4: Sistema biológico de visión estereoscópica [1].

Para extraer la correspondencia de las imágenes de un sistema estereoscópico existen dos

técnicas:

• Por áreas: utilizan la correlación cruzada entre patrones de intensidad en la vecindad local

de un píxel en una imagen con patrones también de intensidad en una vecindad

correspondiente de un píxel en la otra imagen del par estereoscópico.

• Por características: utilizan representaciones simbólicas obtenidas de las imágenes de

intensidad en lugar de las intensidades directamente. Las características utilizadas

normalmente son:

• Puntos de borde aislados.

• Cadenas de puntos de bordes.

• Regiones delimitadas por bordes.

En cualquier caso, y dependiendo del método elegido, como se verá en la siguiente sección,

el proceso de visión estereoscópica puede requerir aun un paso de segmentación adicional en el

sentido de que una vez definidas las características a utilizar es necesario extraer de ellas más

información.

17

2.7. Métodos basados en conocimiento

Este tipo de métodos se centra en las características más notorias de un rostro, intenta

traducir el conocimiento humano sobre detección en reglas estrictas. Por ejemplo, es común que una

cara contenida en una imagen aparezca con dos ojos separados simétricamente, una nariz y una

boca; así entonces, las relaciones entre estos rasgos pueden representarse mediante distancias

relativas. Sin embargo la mayoría de los esfuerzos se centran en reglas relacionadas con los niveles

de gris en condiciones “normales” de luz, deduciendo de estos niveles la ubicación las partes que

conforman un rostro. El método jerárquico de mosaicos [28] es un método representativo de este

grupo.

2.7.1. Mosaicos jerárquicos

Aquí se definen tres niveles de reglas. En el Nivel 1, el método intenta ajustar la cara en

áreas de 4x4 bloques, donde la dimensión de cada bloque es de n x n pixeles.

Una vez encontrada una zona donde el área de los bloques sea una posible candidata a cara

se continúa con el Nivel 2; en este nivel se aplica a las candidatas un histograma de ecualización

lumínica para minimizar la sensibilidad de las reglas a las condiciones de luz y se detectan

contornos subdividiendo cada bloque Nivel 1 en 4 sub-bloques, lo que produce áreas de 8x8

bloques.

Finalmente en el Nivel 3 nuevamente se divide cada bloque en 4 cuatro sub-bloques,

obteniendo áreas de 16x16 bloques de nxn píxeles que identifican boca, nariz y ojos.

Fig. 2.5: Imágenes procesadas con el método jerárquico de mosaicos [28].

Este método jerárquico basado en conocimiento posee 2 limitantes: 1) tiene una fuerte carga

de cálculo computacional ya que debe hacer cálculos iterativos para estimar la dimensión correcta

de los bloques Nivel 1, y 2) sólo emplea bloques y no otras geometrías. Sus tasas de reconocimiento

son inferiores a otros métodos y suele ser usarse sólo cuando quedan pocas imágenes restantes de

un tratamiento previo, u otros algoritmos de escaneo ya ejecutaron un filtrado previo e identificaron

18

candidatas.

2.8. Métodos basados en características invariantes

Los métodos de características invariantes tratan de reproducir la habilidad de los seres

humanos para detectar caras y objetos en diferentes posturas y condiciones del ambiente empleando

un mínimo esfuerzo. Asumen que la explicación de este acto reside en que deben existir

características que no cambian en el tiempo y que por lo tanto no se ven afectadas por ningún

estímulo del entorno. Estás características pueden ser la presencia de cejas, nariz, boca y ojos las

cuales son identificadas mediante algoritmos detectores de contornos.

La desventaja de los métodos de características invariantes es que suelen ser muy sensibles a

la iluminación, ruido y oclusión. Efectos de sombra podrían distorsionar los límites de rasgos como

los que se identifican con las técnicas de la sección siguiente:

2.8.1. Identificación de rasgos faciales

Identificar características comunes a la mayoría de los rostros ha entregado resultados como

la propuesta de Sirohey (1993)[29] donde se segmenta el rostro ajustándolo a una estructura

elíptica. Este modelo busca – usando el detector de contornos Canny [30] – los máximos puntos de

intensidad en la imagen que describan una curvatura, luego se segmentan los puntos de intersección

con los bordes aplicando criterios de continuidad, y finalmente se agrupan los segmentos de

contornos que sean ajustables a la ecuación estándar de la elipse. En una prueba con 48 imágenes5

con objetos de fondo se alcanzó un 80% de detecciones efectivas.

Fig. 2.6: Detección de contornos usando Canny [29]

5 Imágenes de una base de datos del MIT (Massachusetts Institute of Technology).

19

Entre los métodos que mejor rendimiento han demostrado está el de Han et al. (2006)[31].

Este método se centra en que los ojos y cejas son las características más notorias del rostro y que

por lo tanto son las más aptas para la identificación. La propuesta de Han está dirigida a sistemas de

verificación y la detección se divide en tres etapas, la primera consiste en segmentar la zona de los

ojos detectando los píxeles donde la intensidad lumínica cambia significativamente. La segunda

etapa usa estos segmentos como candidatos a ojos y trata de ajustar las relaciones de tamaño, forma

y dirección entre pares de candidatos, una vez que encuentra un par de candidatos que superan un

umbral de relación puede concluir que ha detectado un rostro. Sus resultados experimentales

arrojaron que el porcentaje de detecciones efectivas alcanzó aproximadamente un 94% para 130

imágenes de prueba. La no detección de caras se atribuye a tres factores: las caras de la imagen no

superan la dimensión esperada (50x50 píxeles); no se puede identificar un par de ojos, lo que puede

ocurrir por lesiones o por una imagen mal capturada; problemas de oclusión.

Fig. 2.7: Identificación de múltiples rostros [31]

2.9. Métodos basados en apariencias

Los métodos basados en apariencias se caracterizan por el uso de técnicas estadísticas y por

aprender de sus mismas entradas. Esta clase de métodos se pueden dividir en dos grupos: los que

representa su conocimiento mediante modelos de distribución probabilística y los que implementan

funciones discriminantes [23]. Los más destacados son:

20

2.9.1. Eigenfaces

Derivan del análisis de componentes principales (PCA), interpretan cada imagen facial en

escala de grises como un conjunto bidimensional de patrones brillantes y oscuros; a estas áreas se

les llama eigenface o cara propia [32]. Los patrones de niveles de gris se convierten y representan

vectorialmente formando una base de vectores capaces de representar caras que tienen

características comunes. El algoritmo que crea las eigenfaces consta de los siguientes pasos:

1. Preparar el set de entrenamiento. Las imágenes de caras deben tener la misma dimensión,

estar en escala de grises, en forma vectorial, y las caras deben estar aproximadamente

alineadas. Cada vector es una fila en una nueva matriz de imágenes N.

2. Substraer la media. Se calcula el promedio de grises de todas las imágenes y se substrae de

cada imagen original.

3. Calcular la matriz de covarianzas de N y extraer sus autovectores y autovalores.

4. Elegir los componentes principales, es decir los autovectores (eigenfaces) con mayor

autovalor asociado, los cuales se usarán para representar nuevas imágenes de entrada.

2.9.2. Redes neuronales artificiales

Detectar caras con redes neuronales se considera como un problema de clasificación entre

dos tipos: rostro y no-rostro [13].

Para una imagen de N = M x N píxeles se requiere una red neuronal que tenga la misma

cantidad N de neuronas de entrada. El mapa que corresponde a la imagen se traza en un número p

de neuronas en capas ocultas, estas neuronas van definiendo por turnos el mapa de las neuronas de

salida para que al menos una dispare la correspondiente cara en la base de datos del sistema. La

capa oculta se considera un vector de características que expresa los rasgos faciales de forma

concentrada, sobre todo si p es más pequeño que N.

El rendimiento de los sistemas de localización que emplean RNAs puede alcanzar tasas de

localización efectiva superior al 95% [33], sin embargo son muy dependientes del número de capas,

pesos entre las conexiones y determinación de los parámetros de aprendizaje, por lo que se requiere

precisión y rigurosidad en sus fases de diseño y desarrollo. Además se necesitan muchos elementos

21

clasificables como rostro y no-rostro para entrenar la red, lo cual es un problema, es imposible

recopilar todas las imágenes que no contienen caras. Por otra parte, en el caso de un sobre-

entrenamiento, será difícil para la red alcanzar un mínimo global de su función de error y su índice

de convergencia decrecería [34]. Se recomienda utilizarlo junto a otras técnicas.

2.9.3. Máquinas de soporte vectorial

Las maquinas de soporte vectorial o SVM (Support Vector Machine) implementan la

siguiente idea: mapear los vectores de entrada x en un espacio de características de dimensión

superior Z por medio de un mapeo no lineal elegido a priori. En este se construye un hiperplano

separador óptimo [35]. Mientras mayor sea el margen mejor será la generalización en la

clasificación.

Fig. 2.8: Hiperplano separando elementos válidos de no válidos [35]

Las SVM implementan el principio de minimización del riesgo estructural (SRM). Este

principio de inducción se fundamenta en el hecho de que el error de generalización está acotado por

la suma del error de entrenamiento y un término de intervalo de confianza que depende de la

dimensión de Vapnik-Chervonenkis6. Así entonces, el objetivo del SRM es minimizar el límite

superior del error de generalización en vez del principio de minimización de riesgo empírico (usado

en la RNAs para minimizar el error de entrenamiento) [35].

El entrenamiento de una SVM es equivalente a resolver un problema de programación

cuadrática con restricción lineal, lo que implica que la solución alcanzada por SVM es única,

óptima y ausente de mínimos locales a diferencia de las RNA que durante el entrenamiento

requieren optimización no lineal, corriendo el riesgo de ser atrapadas por mínimos locales [36].

6 Cardinalidad del mayor conjunto de puntos que el algoritmo o modelo puede separar.

22

Osuna et al. (1997) muestran un sistema de detección de rostros que usa SVMs y que

alcanza rendimientos de hasta 97% de localizaciones correctas en imágenes de alta calidad donde

existe un solo rostro [37]. En imágenes con muchos rostros y de calidad variada la localización

desciende a 74.2% de efectividad. Entre sus cualidades destacan que es capaz de detectar caras con

rotaciones de 10° aproximadamente.

Fig. 2.9: Localización de rostros usando SVMs [37].

2.9.4. Hidden Markov models

Una cara puede dividirse intuitivamente en varias regiones como frente, ojos, nariz, boca y

mentón. Según esta clasificación se podría identificar un rostro si las regiones se detectan en un

orden apropiado, y cada región correspondería a un estado dentro de una HMM. Los métodos

basados en HMM generalmente tratan los patrones faciales como una secuencia de vectores donde

cada vector es una franja de píxeles [24]:

Fig. 2.10: Regiones de una cara usando HMMs [24].

Una secuencia consiste en la observación de todos los valores de intensidad de cada bloque.

23

Los estados de salida corresponden a las categorías a las que pertenecen las observaciones.

Las HMM se han aplicado al reconocimiento de la cara y a su localización. Cardinaux et al.

(2006)[38] presentan un sistema de localización automática y reconocimiento de cara usando HMM

tradicionales y una variante 2D donde cada franja es una cadena de Markov (fig.2.11). La

localización automática la lograron usando un método de detección de contornos propuesto por

Fröba y Ermst (2004)[39] que puede alcanzar un índice superior al 90% de localización correcta.

Fig. 2.11: HMM 2D [38].

2.10. Métodos basados en modelos geométricos

Entre los métodos de localización de rostros en tiempo real, destacan también los modelos

geométricos tales como los ASMs (Active Shape Models) y AAMs (Active Appearance Models)

que suelen verse como una versión perfeccionada los ASMs [40][41].

Actualmente los modelos de apariencias activas son los más usados. Esta técnica pertenece

al grupo de modelos paramétricos generativos, los cuales han sobresalido en el pasado por su uso en

seguimiento de rostros en videos (face tracking), estimación de poses para interfaces de usuario en

tiempo real, lectura de labios, y reconocimiento de expresiones.

Los ASMs comparan un modelo de puntos con una nueva imagen usando variante del

algoritmo de maximización de la esperanza [42]. La búsqueda se realiza en torno a la posición

actual de cada punto para encontrar un punto cercano que mejor ajuste un modelo del punto de

referencia. Los parámetros del modelo de formas y que controlan las posiciones de los puntos se

actualizan y luego se desplazan a los mejores puntos de la imagen real. Por otra parte los AAMs

manipulan modelos completos de apariencia, representando variación de forma y de textura de la

24

región cubierta por el modelo, siendo capaces de generar imágenes de objetos completamente

sintéticas. AAM usa la diferencia entre la imagen sintetizada actual y la imagen objetivo para

actualizar sus parámetros.

Cootes et al. (1999) comparan los dos algoritmos [40], muestran los resultados

experimentales y establecen que ASM es más efectivo y rápido en la ubicación de los puntos

característicos de un rostro, sin embargo, AAM tiene una mejor correspondencia con la textura de la

imagen tratada.

Las tres diferencias claves entre ASM y AAM son:

1. ASM sólo usa modelos de textura de la imagen en pequeñas regiones cercanas a cada punto

de referencia. AAM usa un modelo de apariencia de toda la región (generalmente dentro de

un espacio convexo alrededor de los puntos).

2. ASM busca alrededor de su posición, por lo general a lo largo de los perfiles normales a su

frontera. AAM simplemente extrae muestras en virtud de su posición actual.

3. ASM intenta minimizar la distancia entre su modelo de puntos y los correspondientes

encontrados en el resto de la imagen. AAM trata de minimizar la distancia entre el modelo

sintetizado y la imagen objetivo.

Según estas diferencias el método más robusto sería el AAM y que a continuación se detalla.

2.10.1. AAM

Un AAM es un modelo estadístico integrado que combina un modelo de variación de forma

con un modelo de variaciones de la apariencia en un fotograma normalizado en escala de grises.

Corresponder a una imagen supone encontrar los parámetros del modelo que minimizan la

diferencia entre dicha imagen y la síntesis del modelo proyectado en la imagen. La dificultad está

en que el número de parámetros puede ser potencialmente grande [43].

Para construir el AAM hace falta un conjunto de entrenamiento con imágenes etiquetadas

con los puntos significativos marcados en cada ejemplo y en posiciones clave para los rasgos

característicos. Todos los vectores de caras se normalizan en un sistema de coordenadas común y se

aplica PCA para construir el modelo de la forma. En la fase de reconocimiento se hace el proceso

inverso [44].

Los AAMs tienen una variación de forma lineal, lo que significa que una forma puede

25

expresarse como combinación lineal de otros vectores de formas. Una variación en un vértice de un

modelo incide directamente en todo el resto de los vectores.

Fig. 2.12: Representación de un rostro usando AAMs [45].

El algoritmo que sigue AAM se puede resumir en los siguientes pasos [41]:

1. Proyectar la muestra de textura en el modelo: )(1imus gTg −=

2. Evaluar el vector de error: mg−= sgr y el error actual: 2|| rE =

3. Calcular desplazamientos, )( pRrp −=∂ ; TT

pr

pr

prR

∂∂

∂∂

∂∂=

− 1

4. Actualizar los parámetros del modelo: pkpp ∂+→ ; inicialmente 1=k ,

5. Calcular los nuevos puntos: 'X y el nuevo modelo de textura mg '

6. Obtener una nueva imagen a partir de los nuevos puntos y genera img '

7. Calcula un nuevo vector de error: mimu ggTr ')'(' 1' −= −

8. Si Er <2' se acepta los nuevos parámetrosSi Er >2' reintentar con 5.0=k , 25.0=k etc.

Una secuencia gráfica de lo que en concreto realiza el algoritmo luego de 18 iteraciones se

ve en la figura 2.13.

Fig. 2.13: Iteraciones en AAM [41].

26

2.11. Métodos 3D e infrarrojos

En las imágenes 2D la apariencia de un rostro puede variar por efectos de iluminación o

posición, lo que implica mayores desafíos para los sistemas de reconocimiento. Una buena forma de

solucionar estos problemas es usar modelos de caras en tres dimensiones.

Los modelos 3D no tenían mucha aceptación debida a su complejidad y alto coste

computacional que involucran, sin embargo, actualmente la amplia gama y disponibilidad de

sensores 3D en tiempo real [15] han hecho que los modelos resurjan.

Manejan variaciones de iluminación y expresiones faciales y pueden dividirse en dos

categorías: métodos 3D simples que usan sólo representaciones de la superficie o forma del rostro, y

métodos que usan formas 3D e imágenes 2D. Zhao y Chellapa (2006) [46] exponen un sistema

híbrido 2D+3D donde se captura mediante eigenfaces una imagen 2D y con sensores una imagen

3D; normalizan en posición, rotación y escala, usando la punta de la nariz como punto de encuentro

entre ambos tipos de capturas. Los resultados experimentales demostraron que el uso de esta técnica

híbrida puede alcanzar rendimientos superiores al 95% a diferencia de solo imágenes 2D que no

superaban el 90%. Si se aumentan la cantidad de muestras que forman el espacio de caras el

rendimiento incluso alcanzó el 98% de verificación efectiva.

Otra de las técnicas que se está abriendo paso en la detección de caras son las de sensores

infrarrojos (IR). La ventaja principal de estas técnicas sobre los sensores visibles, es que las

imágenes IR son independientes de la iluminación ambiental, la luz IR solamente se emite y no se

refleja [47]. Esta característica las convierte en una buena alternativa para el reconocimiento de

patrones.

Se propone que el método más conveniente para reconocimiento IR son las SVM por las

razones siguientes:

1. Las características faciales en imágenes suelen ser representadas por formas suaves a

diferencia de las imágenes visuales.

2. Las imágenes IR son independientes de la luz ambiente, no requieren preprocesamientos

como corrección del gradiente de iluminación, ecualización histograma o DCT7 para los

datos de entrenamiento, los datos de temperatura pueden ser directamente aplicados.

7 Transformada del coseno.

27

3. La técnicas para acelerar el proceso localización – por ejemplo, la extracción de piel –

tienen menor coste computacional ya que el espectro de temperaturas siempre se

encontrará en un rango entre 30° y 40°; así entonces, reducir el espacio de búsqueda se

lograría fijando un umbral.

Wang y Sung (2007) plantean que la información extraíble del espectro de temperaturas no

es suficiente para capturar rasgos que definan una emoción; proponen mezclar imágenes IR con

imágenes tradicionales para formar estructuras geométricas 3D realistas [48]. Las esquinas de los

ojos y boca las detectan en la imagen visible, y la posición de la cabeza a partir de la imagen IR. La

figura 2.14 muestra la orientación de la cabeza detectada por un sensor de orientación espacial (en

rojo) y el sistema que proponen (en azul). Los resultados son muy similares.

Fig. 2.14: Comparación de rendimientos software vs. sensor hardware de orientación espacial [48].

28

Capítulo 3

Reconocimiento de emociones

3.1. Introducción

La información extraída de los rasgos faciales es regularmente de carácter geométrico

(asociada a las formas de ojos, nariz, boca, etc. y ubicación de vértices de la boca u ojos) y

relacionada con la apariencia o texturas (arrugas, surcos y protuberancias). Estas son las bases del

reconocimiento de emociones, el cual ha crecido sobre todo en el campo de HCII (Human

Computer Intelligent Interaction) [14][15][16][17][18], y además es foco de interés en el apoyo de

diagnósticos psiquiátricos y psicológicos [19][49][20][21]. La estimación de la edad de una persona

puede derivarse de los métodos empleados para detectar emociones, un adulto por lo general tiene

muchas líneas de expresión o surcos, sus expresiones neutrales suelen aparentar tristeza, y el brillo

de su piel es inferior al que puede tener un niño.

Los avances para detectar emociones en datos extraídos de la voz se han desarrollado de la

misma manera [50][51][52] siendo complemento de las técnicas basadas en el rostro y formando

parte de sistemas multimodales [53][44][54]. Sin embargo este capítulo describirá sólo los

relacionados con características faciales.

3.2.Estudios de la psicología.

Los estudios de Darwin sobre emociones [55] tomaron dos cursos distintos, el de la

perspectiva etológica8 y el de la perspectiva psicológica; ambas corrientes crecieron separadas, sin

embargo convergieron en 1994 con Fridlund y su crítica al Programa de Expresión Facial (P.E.F.)9

[56][57]. Este programa consta de una serie de hipótesis, teorías y métodos, pero es

sorprendentemente difícil encontrar una aceptación completa del conjunto, dado que cada autor

presenta su propia visión sobre un programa que evoluciona rápidamente [57].

No obstante a que muchos autores presentan su propia visión frente al PEF, la mayoría de

ellos están de acuerdo en que la principal conclusión del programa es el carácter de universalidad de

8 Estudio científico del carácter y modos de comportamiento del hombre. 9 Nombre dado al conjunto de investigaciones sobre expresiones faciales basadas en emociones “básicas”: alegría, desagrado, ira, tristeza, sorpresa, miedo.

29

las expresiones faciales al demostrar una emoción [57], es decir:

1. En todos los grupos humanos ocurren los mismos patrones de movimientos faciales.

2. Observadores de distintas sociedades atribuyen una misma emoción a patrones establecidos

como universales.

3. Esos patrones universales son por lo tanto manifestaciones de todas esas emociones en todas

las sociedades humanas.

La tabla siguiente intenta predecir similitudes entre culturas en interpretación de expresiones

faciales sin postular un sistema de señas innato; a este conjunto de supuestos, advertencias y reglas

de predicción se le denomina en psicología universalidad mínima.

Se supone que:

1. Los patrones de los movimientos de músculos faciales ocurren en todos los

seres humanos.

2. Los movimientos faciales están correlacionados con estados psicológicos (p.e.:

acciones, preparación para acciones, estados emocionales, estados cognitivos).

3. La mayoría de las personas pueden inferir algo del estado psicológico de otras

a partir de sus movimientos faciales.

4. Las personas de culturas occidentales tienen la creencia de que tipos

específicos de acciones faciales son expresiones de tipos específicos de

emociones.

Se advierte que:

1. Acciones faciales no son necesariamente señales.

2. La acción facial no es necesaria o suficiente para una emoción. Una acción

facial no necesariamente está más asociada con emociones que con otro

estado psicológico.

3. Las inferencias hechas en una cultura, o por un individuo, no necesariamente

coincidirán exactamente con inferencias hechas en otra cultura o por otro

individuo.

4. Las culturas no necesariamente comparten creencias occidentales sobre

asociaciones específicas entre emociones y acciones faciales.

30

5. Creencias occidentales sobre la asociación entre expresiones faciales y

emociones no son necesariamente válidas.

Se predice que:

1. Fotografías de movimientos faciales serán asociados a un estado estado

psicológico con el acuerdo de que es más que una casualidad.

2. Las personas, en algunas ocasiones, son precisas en inferencias que hacen

sobre la base de movimientos faciales.

3. Habrán similitudes entre culturas que deducen desde los movimientos faciales.

Tabla 1: Universalidad mínima [57].

Actualmente los psicólogos clasifican las emociones en categorías discretas, en un lenguaje

común y universal. La categoría más sencilla comprende seis emociones básicas, resultantes de

estudios inter-culturales [44][58][59]: felicidad, tristeza, miedo, ira, asco/disgusto, y sorpresa.

Tabla 2: Resultados del estudio inter-cultural hecho por Ekman [59].

Cuando se interactúa con otra persona inevitablemente se juzga qué tan feliz o no feliz se

encuentra nuestro interlocutor y qué tan somnoliento o excitado está. Ante esto, Russell y

Fernández-Dols (1997) presentan dos dimensiones para estudiar las emociones y su relación con

sentimientos afectivos: placer y excitación (fig.3.1) [57]. Con estas nuevas dimensiones se pretende

establecer niveles de predominancia entre ellas ampliando la cantidad de emociones clasificables:

31

Figura 3.1: Juicios Placer-Excitación para sentimientos afectivos [57].

3.3.Desafíos actuales

¿Por qué se cometen faltas al interpretar la expresión facial de las emociones? ¿Cómo se

puede decir cómo se siente una persona a partir de su cara, y cómo se puede saber si su expresión

facial es genuina o falsa?. En verdad estas son las preguntas que siguen marcando el rumbo de las

investigaciones en reconocimiento de expresiones. Ekman y Friesen (1975)[22] concluyeron a partir

de sus investigaciones que la cara proporciona tres tipos de señales para transmitir más de un tipo

de mensaje o información:

• Estáticas: incluyen aspectos más o menos permanentes de la cara como el color de la piel,

forma de la cara, estructura de los huesos, cartílagos, depósitos de grasa, forma y

localización de los rasgos faciales (cejas, ojos, nariz, boca).

• Lentas: cambios en la apariencia de la cara que tienen lugar gradualmente con el paso del

tiempo. Además del desarrollo de las arrugas permanentes, hay también cambios en el tono

muscular, la textura de la piel e incluso cambio de color de la piel por paso de los años,

principalmente en edades avanzadas.

• Rápidas: se producen por movimientos de los músculos faciales, dando como resultado

cambios temporales en la apariencia de la cara, cambios en la localización y tamaño de los

rasgos faciales y arrugas temporales. Estos cambios se reflejan en la cara durante unos

32

segundos o incluso durante fracciones de segundo.

Las señales rápidas son las más fáciles de cambiar o disfrazar inhibiendo los músculos

asociados o cubriendo parte del rostro; los engaños generalmente se encuentran en este tipo de

señales, sin embargo, las investigaciones han demostrado que se pueden hacer acertados juicios

sobre las emociones básicas a partir de señales rápidas [58]. Cuando ocurren sentimientos

transitorios tales como felicidad, sorpresa, ira, miedo, etc. los músculos faciales se contraen y hay

cambios visibles en la apariencia de la cara.

Además de lo transmitido por las señales rápidas, el rostro también posee otros múltiples

mensajes a transmitir. La cara emite mensajes sobre emociones, humor, actitudes, carácter,

inteligencia, atractivo, edad, sexo, raza y posiblemente sobre más aspectos; sin embargo las técnicas

de detección de emociones estudian esencialmente los mensajes emitidos por las señales rápidas

que es donde más información existe.

Las personas suelen ocultar sus emociones más intensas cuando están junto a otras y

también cuando han crecido y absorbido reglas culturales como “Los niños no lloran.” o “No

debes mirar a tus padres de manera desafiante si te regañan.”, que suelen incorporarlas cuando son

menores pero que de algún modo condicionan su libre expresión cuando adultos [22].

Es mucho más fácil ocultar lo que se revela con palabras que lo que se revela con el rostro

debido a factores como velocidad, las expresiones son involuntarias y el nivel de retroalimentación

es inferior; en cambio en las palabras podemos corregirnos fácilmente solos o con ayuda, además de

que se ha aprendido a hablar preparándonos muy bien en gramática y cantidad de vocabulario que

manejamos [22]. Al intentar ocultar expresiones se pueden distinguir tres categorías [22]:

Leakage: cuando una persona intenta ocultar una expresión pero aun así da señales de ella.

Intento de traición de un sentimiento.

Poker-face: consigue ocultarla absolutamente.

Deception clues: indicios de que la emoción que se muestra no es convincente y se advierte

que algo está mal en ella.

33

3.4.Técnicas de investigación para inferir emociones.

La clasificación anterior puede ser interpretada como demasiado subjetiva ya que no define

una unidad de medida.

Las expresiones faciales han sido investigadas como una herramienta para comprender la

regulación de emociones en salud y enfermedades e investigar sus sustratos neuronales [60][61].

El análisis de expresiones faciales consiste de dos subproblemas: reconocimiento de

expresión y cuantificación de la expresión, donde ambas requieren un modelamiento facial.

Reconocer expresiones involucra clasificar la expresión como una de varias posibles emociones

[62]. Por otra parte, en cuantificación de la expresión, se necesita cuantificar la intensidad de la

emoción dentro de un conjunto de regiones del rostro, establecidas para comprender así cuánto es la

contribución de cada región. El análisis automático de expresiones ha atraído la atención de la

visión computacional debido a su importancia para investigaciones clínicas, pero los esfuerzos se

han centrado en reconocimiento de expresión y no en cuantificación [63].

3.4.1. Métodos de cuantificación de emociones

Regional Volumetric Difference (RVD)

Verma et al. (2005) [63] proponen un método para cuantificar expresión que se aplica

considerando al rostro como un conjunto de regiones con límites bien definidos. Un cambio de

expresión en la cara lo caracterizan y cuantifican mediante una combinación de deformaciones

elásticas (expansiones y contracciones); luego de cada deformación se da lugar a una

transformación geométrica 2D, esta transformación se utiliza para registrar las acciones en cada

región y contrastarlas con una plantilla de expresión neutral. Al compararlas obtienen dos

resultados:

1. Un conjunto de escalares que representan la magnitud de desplazamiento para cada píxel

considerando la diferencia entre una plantilla (cara neutral) y una nueva imagen. Este valor

se calcula mediante la función:

RVDF=det ∇ S s ;

donde:

34

S :matríz de transformación que contiene desplazamientos de los pixelesentre lasimágenes.s : puntoen la imagende un sujeto.∇ S s=Jacobiano de ' S ' evaluado en cada punto ' s ' de la imagen.

Fig. 3.2: Mapa RVD normalizado [63].

2. El vector de desplazamiento de la deformación que caracteriza la dirección y el movimiento

de cada píxel durante el cambio de expresión.

(a) (b)

(c)

Fig. 3.3: (a)Cara neutral, (b) con expresión y (c) mapa de vectores de deformación asociado [63].

35

RVD sólo se ha empleado para cuantificar imágenes de actores profesionales expresando

emociones. La validación experimental de Verma et al. (2005) se realizó sobre 11 imágenes de

felicidad, 6 de tristeza, 8 de miedo y 15 de ira; para la clasificación utilizaron PCA. Los resultados

que obtuvieron son [63]:

• Felicidad: todas clasificadas correctamente pero muy cercanas a ira.

• Tristeza: 3 clasificadas correctamente, 2 clasificadas como ira y 1 como miedo.

• Ira: 12 clasificadas correctamente, 1 como tristeza y 2 como miedo.

• Miedo: 4 clasificadas correctamente, 2 como tristeza y 2 como ira pero con baja intensidad.

Facial Action Coding System (FACS)

El modelo FACS – propuesto por Ekman y Friesen (1978)[64] – intenta responder a la

ausencia de métricas para clasificación de emociones básicas con una serie de puntos a observar en

el rostro. Actualmente es casi un estándar en lo que refiere a clasificación de la expresión facial y

está presente en investigaciones del área de la psicología y en el área de la animación 3D [65][66].

FACS describe todas las actividades visuales en base a 46 unidades de acción únicas

(AUs10), además de varias categorías de cabeza y posiciones de ojos y movimientos. Es importante

resaltar que aunque FACS surge en la anatomía no existe una correspondencia 1:1 entre los grupos

de músculos y las AUs, esto se debe al hecho de que un músculo puede actuar en diferentes formas

– o contraerse en distintas regiones – para producir acciones visibles diferentes. Un ejemplo claro

de esto son los músculos frontales; la contracción de la zona media de ellos sólo levanta las

esquinas interiores de las cejas (produciendo la AU 1), mientras que la contracción de la porción

lateral de los frontales levanta las cejas desde su parte externa (produciendo AU 2). En el ANEXO I

se puede observar la lista completa de AUs presentes en FACS.

La comparación más frecuente de los resultados que pueda entregar FACS es con los

resultados de evaluaciones de actividad electrofisiológica medida con electromiografías faciales

(EMG)[62]. Los EMG miden potenciales eléctricos en los músculos de la cara para luego inferir 10 AUs, del inglés Action Units.

36

contracciones musculares. La ventaja principal de los EMG es su capacidad para detectar actividad

muscular que a simple vista no puedes ser captada por el ojo humano y que por lo tanto no puede

ser codificable mediante sistemas como FACS. Sin duda esto puede convertir a los EMG en el

sistema ideal para obtener medidas, sin embargo, es un sistema demasiado invasivo y puede

provocar reacciones musculares que interfieran con las esperadas de estímulos externos. Otro

problema de los EMG es que las señales de grupos musculares pueden verse afectadas por

potenciales de músculos cercanos, teniendo como resultado final una mala clasificación de la

expresión [62].

Fig. 3.4: Músculos codificados en FACS [64]

37

Facial Expression Coding System (FACES)

FACES se propuso principalmente por dos necesidades [67] :

1. Una codificación facial que esté alineada con un modelo dimensional de la emoción. Kring

y Sloan (2003) comentan en The Facial Expression Coding System (FACES) que varios

investigadores han sostenido que la expresión afectiva consta de dos grandes dimensiones:

valencia (agradable/desagradable) y excitación (relajante/activante); así mismo, otros

autores también distinguen que la variación entre experiencias emocionales es posible

capturarla por dos dimensiones.

2. La reducción de tiempos de codificación de las emociones. Examinar pequeños segmentos

puede impedir una correcta evaluación del comportamiento expresivo y requiere a priori

decisiones sobre qué segmentos son los más idóneos para producir el comportamiento más

expresivo, lo que suele ser difícil. FACES no necesita una codificación individual de cada

músculo, sino que realiza una codificación del conjunto de músculos involucrados en la

expresión.

FACES entrega información de frecuencia, intensidad, valencia y duración de la expresión

facial. La selección de variables se basó en teoría y previos estudios empíricos. Adoptó el estilo

descriptivo de Ekman y define una expresión como cualquier cambio en la cara, pasando desde un

rostro neutral a uno no neutral para luego volver a uno sin expresión. Cuando ocurre esta situación,

se inicia un control de frecuencia de expresiones. Luego, codificadores humanos evalúan la valencia

(positiva o negativa, Tabla 3), la intensidad de cada expresión detectada y la duración de cada

expresión. Finalmente, se calcula un índice de expresividad global para cada segmento y se pueden

hacer juicios sobre la emociones específicas expresadas en cada segmento [67].

Positive NegativeHappy Miserable

Delighted DistressedGlad Annoyed

Amused JitteryPleased Nervous

38

Content AngrySatisfied Gloomy

Calm AnxiousSerene AfraidExcited Tense

Astonished AlarmedCheerful FrustratedSurprised Disgusted

Active DepressedContent Hostile

Tabla 3: Valencias positivas y negativas [67]

3.4.2. Análisis automático de expresión facial

El análisis automático – también llamado AFEA11 – obtiene medidas cuantitativas

automáticamente. Los desafíos de este tipo de análisis están en dos factores principales:

1. Las expresiones faciales varían según apariencias, grado de plasticidad, morfología y

frecuencia de las expresiones.

2. Cuantificar automáticamente la intensidad de una expresión es complejo, sobre todo cuando

las expresiones son muy sutiles. Por ejemplo, FACS emplea reglas para calificar las

intensidades de las AUs, pero finalmente esta calificación está sujeta a un juicio subjetivo.

Pantic y Rothkrantz (2000)[68] evaluaron la factibilidad de que un sistema artificial pueda

alcanzar la capacidad del ser humano de identificar emociones con un mínimo esfuerzo aparente.

Identificaron tres aspectos en el problema: detección de rostro, extracción de la información de la

expresión facial, y clasificación de la expresión facial que es la más estudiada de las tres debido a su

utilidad en aplicaciones HCI12. Sin embargo, la mayoría de los sistemas no contemplan bello facial

ni gafas lo que los limita a aplicaciones poco realistas, además Pantic y Rothkrantz sostienen que no

existe certeza de que las emociones básicas de Ekman y Friesen – en las que se sostienen la mayoría

de los desarrollos – sean suficientes para clasificar todas las emociones que pueda expresar un

rostro y sobre todo si desean sistemas HCI independientes de la persona.

11 AFEA, del inglés Automated Facial Expression Analysis.12 HCI, del inglés Human Computer Interface.

39

Los métodos AFEA se dividen en tres grupos:

• Basados en imágenes estáticas.

• Basados en videos.

• Basados en modelos geométricos.

• Basados en superficies 3D e infrarrojos.

Métodos basados en imágenes estáticas

Extraen características desde imágenes individuales y crean clasificadores para reconocer

expresiones faciales. Las características comúnmente usadas son geometría, textura y

combinaciones de ambas. Se han agrupado las características geométricas en permanentes y

transitorias. Las características permanentes incluyen posiciones de labios, ojos, cejas, mejillas y

arrugas o marcas de expresión producto de los años; un artículo reciente donde se expone un

análisis sobre características permanentes es el de Lucey et al. (2007) el que presenta una fusión de

un AAM con el sistema FACS [45]. Por otra parte, las características transitorias incluyen marcas y

arrugas que no se distinguen en reposo pero que aparecen con las expresiones, estas texturas pueden

obtenerse mediante técnicas como cálculo de intensidad de la imagen, diferencia entre imágenes,

detección de bordes, y wavelets [69].

Para reconocer expresiones faciales sutiles tanto las expresiones calculadas mediante

componentes principales como las de diferencia de imagen requieren una alineación precisa que no

es fácilmente alcanzable en la realidad. Las características de contorno se usan a menudo para

describir surcos o líneas de expresión, pero no sirven demasiado para detectar expresiones sutiles.

Las wavelets de Gabor calculadas a partir de la apariencia facial describen información

espacial y de frecuencia, además son eficientes en sistemas destinados a localización de rostro [70]

así como en reconocimiento de expresiones [71][72].

Experimentos como el de Zhang (2003) [13], han demostrado que la fusión de métodos

aplicando texturas tales como wavelets de Gabor o PCA con técnicas geométricas pueden proveer

mejor rendimiento que usarlas por separado. Luego, para reconocer la expresión facial, las

características extraídas son entradas en clasificadores como: Nearest Neighbor [73], redes

40

neuronales [74], SVM [72], redes bayesianas [75], y Adaboost [72][69][76][77]. De estos

clasificadores el que ha dado mejores resultados, según la publicaciones recientes, es Adaboost. Las

tablas siguientes muestran el porcentaje de acierto de un modelo híbrido Haar+Adaboost frente a un

modelo Gabor+SVM en un problema de localización de unidades de acción FACS en ojos, cejas y

boca, en imágenes de 24x24 y 64x64 píxeles:

Tabla 4: Exactitud de reconocimiento de los clasificadores Gabor+SVM y Haar+AdaBoost[77].

Tabla 5: Tiempos de extracción de características de Gabor y Haar [77].

Tabla 6: Tiempos de clasificación de SVM frente a AdaBoost [77].

Métodos basados en video

Cohen et al. (2003) afirman que la información temporal que se pueda obtener desde un

vídeo mejoraría la precisión de reconocimiento sobre el uso de imágenes simples [78]. Sin embargo

sólo pocas propuestas, como la de Wang et al. (2008), han empleado esta información [69].

41

Wang et al. (2008)[69] destacan que un aspecto importante en los métodos basados en video

es mantener la precisión de seguimiento. Varios modelos deformables como los musculares [79], de

alambres 3D [78], mallas faciales [80][81], redes potenciales [82], ASMs y formas geométricas

[63][69] se usan para el seguimiento de rostro. Aunque se ha demostrado que los sofisticados

modelos faciales deformables mejoran la precisión del seguimiento, y en consecuencia mejorarían

también la precisión del análisis de la expresión facial [83], no hay experimentos que muestren que

el modelo deformable sea superior a los demás [69]. Resulta evidente que los métodos basados en

video pueden capturar más imágenes útiles para identificar emociones, cambios sutiles en el rostro,

o ciertas tendencias; no obstante, mientras más grande sea la cantidad de información a analizar se

hacen necesarios métodos que tengan mayor autonomía e independencia de un especialista.

Métodos basados en modelos geométricos

Saatci y Town (2006)[84] presentan un esfuerzo para reconocer el género y la emoción

expresada (alegría, enfado, tristeza y neutralidad). El método usado para extraer las características

de los rostros fue AAM y para clasificar dichas características se usaron SVMs.

Para inicializar la búsqueda del AAM se empleó una implementación del detector de rostros

de Viola-Jones [85]. Luego para la etapa de entrenamiento se usó un conjunto de imágenes de caras

frontales, todas ellas anotadas (marcadas con 58 puntos en las regiones de interés) y donde los

sujetos mostraban cada una de las cuatro emociones además del efecto en sus características físicas

(vello facial, género y raza lo que mejora la capacidad de generalización del sistema).

La forma de clasificar las expresiones en [84] se centró en una arquitectura de SVMs en

cascada:

Fig. 3.5: Clasificación de expresiones en cascada [84].

42

Y los resultados se pueden ver en la siguiente matriz de confusión donde destaca claramente

la expresión de felicidad frente a las demás:

Fig. 3.6: Matriz de confusión para el modelo SVM en cascada [84].

Métodos basados en superficies 3D e infrarrojos

Sugimoto et al. (2000)[86] intentan identificar mediante infrarrojos las transiciones entre

distintas emociones expresadas, y concluyen que fácilmente se podrían detectar transiciones cuando

realmente no existe ninguna (falsos positivos). Las causas de las falsas transiciones estarían en

movimientos musculares voluntarios; para eliminar esta influencia proponen construir un modelo

geométrico normalizado 3D con una vista frontal y expresión neutral para luego analizar las

variaciones de temperatura y detectar precisamente qué regiones tienen información válida al

momento de cambiar de expresión; la figura 3.5 describe el algoritmo de diferencias propuesto por

Sugimoto et al. (2000) y en la figura 3.6 se puede observar una adaptación de una maya 3D a la

imagen térmica.

43

Fig. 3.7: Diagrama de flujo para analizar los cambios de temperatura en el rostro [86].

Para estudiar las imágenes térmicas emplearon los sistemas termográficos TVS-3500 y TVS-

8100 de Nippon Avionics13 ya que se requería la detección más precisa de diferencias de temperatura

dentro de una resolución espacial de 300x300 píxeles y con hasta 256 niveles de temperatura.

Fig. 3.8: Normalización de un rostro empleando IR y modelos geométricos 3D [86].

13 http://www.avio.co.jp/english/

44

Capítulo 4

Propuesta para sistemas de seguridad y control de tránsito de pasajeros

4.1.Resultados de la investigación sobre el estado del arte

En la etapa de localización del rostro lo que se desea es un método rápido y con un alto

porcentaje de acierto, mientras más rápido se localice el rostro mayor será la cantidad de frames

disponibles para extracción y análisis de expresiones en la etapa posterior.

Algunos autores destacan la rapidez de los métodos de localización por color o texturas y los

estadísticos o basadas en reglas [26][27]. Otros, como Osuna et al. (1997)[37], proponen soluciones

más complejas como clasificación de apariencias mediante SVMs – que alcanzan niveles de hasta

un 97% de correcta localización en imágenes de alta calidad donde hay solo un rostro, pero niveles

cercanos a 77% donde hay más de uno [37] – y clasificadores AdaBoost sobre características de

Haar [69] cuyos resultados, extrayendo características y clasificando expresiones superan en tiempo

y precisión a los SVM [57] como se observó en las Tablas 4, 5 y 6.

En el punto 3.4.2 se citó una investigación que usa cámaras IR térmicas para interpretar

expresiones y capturar transiciones entre ellas [86], aunque esta técnica también puede ser muy útil

en localización de rostros en tiempo real si analizan las imágenes desde la perspectiva de color o

textura.

En lo que concierne netamente a identificación de expresiones la mayoría de los autores

concuerdan en la existencia del carácter de universalidad mínima de las expresiones faciales al

demostrar una emoción [57] ya que:

1. En todos los grupos humanos ocurren los mismos patrones de movimientos faciales.

2. Observadores de distintas sociedades atribuyen una misma emoción a patrones

establecidos como universales.

3. Esos patrones universales son por lo tanto manifestaciones de todas esas emociones en

todas las sociedades humanas.

45

Una buena interpretación de dichas emociones está sujeta al contexto en el cual se

desenvuelve un individuo, es posible que una persona que está a punto de llorar de muestras de

tristeza en su rostro, pero el llanto puede estar ocasionado por dolor físico, por tristeza, presión

psicológica o por un intenso momento de felicidad. Para el caso de control de pasajeros, el contexto

está bien definido.

4.2.Sistema propuesto

El esquema para localización y seguimiento propuesto por Wang et al. (2008)[69] (fig. 4.1)

es una solución que se adecua a las necesidades de localización y seguimiento, lo que la convierte

en una solución válida para el problema que se presenta en este TFM. Además, puede responder a

problemas de oclusión y de caras en orientaciones no frontales al contrastar la región donde se

detectó la cara con los puntos característicos del AAM.

Fig. 4.1: Diagrama de flujo de la propuesta de Wang et al.(2008)[69]

Sin embargo, modelos de carácter geométrico, como los AAM, requieren de hardware

potente que sea capaz de ejecutar su algoritmo en tiempo real, y más aun si se están observando

expresiones o microexpresiones14. Por este motivo se propone en este TFM replantearse la

identificación de expresiones y comenzar desde los elementos básicos que logran transmitir una

emoción tales como: cejas, ojos y boca.

Aplicaciones de mensajería instantánea recurren a dichos elementos básicos y los ofrecen

para que sus usuarios expresen con imágenes en lugar de palabras. Algunos ejemplos de esta forma

de expresar y su semejanza con una expresión real son:

14 Expresión breve e involuntaria. Su duración se estima en fracciones de segundo.

46

Fig. 4.2: Formas visuales clásicas para expresar tristeza, ira y sorpresa respectivamente.

Para individualizar los elementos de expresión en un rostro real se puede aprovechar su

característica principal: resaltan en el marco general del rostro, y por lo tanto tienen un contorno

bien definido. Citando el modelo FACS de Ekman y Friesen (1978)[64] las AUs involucradas en

este caso serían:

• Cejas:

◦ AU1: levantamiento cejas parte interior.

Fig. 4.3: Unidad de acción 1.

◦ AU4: bajada de cejas.

Fig. 4.5: Unidad de acción 4

• Boca:

◦ AU26: caída del mentón.


◦ AU27: apertura de la boca.

47


Se propone en este documento extraer los elementos usando operadores morfológicos. Las

operaciones morfológicas son operaciones realizadas sobre imágenes binarias que describen formas.

Estas operaciones toman como entrada una imagen binaria regresando como resultado una imagen

también binaria donde el valor de cada nuevo píxel se obtiene en función del valor del píxel original

y de sus vecinos. Entonces, eligiendo apropiadamente la forma de los vecinos a considerar

(elemento estructurante), pueden construirse operaciones morfológicas sensibles a una forma en

particular.

Las operaciones morfológicas usadas frecuentemente son:

Dilatación: adiciona píxeles con valor 1 en la frontera de cada objeto. La adición se hace según la

forma del elemento estructurante que sitúa su centro en cada píxel original del objeto, luego el píxel

del origen tomará el máximo valor de sus vecinos, es decir, el valor 1 si existe en la vecindad. En la

figura siguiente se observa la aplicación de dos elementos estructurantes sobre un objeto:

Fig. 4.8: Dilatación.

Erosión: elimina de la frontera píxeles con valor 1. Al igual que en la dilatación la forma del

elemento estructurante determina la forma final del objeto y el píxel analizado convertirá su valor

de 1 a 0 si en su vecindad existe algún elemento 0. Aunque puede considerarse el operador inverso

48

de la dilatación, en la práctica no lo es ya que elimina objetos pequeños que pueden desaparecer

absolutamente de la imagen:

Fig. 4.9: Erosión.

Apertura: es la aplicación de una erosión seguida de una dilatación manteniendo el elemento

estructurante.

Fig. 4.10: Apertura.

Cierre: aplicación de un operador de dilatación seguido de una erosión manteniendo el elemento

estructurante:

Fig. 4.11: Cierre.

El algoritmo propuesto para concretar la clasificación de la expresión basada en contornos

49

queda definido en términos generales por los siguientes pasos:

• Capturar un frame desde un video o cámara.

• Localizar y extraer del frame una subimagen que contenga sólo el rostro a analizar15.

• Convertir la imagen del rostro a escala de grises.

• Binarizar la imagen fijando un umbral sobre el cual los pixeles que superen X nivel de gris sean

todos de color negro y bajo el umbral todos blancos.

• Aplicar el filtro morfológico dilate sobre la imagen binarizada. Se obtiene una imagen con

cejas, ojos y boca más notorias.

15 Esta tarea la realiza el clasificador AdaBoost sobre características de Haar que es parte de las bibliotecas de distribución pública OpenCV y de una versión compilada para su uso en Matlab. http://www.mathworks.com/matlabcentral/fileexchange/19912

50

• Aplicar el algoritmo de detección de contornos Canny (utilizado en el EIT I (2008)[87]).

• Suprimir de la imagen los objetos de menor tamaño que no superen un umbral de cantidad de

pixeles que lo definen.

• Unir segmentos de líneas rotos mediante el operador morfológico bridge.

• Etiquetar individualmente los objetos restantes y calcular los centroides de cada uno.

• Localizar los dos objetos menos distantes del eje X (según coordenadas de la imagen total) e

identificarlos como las cejas. El eje de coordenadas siempre tendrá el origen situado en el píxel

superior-izquierdo de la imagen.

• Localizar el objeto con mayor área en la parte inferior de la imagen e identificarlo como el

objeto que representa la boca.

51

• Extraer el grado de inclinación que poseen los objetos cejas y determinar según el mismo si se

expresa tristeza o ira.

• Extraer el grado de apertura de la boca y determinar si expresa sorpresa.

Al extraer características desde los rostros se observó que el contorno de la boca suele ser

más difícil de extraer que los contornos de cejas y ojos, por lo tanto los operadores morfológicos no

deberían aplicarse de igual forma para la imagen completa. Así, se planteó la posibilidad de

segmentar la imagen y generar dos subimagenes: una superior que contenga contornos de cejas y

ojos, y una inferior que contenga sólo la boca. Estas operaciones de división de imagen y

aplicaciones de operadores por separado puede considerarse como un proceso previo a la

determinación de la emoción. En resumen las etapas de pre-procesado son:

52

Y el diagrama de flujo de la solución propuesta es:

53

54

4.3. Pruebas de rendimiento

El algoritmo se implementó sobre Matlab ya que los operadores morfológicos empleados

están incorporados en esta herramienta. La interfaz gráfica tiene la siguiente apariencia:

Fig. 4.7: Prototipo identificador de expresiones.

4.3.1. Pruebas con imágenes

Para evaluar el rendimiento se utilizaron 90 imágenes de la base de datos de JAFFE16. Esta

base de datos contiene sólo imágenes clasificadas dentro de las seis emociones básicas, donde todos

los sujetos fotografiados son mujeres japonesas. Para probar la aplicación desarrollada se

consideraron expresiones de sorpresa, ira y tristeza.

Fig. 4.8: Imágenes de JAFFE representando ira, sorpresa y tristeza respectivamente.

16 http://kasrl.org/jaffe.html

55

De 90 imágenes sometidas a prueba (10 sujetos, 3 imágenes para cada expresión del sujeto,

misma probabilidad a priori para cada clase: 33.33%) la aplicación identificó expresiones en 48, y

el 69% de ellas fueron bien clasificadas. La matriz de confusión asociada a los resultados es la

siguiente:

Ira Tristeza Sorpresa N.C.

Ira 15 0 0 15Tristeza 3 11 5 11Sorpresa 3 4 7 16

Tabla. 7: Matriz de confusión para pruebas sobre imágenes de JAFFE (NC: no clasificadas).

Al comparar las características de las imágenes clasificadas frente a las clasificadas

erróneamente y no clasificadas se distinguen aspectos que afectan la predicción:

• Rotación de la cabeza.

• Expresiones muy sutiles.

• Sombras producidas por la posición de la fuente de iluminación y que generan contornos

con características similares a los de boca y cejas, esto ocasiona la detección de falsos

objetos de interés.

Fig. 4.9: Imágenes de JAFFE no clasificadas.

Además, según la matriz anterior, las predicciones para tristeza y sorpresa son las que más

variación presentan, y en particular la predicción entre ambas. Algunas imágenes de tristeza fueron

clasificadas como sorpresa ya que al extraer el contorno de la boca se obtuvo una apertura superior

al umbral, sin embargo esa relación de apertura puede ser un falso positivo debido a que la boca

puede no estar abierta sino que el sujeto en observación podría tener labios muy gruesos o poco

56

alargados. En segundo lugar, imágenes de sorpresa también fuero clasificadas como tristeza, esta

situación sucede donde actúan dos AUs al mismo tiempo: apertura de boca y caída interior de las

cejas, lo que a una percepción visual simple puede verse como un nivel extremo de sorpresa.

Se analizaron también fotografías, descargadas desde internet, de sujetos con piel morena

pero en estos casos identificar correctamente las cejas es más complejo.

4.3.2. Pruebas con videos

Se hizo pruebas con 3 videos de sujetos distintos, con condiciones de iluminación uniforme

y expresando las tres emociones contempladas en este TFM con expresiones neutrales entre cada

emoción. Los umbrales de discriminación para los contornos debieron ser ajustados a las

condiciones de luz del entorno ya que las imágenes en escala de grises se mostraban con menos

contraste comparadas con las imágenes de JAFFE.

Fig. 4.10: Efectos de iluminación en las imágenes en gris. Frame de video (izquierda), fotografía

de JAFFE (derecha).

Los resultados en videos mostraron prácticamente el mismo porcentaje de acierto que en

imágenes únicas.

Considerando que en video se tiene la ventaja de que se disponen de 30 frames por segundo

– lo que aporta mayor información al considerar la variable tiempo – se optó por incorporar a la

aplicación un buffer de emociones detectadas (fig.4.11) con capacidad para 3 frames (100

milisegundos apróx.).

Si el buffer se completa con una misma emoción el algoritmo asumirá esa emoción como la

válida y la informará por pantalla. De esta forma los frames clasificados con una expresión que no

corresponde a la realidad no se omiten y por lo tanto el resultado final depende de la continuidad de

una misma ocurrencia. Las expresiones correctamente clasificadas (desde su inicio hasta su fin)

alcanzaron hasta un 75%. de predicción correcta.

57

Fig. 4.12: Buffer de emociones detectadas.

58

Frame Nira ira

Inicio de expresión

Fin de expresión

tristeza ira tristeza

IRA

Frame N+4

Capítulo 5

Conclusiones y proyección

Sobre la investigación y la propuesta

Las emociones más usadas en estudios sobre expresiones y sistemas automáticos de

reconocimiento son las que se proponen como las seis básicas: felicidad, miedo, ira, tristeza,

desagrado y sorpresa. En un control de seguridad (por ejemplo, una ventanilla de chequeo de

identificación) identificar extremos en la expresión de dichas emociones – de forma similar a como

lo presentan Russell y Fernández-Dols (1997)[57] y como se vio en el punto 3.2 – podría ser una

tarea menos compleja y que un agente de seguridad quizá pueda identificar fácilmente si está

siempre poniendo atención a los rostros; no obstante, cuando se trata de seguridad en medios de

transporte las intenciones de causar daños están ocultas y generalmente sólo se dejan ver en breves

espacios de tiempo o en pocos frames de una grabación.

El prototipo desarrollado logra clasificar tres tipos de expresiones: tristeza, ira y sorpresa

con hasta un 75% de efectividad en videos, sólo con información sobre cejas y boca y sin emplear

algoritmos geométricos o de aprendizaje artificial, esto lo convierte en parte en una solución

práctica y de baja carga computacional.

Queda información importante por rescatar de las imágenes y que puede aumentar el

indicador de acierto, esta información se encuentra en los desplazamientos musculares de mejillas y

frente, incluso las expresiones más sutiles implican dichos movimientos.

Dividir la imagen en un segmento que comprenda cejas y ojos, y en un segmento que sólo

comprenda la boca facilitó la discriminación entre las distintas expresiones abordadas en este

trabajo, procesar ambos segmentos independientemente es una ventaja. Al aplicar umbrales

uniformes sobre toda la imagen se rescata en perfectas condiciones bordes del segmento superior o

inferior, pero difícilmente de ambos a la vez.

Usar operadores morfológicos para extraer características faciales es una buena opción si lo

que se busca es análisis en tiempo real, reducción de tiempos de ejecución y seguimiento de los

rasgos más notorios. Los efectos provocados por la fuente de luz, tales como sombras o excesos de

brillo serían solucionables aplicando tratamientos de ecualización sobre los frames. Los objetos

59

como gafas de gran tamaño inevitablemente ocluyen ojos y cejas y por lo tanto inducen a errores,

pero el ambiente donde se pretende implantar la solución es un entorno de seguridad supervisado y

ocultar el rostro no está permitido.

Factores como rotación de la cabeza y rasgos o expresiones muy sutiles son cuestiones que

afectan la identificación de las expresiones mediante la aplicación desarrollada. El primero es

factible de solucionar mejorando el módulo de localización de rostro, pero el segundo entra en un

campo muy subjetivo donde es recomendable un modelo geométrico capaz de hacer seguimiento de

texturas con mayor precisión que la detección de contornos.

Incorporar el buffer de emociones detectadas facilitó la interpretación de lo que expresa un

sujeto al centrarse en la continuidad de las expresiones en pequeñas fracciones de segundo. Además

es un indicador global y más certero que sólo analizar una imagen.

Esta propuesta comprende la interpretación de expresiones considerables como anómalas:

tristeza, ira y sorpresa; las que deberían poner en alerta a personal de seguridad. La suma de estas

expresiones a los gestos observados por el personal tales como tocarse la nariz u orejas, desviar la

mirada frecuentemente serían una clara señal de actividad poco usual en un pasajero sobre el que

debería centrarse la atención.

Trabajo futuro

Incorporar la identificación de microexpresiones que complementen al prototipo, haciendo

un seguimiento al desplazamiento muscular del rostro con modelos como los vistos en el punto 3.4

y en particular el modelo geométrico deformable aplicado sobre videos (propuesta por Wang et al.

(2008)[69] y cuya base es un AAM). En este caso podría aplicarse el AAM sólo a una parte del

rostro, como por ejemplo, los ojos, cejas y mejillas; al reducir el área de cobertura también se

reducirá la cantidad de triangulaciones del algoritmo de Cootes y en consecuencia se obtendrá un

procesado de la imagen más rápido que al usar el AAM sobre toda la cara y habrían menos

desplazamientos que cuantificar. Así entonces, según los artículos publicados [45][69][77][80][81]

[74] los mejores métodos de cuantificación serían el sistema FACS y los mapas de desplazamiento

vectorial como el de la técnica RVD [63], ya que permitirían mayor aproximación a las

microexpresiones al ir al detalle de los cambios en el rostro en lugar de tener una visión global.

60

Incorporar un módulo de tratamiento de imagen que controle los efectos negativos de las

fuentes de luz para no detectar contornos de falsas cejas o bocas producidos por sombras, se

mejoraría así la predicción del algoritmo.

Dado que el sistema está basado en reglas, los umbrales de binarización y de los operadores

morfológicos son estáticos y probablemente no sean los óptimos para cada rostro que se analice.

Frente a esta situación sería interesante aplicar técnicas de tratamientos de imágenes o someter el

ajuste de dichos umbrales a un algoritmo genético que se encargue de encontrar los mejores valores

para la etapa de clasificación.

Realizar pruebas de rendimiento con capturas de sujetos expresando en forma

completamente natural y en entornos lo menos controlado posible. Lo cual aportaría a un enfoque

de desarrollo con bases reales y no actuadas.

Finalmente, otra línea que se desprende de aquí es una posible investigación sobre

identificación de estados de neutralidad emocional. No todos expresamos neutralidad de la misma

forma, algunos tienen rasgos de ira o tristeza muy marcados pero no necesariamente es lo que

sienten, así entonces identificar el estado de neutralidad para cada sujeto permitiría crear sistemas

de interacción mucho más personalizados tanto en el ámbito comercial o médico.

61

62

Bibliografía [1] Pajares, G.; de la Cruz, J., Visión por computador, Ed. Ra-Ma, 2ª Edición 2007. ISBN:9788479878311

[2] Marr, D., Visión Una investigación basada en el cálculo acerca de la representación y el procesamiento humano de la información visual, Ed. Alianza, 1985. ISBN:8420665126

[3] Goldstein, B., Sensación y percepción, Ed. Paraninfo, 6ª Edición 2006. ISBN:9788497323888

[4] Pantrigo, J., Análisis biomecánico del movimiento humano mediante técnicas de visión artificial [Online], Biomecánica. Comunicaciones Symposium SIB, pp.38-43 Nº10 Vol.2 2006. Available: http://www.escet.urjc.es/~jjpantrigo/papers/ElDesarrolloDelPaqueteBiomSoft.pdf

[5] Chen, Z., Bayesian Filtering: From Kalman Filters to Particle Filters, and Beyond, Tech. Rep. [Online], McMaster University, 2003. Available: http://www.dsi.unifi.it/users/chisci/idfric/Nonlinear_filtering_Chen.pdf

[6] Gordon, N.; Salmond, D.; Smith, A., Novel approach to nonlinear/nongaussian bayesian state estimation [Online], Radar and Signal Processing, IEEE Procs. F pp.107-113 , 1993. ISSN:0214-9915 Available: http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=210672

[7] Smith, A.; Gelfand, A., Bayesian statistics without tears: A sampling-resampling perspective [Online] [Online], The American Statistian Vol.46 Nº2 pp.84-88, 1992. Available: http://dga.jouy.inra.fr/dga/internet/ESeminaire/BayesianStatistics.pdf

[8] Higuchi, T., Monte Carlo filter using the Genetic algorithm operators [Online], Statistical Computation and Simulation Vol.59 Nº1 pp.1-23, 1997. Available: http://www.springerlink.com/content/r87034270w044v6h/

[9] Doucet, A.; Godsill, S.; Andrieu, C., On sequential Monte Carlo sampling methods for Bayesian filtering [Online], Sequential Monte Carlo Methods in Practice Vol.10 Nº3 pp.197-208, 2000. Available: http://people.cs.ubc.ca/~arnaud/doucet_godsill_andrieu_sequentialmontecarloforbayesfiltering.pdf

[10] Duane, S.; Kennedy, D.; Pendleton, B.; Roweth, D., Hybrid Monte Carlo [Online], Physics Letters B Vol.195 Nº2 pp.216-222, 1987. Available: http://dx.doi.org/10.1016/0370-2693(87)91197-X

[11] Siddiqui, M.; Medioni, G., Robust Real-Time Upper Body Limb Detection and Tracking [Online], Procs. 4th ACM international workshop on Video surveillance and sensor networks, pp.53-60 2006. ISBN:1-59593-496-0 Available: http://portal.acm.org/ft_gateway.cfm?id=1178792&type=pdf&coll=GUIDE&dl=GUIDE&CFID=58843309&CFTOKEN=76057618

[12] Higuera, O., Images sequence movement estimation [Online], Revista Colombiana de Tecnologías de Avanzada, Nº7 Vol.1 2006. ISSN:1692-7257 Available: http://www.unipamplona.edu.co/unipamplona/hermesoft/portalIG/home_18/recursos/01_general/documentos/16052008/rev_tec_avan_art10_vol1_num7.pdf

[13] Zhang, D., Automated Biometrics Technologies and systems, Ed. Kluwer Academic, 2000. ISBN:0792378563

[14] Sun, Y.; Sebe, N.; Lew, M.; Gevers, T., Authentic Emotion Detection in Real-Time Video [Online], Procs. of the Computer Vision in Human-Computer Interaction, pp.94-104 Vol.3058 2004. ISBN: 978-3-540-22012-1 Available: http://www.springerlink.com/content/u504gjnb8rnp1c4x/

[15] Jaimes, A., The Face in Activity Analysis and Gesture Interfaces [Online], Procs. Computer Human Interfaces 2006, 2006. Available: http://www.bartneck.de/workshop/chi2006/papers/ajaimes_hcif06.pdf

[16] Branco, P., Usability Indicators - In Your Face [Online], Procs. Computer Human Interaction, 2006. Available: http://www.bartneck.de/workshop/chi2006/papers/branco_hcif06.pdf

[17] Chatting, D.; Thorne, J., Faces as Content [Online], Procs. Human Computer Interaction, 2006. Available: http://www.bartneck.de/workshop/chi2006/papers/chatting_chif06.pdf

[18] Lyons, M., HCI and the FACE [Online], Procs. of CHI 2006, April 22–27, 2006, Montreal, Canada. pp.1671-1674 , 2006. ISBN:1-59593-298-4 Available: http://portal.acm.org/ft_gateway.cfm?

63

id=1125759&type=pdf&coll=GUIDE&dl=GUIDE&CFID=58672730&CFTOKEN=44479745

[19] Machado, P.; Beutler, L.; Greenberg, L., Emotion Recognition in Psychotherapy: Impact of Therapist Level of Experience and Emotional Awareness [Online], Journal of Clinical Psychology pp.39-57 Vol.55, 1999. ISSN:0021-9762 Available: http://www3.interscience.wiley.com/cgi-bin/fulltext/30004809/PDFSTART

[20] Browndyke, J., Neuropsychosocial factors in emotion recognition: Facial expressions [Online], Telepsychology Solutions, 2002. Available: http://www.neuropsychologycentral.com/interface/content/resources/page_material/resources_general_materials_pages/resources_document_pages/neuropsychosocial_factors_in_emotion_recognition.pdf

[21] Pal, P.; Iyer, A.; Yantorno, R., Emotion Detection from Infant Facial Expressions and Cries [Online], Procs. IEEE International Conference Acoustics, Speech and Signal processing, pp.721-724 Vol.2 2006. Available: http://aniyer.googlepages.com/pal_icassp06.pdf

[22] Ekman, P.; Friesen, W., Desenmascarando la cara (Traducción), Ed. s.n., 1975.

[23] Rossenfeld, A.; Chellapa, R., Face recognition a Literature Survey [Online], ACM Computing Surveys Vol.35 Nº4 pp.399–458, 2003. Available: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.3.3531&rep=rep1&type=pdf

[24] Yang, H.; Kriegman, D.; Ahuja, N., Detecting Faces in Images: A Survey [Online], Procs. IEEE Trans. On Pattern Analysis And Machine Intelligence Vol.24 Nº1 pp. 34-58, 2002. Available: http://vision.ai.uiuc.edu/mhyang/papers/pami02a.pdf

[25] Thompson, W.B.; Barnard, S.T., Computer Lower level estimation and interpretation of visual motion [Online], Computer Vol.14 Nº8 pp.20-28, 1981. Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&isnumber=&arnumber=1667466

[26] Dai, Y.; Nakano, Y., Face-Texture model based on SGLD and its application in face detection in a color scene [Online], Pattern Recognition, pp.1007-1017 Nº6 1995. Available: http://linkinghub.elsevier.com/retrieve/pii/0031320395001395

[27] Haralick, R.; Shanmugam, K.; Dinstein, I., Textural Features for Image Classification [Online], IEEE Trans. On systems, man, and cybernetics Vol.3 Nº6 pp.610-621, Shinshu University; University of Kansas 1973. Available: http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?&arnumber=4309314

[28] Yang, G.; Huang, T. S., Image and Vision Computing [Online], Human Face Detection in a Complex Background Vol.20 Nº20 pp.257-264, 2002. Available: http://linkinghub.elsevier.com/retrieve/pii/0031320394900175

[29] Sirohey, S. A., Human face segmentation and identification, Tech. Rep. [Online], University of Maryland, 1993. Available: http://citeseerx.ist.psu.edu/icons/pdf.gif;jsessionid=8768EC49104AF65CBECF3D9A7220DCDF

[30] Canny, J.F., A computational approach to edge detection [Online], IEEE Trans. on Pattern Analysis and Machine Intelligence Vol.8 Nº6 pp.679-698, 1986. Available: http://portal.acm.org/citation.cfm?id=11275

[31] Han, Chin-Chuan; Mark Liao, Hong-Yuan; Yu, Kuo-Chung; Chen, Liang-Hua, Fast face detection via morphology-based pre-processing [Online], Lecture Notes In Computer Science, pp.469-476 2006. ISBN:3-540-63508-4 Available: http://www.springerlink.com/content/2u511r2875225k4g/

[32] Sirovich, L.; Kirby, M., Low-dimensional procedure for the characterization of human faces, Procs. Journal of the Optical Society of America Vol.A Nº4 pp.512-524, 1987. Available: http://www.opticsinfobase.org/viewmedia.cfm?uri=josaa-4-3-519&seq=0

[33] Haddadnia J.; Faez K.; Ahmadi, M., N-Feature Neural Network Human Face Recognition [Online], Procs. from the 15th International Conference on Vision Interface, pp.1072-1082 Nº12 Vol.22 2002. Available: http://linkinghub.elsevier.com/retrieve/pii/S0262885604000794

[34] Armengol, M., Tesis: Análisis comparativo de métodos basados en subespacios aplicados al reconocimiento de caras [Online], Universidad de Valencia, 2006. Available: http://www.uv.es/marjoari/pdf/definitivo.pdf

[35] Vapnik, V., The nature of statistical learning theory, Ed. Springer, 1995.

64

[36] Villasana, S.; Seijas, C.; Caralli, A.; Villanueva, C., Estimador de resistencia rotórica usando máquinas de vectores de soporte [Online], Revista Ingeniería UC Vol.11 Nº3 pp.25-32, 2004. Available: http://redalyc.uaemex.mx/src/inicio/ArtPdfRed.jsp?iCve=70711304&iCveNum=9464

[37] Osuna, E.; Freund, R.; Giros, F., Training Support vector Machines: an Application to Face Detection [Online], Computer Vision and Pattern Recognition pp.130-136 , 1997. ISBN:0-7695-2528-8 Available: http://ieeexplore.ieee.org/search/wrapper.jsp?arnumber=609310

[38] Cardinaux, F.; Sanderson, C.; Bengio, S., User Authentication via Adapted Statistical Models of Face Images [Online], IEEE Trans. on Signal Processing Vol.54 Nº1 pp.361-373, 2006. Available: http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=1561601

[39] Fröba B., Ernst A., Face detection with the modified census transform [Online], Procs. 6th IEEE International Conference on Automatic Face and Gesture Recognition pp.91-96, 2004. Available: http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=1301514

[40] Cootes, T.F.; Edwards, G.; Taylor, C.J., Comparing Active Shape Models with Active Appearance Models [Online], British Machine Vision Conference, pp.173-182 Vol.1 1999. Available: http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.33.2465

[41] Cootes, T.F.; Taylor, C.J., Statistical models of appearance for medical image analysis and computer vision [Online], Image processing. Conference, pp.236-248 Nº3 Vol.4322 2001. Available: http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.5.7256

[42] Hartley; Dempster; McLachlan and Krishnan, EM Algorithm [Online], Biometrics, pp.174-194 1958,1977,1997. Available: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.9.9735&rep=rep1&type=url&i=0

[43] Cootes, T.F.; Edwards, G.; Taylor, C.J., Active Appearance Models [Online], IEEE Trans. on Pattern Analysis and Machine Intelligence, pp.681-685 Nº6 Vol.23 2001. ISSN:0162-8828 Available: http://www.computer.org/portal/web/csdl/abs/trans/tp/2001/06/i0681abs.htm

[44] Zhihong, Z.; Maja, P.; Roisman, G.; Huang, T. S., A Survey of Affect Recognition Methods: Audio, Visual and Spontaneous Expressions [Online], Procs. of the 9th international conference on Multimodal interfaces, pp.126-133 2007. Available: http://dx.doi.org/10.1145/1322192.1322216

[45] Lucey, S.; Ashraf, A.B.; Cohn, J.F., Investigating Spontaneous Facial Action Recognition through AAM Representations of the Face [Online], Carnegie Mellon University, 2007. Available: http://www.ri.cmu.edu/pub_files/pub4/lucey_simon_2007_2/lucey_simon_2007_2.pdf

[46] Zhao, W.; Chellappa, R., Face processing, modelling and methods, Ed. Academic Press, Inc, 2006.

[47] Xiaoyu, W.; Jihong, C.; Pingjiang, W.; Zhihong, H., Infrared Human Face Auto Locating Based on SVMand A Smart Thermal Biometrics System [Online], Procs. of the Sixth International Conference on IntelligentSystems Design and Applications pp.1066-1072 Vol.2, 2006. ISBN:1-59593-298-4 Available: http://www.computer.org/portal/web/csdl/doi/10.1109/ISDA.2006.253759

[48] Wang, J.; Sung, E., Facial Feature Extraction in an Infrared Image by Proxy With a Visible Face Image [Online], IEEE Trans. On Instrumentation And Measurement Vol.56 Nº5 , 2007. Available: http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=1301514

[49] Martínez, F.; Montero, J.; De la Cerra, J., Sesgos cognitivos en el reconocimiento de expresiones emocionales de voz sintética en la alexitimia [Online], Psicothema 2002 pp.344-349 Vol.14, 2002. ISSN:0214-9915 Available: http://www.psicothema.com/pdf/730.pdf

[50] Luengo, I.; Navas, E.; Hernáez, I.; Sánchez J., Reconocimiento automático de emociones utilizando parámetros prosódicos [Online], Procesamiento del Lenguaje Natural Nº35 pp.13-20, Temple University 2005. Available: http://www.sepln.org/revistaSEPLN/revista/35/02.pdf

[51] Kwon, O.; Chan, K.; Hao, J.; Lee, T., Emotion Recognition by Speech Signals [Online], Eighth European Conference on Speech Communication and Technology, 2003. Available: http://inc2.ucsd.edu/~leelab/pdfs/ES030151.pdf

65

[52] Planet, S.; Morán, J.; Formiga, L., Reconocimiento de emociones basado en el análisis de la señal de voz parametrizada [Online], Actas da 1a Conferência Ibérica de Sistemas e Tecnologias de Informação, pp.837-854 Vol.2 2006. ISBN:978-989-20-0271-2 Available: http://www.salle.url.edu/~splanet/material/pdf/planet06.pdf

[53] Castellano, G.; Kessous, L.; Caridakis, G., Multimodal emotion recognition from expressive faces, body gestures and speech [Online], Artificial Intelligence and Innovations 2007: from Theory to Applications, pp.375-388 Vol.247 2007. Available: http://www.springerlink.com/content/p7154u362j677195/fulltext.pdf

[54] Busso, B.; Deng, Z.; Yildirim, S.; Bulut, M., Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information [Online], ACM 6th International Conference on Multimodal Interfaces pp.205-211 , 2004. ISBN:1-58113-995-0 Available: http://portal.acm.org/citation.cfm?id=1027968

[55] Darwin, Ch., The expression of the emotions in man and animals, Ed. The classics of psychiatry & behavioral sciences library, 1872.

[56] Fridlund, A. J., Human facial expression: An evolutionary view, Ed. Academic Press, Inc, 1994. ISBN:0122676300

[57] Russell, James A.; Fernández-Dols, J.M.l, The Psychology of Facial Expression, Ed. Camb.U.P., 1997.

[58] Ekman, Paul., Universals and cultural differences in facial expressions of emotion, Journal of Personality and Social Psychology Vol.4 Nº53 pp.712-717, 1972.

[59] Elfenbein, H.; Ambady, N., Universals And Cultural Differences In Recognizing Emotions [Online], Current Directions In Psychological Science Vol.12 Nº5 pp.159-164, 2003. Available: http://www.tufts.edu/~nambad01/Universals%20and%20cultural%20differences%20in%20recognizing%20emotions.pdf

[60] Phillips, M.; Young, A.; Senior, C., Brammer; M.; Andrew, C.; Calder, A.; Bullmore, E.; Perrett, D.; Rowland, D.; Williams, S.; Gray, J.; David, A., A specific neural substrate for perceiving facial expressions of disgust, Nature Nº389 pp.495-498, 1997.

[61] Atkinson, A., Emotion-Specific Clues to the Neural Substrate of Empathy [Online], Behavioral and Brain Sciences Vol.1 Nº25 pp.22-23, 2007. Available: http://journals.cambridge.org/action/displayAbstract?fromPage=online&aid=139145

[62] Ekman, P.; Rosenberg, E., What the face reveals, Ed. Oxford University Press, 1997. ISBN:0-19-510446-3

[63] Verma, R.; Davatzikos, C.; Loughead, J.; Indersmitten, T.; Hu, R.; Kohler, C.; Gur R. E.; Gur, R. C., Quantification of facial expressions using high-dimensional shape transformations [Online], Journal of Neuroscience Methods, pp.61-73 Nº141 Vol.1 2005. Available: http://www.biomedexperts.com/Profile.bme/291934/Christos_Davatzikos

[64] Ekman, P.; Friesen, W., Facial Action Coding System, Ed. Consulting Psychologists Press, 1978.

[65] Curio, C.; Breidt, M; Kleiner, M.; Vuong, Q.; Giese, M.; Bülthoff, H., Semantic 3D Motion Retargeting for Facial Animation [Online], Procs. 3th Symposium on Applied perception in graphics and visualization, pp.77-84 2006. ISBN:1-59593-429-4 Available: http://portal.acm.org/citation.cfm?id=1140491.1140508

[66] Wojdel, A.; Rothkrantz, L., Intelligent system for semiautomatic facial animation, , 2006.

[67] Kring, A.; Sloan, D., The Facial Expression Coding System (FACES): A users guide, Tech. Rep. [Online], University of California; Temple University, 2003. Available: http://socrates.berkeley.edu/~akring/FACES%20manual.pdf

[68] Pantic, M.; Rothkrantz, Leon., Automatic Analysis of Facial Expressions: The State of the Art [Online], Trans. on patterns analysis and machine inteligence Vol.22 Nº12 pp.1424-1445, 2000. Available: http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.25.5398

[69] Wang, P.; Barrett, F.; Martin, E.; Milonova, M.; Gurd, R.E.; Gurb, R.C.; Kohler C.; Verma R., Automated video-based facial expression analysis of neuropsychiatric disorders [Online], Journal of Neuroscience Methods Vol.168 Nº168 pp.224–238, 2008. Available: http://linkinghub.elsevier.com/retrieve/pii/S016502700700475X

66

[70] Wiskott, L.; Fellous J.; Krüger, N.; von der Malsburg, C., Face Recognition by Elastic Bunch Graph Matching [Online], Intelligent Biometric Techniques in Fingerprint and Face Recognition Vol.19 Nº7 pp.775-779, 1997. Available: http://dx.doi.org/10.1109/34.598235

[71] Lyons, M.; Budynek, J.; Akamatsu, S., Automatic classification of single facial images [Online], IEEE Trans. on pattern analysis and machine intelligence Vol.21 Nº12 pp.1357-1362, 1999. Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&isnumber=&arnumber=817413

[72] Littlewort, G.; Stewart Bartlett, M.; Fasel, I.; Susskind, J; Movellan, J., Dynamics of facial expression extracted automatically from video [Online], Procs. Computer Vision and Pattern Recognition Workshop, pp.80 2005. Availabe: http://linkinghub.elsevier.com/retrieve/pii/S0262885605001654

[73] Fasel B.; Luettin J., Recognition of asymmetric facial action unit activities and intensities [Online], Procs. 15th International Conference on Pattern Recognition, pp.1100-1103 Vol.1 2000. Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&isnumber=&arnumber=905664

[74] Tian, T.; Kanade, T.; Cohn, J., Recognizing Action Units for Facial Expression Analysis [Online], Procs. IEEE Trans. on Pattern Analysis and Machine Intelligence, pp.97-115 Nº2 Vol.23 2001. Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&isnumber=&arnumber=908962

[75] Cohen, I.; Sebe, N.; Garg, A.; Chen, L.; Huang, T., Facial expression recognition from video sequences: temporal and static modeling [Online], Procs. Computer Vision and Image Understanding, pp.160-187 Nº1 Vol.91 2003. Available: http://linkinghub.elsevier.com/retrieve/pii/S107731420300081X

[76] Wang, Y.; Ai, H.; Wu, B.; Huang, C., Real Time Facial Expression Recognition with Adaboost [Online], Procs. 17th International Pattern Recognition, pp.926-929 Vol.3 2004. ISBN:0-7695-2128-2 Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&isnumber=&arnumber=1334680

[77] Whitehill, J.; Omlin, C., Haar Features for FACS AU Recognition [Online], 7th International Conference on Automatic Face and Gesture Recognition pp.101, University of the Western Cape; University of the South Pacific 2006. Available: http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=1613004

[78] Cohen, I.; Sebe, N.; Cozman, F.; Cirelo, M.; Huang, T., Learning Bayesian Network Classifiers for Facial Expression Recognition using both Labeled and Unlabeled Data [Online], Procs. Computer Vision and Pattern Recognition, pp.I595-I601 Vol.1 2003. ISBN:0-7695-1900-8 Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&isnumber=&arnumber=1211408

[79] Ohta, H.; Saji, H.; Nakatani, H., Recognition of Facial Expressions Using Muscle-Based Feature Models [Online], Procs. 14th International Conference on Pattern Recognition, pp.1379-1381 1998. ISBN:0-8186-8512-3 Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&isnumber=&arnumber=711959

[80] Essa, I.; Pentland, A., Facial Expression Recognition using a Dynamic Model and Motion Energy [Online], Procs. 5th Fifth International Conference on Computer Vision, pp.360-367 1995. ISBN:0-8186-7042-8 Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&isnumber=&arnumber=466916

[81] Essa, I.; Pentland, A., Coding, Analysis, Interpretation, and Recognition of Facial Expressions [Online], Procs. 6th International Conference on Mutlmodal Interfaces, Nº7 Vol.19 1997. Available: http://graphics.usc.edu/cgit/pdf/papers/ICMI2004-emotionrecog_upload.pdf

[82] Kimura, S.; Yachida, S., Facial expression recognition and its degree estimation [Online], Procs. Computer Vision and Pattern Recognition, pp.295-300 1997. ISBN:0-8186-7822-4 Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&isnumber=&arnumber=609338

[83] Wen, Z.; Huang, T., Capturing subtle facial motions in 3D face tracking [Online], Procs. 9th IEEE International Conference on Computer Vision, pp.1343-1350 Vol.2 2003. ISBN:0-7695-1950-4 Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&isnumber=&arnumber=1238646

[84] Saatci, Y.; Town, C., Cascaded Classification of Gender and Facial Expression using Active Appearance Models [Online], Procs. 7th International Conference on Automatic Face and Gesture Recognition, pp.393-398 2006. ISBN:0-7695-2503-2 Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&isnumber=&arnumber=1613052

[85] Viola, P.; Jones, M., Robust Real-Time Face Detection [Online], Procs. 8th IEEE International Conference on

67

Computer Vision, pp.747 Vol.2 2003. ISBN:0-7695-1143-0 Available: http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=937709

[86] Sugimoto, Y.; Yoshitomi, Y.; Tomita, S., A method for detecting transitions of emotional states using a thermal facial image based on a synthesis of facial expressions [Online], Robotics and Autonomous Systems, pp.147-160 Nº3 Vol.31 2000. Available: http://www.ingentaconnect.com/content/els/09218890/2000/00000031/00000003/art00104

[87] Rojas Bello, R., Estudio Independiente Tutelado: Identificación de rostro e identificación de emociones y variaciones naturales, Escuela Politécnica Superior Universidad Autónoma de Madrid, 2008.

68

ANEXOS

ANEXO I: AUs definidas en FACS

Tabla 8: Unidades de acción sencillas en FACS [64]

Tabla 9: Unidades de acción generales en FACS [64]

69

Documents

Rojas Bello Richard Nolberto