Upload
jorge8896
View
52
Download
12
Embed Size (px)
Citation preview
Universidad Autónoma de Madrid
Escuela Politécnica Superior
Departamento de Ingeniería Informática
Identificación de características relevantes para reconocimiento de emociones en el
rostro
Richard Nolberto Rojas BelloTutor: Juan Alberto Sigüenza Pizarro
Trabajo de Fin de Master
Programa Oficial de Posgrado en Ingeniería Informática y de TelecomunicacionesUniversidad Autónoma de Madrid
Octubre de 2009
2
Índice de contenido 1.Introducción......................................................................................................................................5
1.1. Antecedentes generales............................................................................................................5 1.2.Problema...................................................................................................................................9 1.3. Justificación.............................................................................................................................9 1.4.Objetivo general........................................................................................................................9
1.4.1.Objetivos específicos........................................................................................................9 1.4.2.Diseño metodológico........................................................................................................9
2.Localización de rostros y formas....................................................................................................11 2.1. Introducción...........................................................................................................................11 2.2. Métodos basados en plantillas...............................................................................................12 2.3. Métodos basados en movimiento...........................................................................................13
2.3.1. Flujo óptico....................................................................................................................13 2.3.2.Detección de puntos de interés........................................................................................14 2.3.3.Diferencias......................................................................................................................14
2.4. Métodos basados en tonalidad...............................................................................................15 2.5. Métodos basados en texturas.................................................................................................15 2.6. Métodos basados en visión estereoscópica ...........................................................................16 2.7. Métodos basados en conocimiento........................................................................................18
2.7.1.Mosaicos jerárquicos.......................................................................................................18 2.8. Métodos basados en características invariantes.....................................................................19
2.8.1.Identificación de rasgos faciales.....................................................................................19 2.9. Métodos basados en apariencias............................................................................................20
2.9.1.Eigenfaces.......................................................................................................................21 2.9.2.Redes neuronales artificiales...........................................................................................21 2.9.3.Máquinas de soporte vectorial........................................................................................22 2.9.4.Hidden Markov models...................................................................................................23
2.10. Métodos basados en modelos geométricos..........................................................................24 2.10.1.AAM.............................................................................................................................25
2.11. Métodos 3D e infrarrojos.....................................................................................................27 3.Reconocimiento de emociones.......................................................................................................29
3.1.Introducción............................................................................................................................29 3.2.Estudios de la psicología.........................................................................................................29 3.3.Desafíos actuales.....................................................................................................................32 3.4.Técnicas de investigación para inferir emociones..................................................................34
3.4.1.Métodos de cuantificación de emociones.......................................................................34Regional Volumetric Difference (RVD)...............................................................................34Facial Action Coding System (FACS)..................................................................................36Facial Expression Coding System (FACES)........................................................................38
3.4.2.Análisis automático de expresión facial..........................................................................39Métodos basados en imágenes estáticas..........................................................................40Métodos basados en video...............................................................................................41Métodos basados en modelos geométricos......................................................................42Métodos basados en superficies 3D e infrarrojos............................................................43
4.Propuesta para sistemas de seguridad y control de tránsito de pasajeros......................................45 4.1.Resultados de la investigación sobre el estado del arte..........................................................45
3
4.2.Sistema propuesto...................................................................................................................46 4.3. Pruebas de rendimiento..........................................................................................................55
4.3.1.Pruebas con imágenes.....................................................................................................55 4.3.2.Pruebas con videos..........................................................................................................57
5.Conclusiones y proyección.............................................................................................................59Sobre la investigación y la propuesta...........................................................................................59Trabajo futuro................................................................................................................................60
6.Bibliografía.....................................................................................................................................63 7.ANEXOS........................................................................................................................................69
7.1.ANEXO I: AUs definidas en FACS........................................................................................69
4
Capítulo 1
Introducción
1.1. Antecedentes generales
Reconocer emociones o variaciones naturales en el rostro puede permitir encontrar campos
donde aplicar de forma concreta toda la base teórica existente tras las técnicas de obtención de
formas, seguimiento de cuerpos y reconocimiento de rostros; contextos reales posibles son: control
parental de programación televisiva, interacción de pasajeros con los sistemas de entretenimiento en
vuelos de larga distancia o modelos de interacción en videojuegos.
La obtención de formas puede abordarse como la manera de establecer una relación entre
una imagen en un sistema de coordenadas 2D y un objeto en un sistema 3D. Para resolver el
problema computacionalmente existen dos orientaciones: arriba-abajo, abajo-arriba [1].
La estrategia arriba-abajo parte de un conjunto de suposiciones y propiedades esperadas
basadas en conocimiento experto [2]; estas propiedades se verifican sucesivamente en cada etapa de
procesamiento hasta llegar a la imagen de datos. Por otra parte la estrategia abajo-arriba es la
propuesta hecha por David Marr (1985)[2][3]. Marr definió el proceso de detección de objetos
mediante un enfoque computacional, en la cual el sistema visual se trata como si fuera un ordenador
programado para recibir objetos; su diagrama de funcionamiento es el siguiente:
Fig. 1.1: Enfoque computacional de David Marr [2].
En la figura 1.1, el punto de partida es la imagen del objeto en la retina; la imagen se analiza
para identificar áreas de luz y oscuridad y las partes en las que cambia la intensidad. El resultado
del análisis es una serie de características básicas (áreas cerradas, segmentos de líneas, extremos de
líneas y líneas que definen bordes) llamadas primer boceto. Luego se agrupa el contenido del primer
boceto según características de tamaño y orientaciones similares, se procesa nuevamente el
5
resultado, y se obtiene un nuevo boceto llamado 2½ D que termina en una percepción
tridimensional [3].
Las técnicas de seguimiento de cuerpos, o body-tracking, despiertan gran interés, sobre todo
por su aplicación en seguridad y salud. Sus inicios se remontan a la detección simple de objetos por
visión artificial y se ha abordado frecuentemente con algoritmos bayesianos, algunos de ellos se
citan en los estudios de Pantrigo (2006)[4] y Chen (2003)[5]:
1. Particle Filtering [6]: está basado en el método de Monte Carlo. Crea partículas
aleatoriamente sobre una imagen, cada punto tendrá un valor relacionado con la cercanía al
objeto que se pretende seguir. Los valores más altos estarán dentro de objetos y tendrán
mayor probabilidad de ser escogidos al momento de capturar los puntos lanzados para
formar una nueva colección. En una segunda etapa se modificará levemente la información
de posición del conjunto actual, de esta forma se pretende predecir la nueva posición del
objeto; el proceso es iterativo.
2. Sampling Importance Resampling [7]: es una variación de Particle Filtering; se aplica a
problemas de filtrado bayesiano recursivo donde es necesario un remuestreo.
3. Genetic Particle Filter [8]: rescata los principios de los algoritmos genéticos aplicando
mecanismos de selección natural. Introduce mayor diversidad en la población durante la
etapa de muestreo de Particle Filter.
4. Annealed Particle Filter [9]: variante de Particle Filter; adapta el método para espacios de
configuración de dimensión alta, utiliza operadores de cruce como en los algoritmos
genéticos.
5. Hybrid Monte Carlo [10][5]: es una cadena de Markov de Monte Carlo con refinado por
gradientes, se fundamenta en el principio básico de la mecánica Hamiltoniana1. Es aplicada
comúnmente en espacios de dimensiones grandes donde Particle Filter no tiene buen
rendimiento. Además, suele utilizarse en experimentos de simulación molecular.
Una propuesta interesante es el sistema de estimación de movimiento implementado por
Siddiqui y Medioni (2006)[11]. Interpretan el cuerpo de una persona como una composición de
1 Enfoque de la mecánica donde las ecuaciones de movimiento vienen dadas por sistemas de ecuaciones diferenciales ordinarias de primer orden escritas en función de la energía total del sistema H (hamiltoniano).
6
figuras geométricas; identifican el rostro, luego los brazos, y aplican un detector de piel (textura) y
contornos para acotar la región de interés; mejoraron la orientación de los objetos aplicando
métodos de optimización por gradientes. Los sujetos en escena tenían los brazos descubiertos para
simplificar los experimentos y siempre fueron vistas frontales o 2D. El siguiente diagrama refleja su
propuesta completa:
Fig. 1.2: Sistema propuesto por Siddiqui y Medioni (2006) [11].
El estudio realizado por Higuera (2006)[12] aborda el problema de seguimiento desde una
perspectiva más analítica, en su investigación esencialmente presenta dos algoritmos:
1. Gradientes espacio-temporales (detecta cambios en el patrón de grises de la imagen).
2. Segmentación de imágenes en objetos (análisis local que luego busca correspondencia entre
objetos).
Higuera concluye – luego de implementar los algoritmos basados en gradientes – que el
rendimiento de estos puede aumentar si se complementan con una mejora en la resolución de las
imágenes, parámetros fijados en las ecuaciones y métodos de cálculo de gradiente.
Por otra parte, el reconocimiento de rostros se ha estudiado en gran medida desde el punto
7
de vista de la seguridad biométrica verificando identidades [13]. Este proceso se lleva a cabo en dos
etapas:
1. Localización y detección del rostro.
2. Reconocimiento e individualización del rostro.
Sin embargo, el reconocimiento de rostros posee enfoques que no dependen directamente de
la identificación en particular del individuo sometido a captura de rasgos faciales, estos son:
identificación de las emociones e identificación de variaciones causadas por el paso del tiempo.
Además, estos enfoques poseen la ventaja de que:
• No es necesaria una cooperación forzada de la persona a identificar, siendo
totalmente transparente al usuario.
• No requieren validaciones contra base de datos de usuarios.
• Tienen bajo coste de hardware y software.
La identificación de emociones en el rostro recaba información asociada a las formas de
ojos, nariz, boca, ubicación de vértices, arrugas, surcos y protuberancias. Los principales campos
donde se ha desarrollado es la HCII (Human Computer Intelligent Interaction) [14][15][16][17]
[18], y la medicina [19][2][20][21]. Estimaciones, como la edad, también podrían inferirse de los
métodos empleados para detectar emociones si la atención se centra en surcos o brillo de la piel.
Quedan problemas por resolver a la hora de interpretar expresiones faciales, es complejo
interpretar estados emocionales sólo a partir de la cara, y es mucho más complejo si se desconoce si
la persona dice la verdad o no. El estudio de Ekman et al. (1975)[22] reveló que el rostro transmite
mensajes involuntariamente en fracciones de segundo, mensajes que son claros indicadores de lo
que pueda estar sintiendo una persona. Considerando esto último se estaría en presencia de un
nuevo mecanismo que además de aplicar a sistemas HCII y medicina también aplicaría a sistemas
de seguridad y control en entornos públicos.
8
1.2.Problema
Identificar estados emocionales en entornos públicos – donde las personas no colaboran
activamente – es una tarea de mayor complejidad que localizar objetos o cuerpos ya que también es
necesario analizar características o rasgos que rápida y continuamente cambian de forma, sin
embargo extraer información de dichos rasgos sería útil para identificar estados psicológicos
potencialmente peligrosos y/o poco habituales para un contexto determinado.
1.3. Justificación
Encontrar las características específicas para identificar emociones expresadas mediante
gestos permitiría aplicar este conocimiento a aplicaciones de seguridad (comportamiento de clientes
en bancos, oficinas publicas, aeropuertos, estaciones de tren, etc.), por lo tanto poder identificarlas
es una tarea de carácter crítico. Las situaciones potencialmente peligrosas o de nerviosismo –
debido a una posible intención delictiva – podrían advertirse con antelación y evitar escenarios de
mayor riesgo si se presta atención a eventos como: expresiones faciales reiteradas, movimiento de
los ojos, contacto frecuente de manos con la cara, e incluso cambios en la temperatura corporal.
1.4.Objetivo general
Identificar y analizar las características más relevantes para determinar estados de alerta
emocionales y/o sanitarios.
1.4.1. Objetivos específicos
i. Definir el tipo de acciones que pueda ocasionar una alteración en estados emocionales.
ii. Proponer la tecnología necesaria para identificar en tiempo real estados emocionales
anómalos en el rostro de un individuo.
1.4.2. Diseño metodológico
i. Profundizar la investigación sobre el estado del arte del reconocimiento de emociones en
rostros.
ii. Definir claramente que tipo de acciones se buscarán en los videos.
iii. Proponer un sistema automático de detección, seguimiento y clasificación de expresiones
9
faciales.
iv. Validar los algoritmos y/o modelos de la propuesta, que permitan procesar las expresiones
empleando recursos de BD públicas – usadas comúnmente en aplicaciones biométricas – y
video en tiempo real.
Nota:
Este trabajo de fin de master forma parte de un proyecto CENIT que comparte la Universidad
Autónoma de Madrid y la empresa Vaelsys Formación y Desarrollo dedicada principalmente a
desarrollar soluciones, empleando visión artificial, para problemas de tratamiento, reconocimiento
y clasificación de imágenes.
(Proyecto INTEGRA, ref:16/02/08, convocatoria CENIT 2008, división 2008-2011)
10
Capítulo 2
Localización de rostros y formas
2.1. Introducción
La detección del rostro es el primer paso de los algoritmos de reconocimiento de cara y por
lo tanto es de crucial importancia que su desempeño sea lo mejor posible. Aquí se decide si la
imagen o video incluye caras; si las incluye, se identifican sus posiciones y se segmentan
separándolas del fondo de la imagen.
Fig. 2.1.: Identificación de rostros.
Los factores principales que se deben tener en consideración en la detección de rostros son:
luminosidad, orientación, escala, textura y accesorios u objetos que puedan afectar a la geometría
esperada (gafas, bufandas, etc.) [13]. Estos factores hacen que el proceso no sea sencillo.
Como ya se mencionó, para analizar una expresión facial el primer paso es detectar el rostro.
Uno de los métodos más empleado – debido a su simplicidad – es el de plantillas, sin embargo, lo
que se pretende detectar en estricto rigor es una forma que posee características específicas2, así
entonces obtener la forma es un concepto que se aborda comúnmente mediante métodos basados en:
• Plantillas.
2 Entiéndase por forma las superficies y orientación 3D de un objeto.
11
• Movimiento.
• Tonalidad.
• Texturas.
• Visión estereoscópica.
• Conocimiento humano.
• Características invariantes.
• Apariencias.
• Modelos geométricos.
• Modelos 3D e infrarrojos.
2.2. Métodos basados en plantillas
Este tipo de métodos se caracteriza por su sencilla implementación. Calculan valores de
correlación entre una imagen de entrada y sus plantillas. Si los valores de correlación alcanzan un
determinado umbral se acepta que la imagen contiene una cara. Los valores de correlación se
calculan por separado para los contornos del rostro, ojos, boca y nariz. Generalmente emplean
plantillas de vistas frontales, y esto suele traer problemas a la hora de detectar las caras ya que son
muy sensibles a variaciones de orientación, posición, escala o forma [23]. En respuesta a dichas
limitaciones se proponen métodos multiresolución, multiescala, sub-plantillas y plantillas
deformables con relaciones de distancia preestablecidas [24] (fig.2.2).
Fig. 2.2: Plantilla compuesta de 16 regiones y 23 relaciones entre las regiones [24]
12
2.3. Métodos basados en movimiento
El análisis de movimiento, también llamado análisis dinámico de imágenes, usa
generalmente un cierto número de imágenes consecutivas, algunas veces dos o tres en secuencia. En
este planteamiento comparan frames como en un análisis de imágenes estáticas y el movimiento se
determina buscando correspondencias entre pares de puntos de interés en la secuencia.
Existen tres grandes grupos de problemas relacionados con el movimiento desde un punto de
vista práctico [1]:
1. Detección del movimiento. Es el problema más simple, se trata de registrar cualquier
movimiento detectado. Es útil en el campo de la seguridad, se suele utilizar una simple
cámara estática.
2. Detección y localización de los objetos en movimiento. Una cámara se sitúa en una posición
estática y los objetos se mueven en la escena, o la cámara se mueve y los objetos son
estáticos o ambas cosas a la vez. El problema característico consiste en la detección del
objeto, la detección de la trayectoria de su movimiento y la predicción de su futura
trayectoria. Ejemplos de esto son: la evolución de una masa nubosa mediante secuencias de
imágenes por satélite incluyendo la predicción de su movimiento; o también el control y
predicción del tráfico de vehículo en una ciudad.
3. Obtención de las propiedades 3D de los objetos a partir de un conjunto de proyecciones 2D
adquiridas en distintos instantes de tiempo de su movimiento.
A la representación bidimensional de un movimiento tridimensional se le llama campo de
movimiento, donde cada punto tiene asignado un vector de velocidad correspondiente a la dirección
del movimiento, velocidad y distancia a partir de un observador en una localización apropiada de la
imagen.
En las tres subsecciones que continúan se describen métodos frecuentemente usados en
detección según formas y movimiento.
2.3.1. Flujo óptico
Una forma de analizar el movimiento es mediante la obtención del flujo óptico, el cual
requiere de intervalos temporales pequeños entre imágenes consecutivas y no ocurren cambios
13
importantes entre ellas. Para obtener el flujo óptico se necesita determinar la dirección y la
velocidad del movimiento en todos los puntos de la imagen; el objetivo inmediato es determinar el
campo de movimiento aunque el flujo óptico no siempre coincidirá con él ya que los cambios de
iluminación también se reflejan en el flujo óptico [1]. En síntesis, el flujo óptico refleja los cambios
de la imagen debido al movimiento durante un intervalo de tiempo dt, y el campo de flujo óptico es
el campo de velocidad que representa el movimiento tridimensional de puntos de los objetos a
través del movimiento bidimensional de la imagen; sin embargo, calcular el flujo óptico puede
resultar costoso si los objetos en movimiento son muchos o se mueven muy rápido.
2.3.2. Detección de puntos de interés.
Esta técnica trabaja bien incluso para intervalos de tiempo relativamente altos, al contrario
del flujo óptico donde los intervalos ideales deben ser muy pequeños. El primer paso del método es
encontrar puntos significativos en todas las imágenes de la secuencia (puntos de borde, esquinas,
etc.). Luego se aplica un proceso de emparejamiento que busca correspondencias entre dichos
puntos de la secuencia. El resultado final es la construcción de un campo de velocidad cuya
densidad depende del número de puntos de interés [1].
Thompson y Barnard (1981) proponen un proceso de búsqueda de correspondencia iterativo
[25], que comienza con la detección de todos los posibles pares de correspondencias en imágenes
consecutivas. Para reducir el número de posibles correspondencias se puede imponer un límite a la
velocidad. Así, cada par bajo correspondencia tiene asignada una probabilidad de correspondencia.
Este proceso termina si cada punto de interés en una imagen previa se corresponde precisamente
con un punto de interés en la siguiente imagen y además la probabilidad global de correspondencia,
a) entre pares de puntos es significativamente más alta que otras posibles correspondencias.
b) o es mayor que un umbral prefijado.
c) o proporciona un máximo (óptimo) de probabilidad de todas las posibles correspondencias.
2.3.3. Diferencias
La sustracción de imágenes adquiridas en distintos instantes puede ser suficiente para
detectar movimiento si se supone que la cámara es estacionaria y que no hay cambios de
14
iluminación. Una imagen de diferencias d(i,j), es una imagen binaria donde los valores de 1
representan áreas de la imagen con movimiento, es decir, áreas donde hay una diferencia sustancial
entre los niveles de intensidad de las imágenes consecutivas f1(i,j,t1) y f2(i,j,t2).
d i , j ={0, si∣ f 1i , j , t1− f 2i , j , t2ε∣1, de otro modo
donde ε: umbral predeterminado.
Un elemento d(i,j) de la diferencia de imágenes entre f1 y f2 puede tener valor 1 si f1(i,j) es un
pixel de un objeto en movimiento y:
a) f2(i,j) es un pixel estático de fondo y viceversa.
b) f2(i,j) es un pixel de otro objeto en movimiento.
c) f2(i,j) es un pixel de una parte diferente del mismo objeto en movimiento.
La imagen de diferencias puede calcularse a partir de otras características tales como: nivel
medio de intensidad en alguna vecindad, texturas locales, etc.
2.4. Métodos basados en tonalidad
La variación de brillo sobre la superficie de un objeto es conocida como tonalidad. Sin
embargo la tonalidad no sólo se ve afectada por la forma del objeto, sino que también por las
propiedades de reflectancia de la superficie y la distribución de las fuentes de luz.
Los mapas de reflectancia capturan la dependencia del brillo con la orientación de la
superficie, existe una correspondencia única de la orientación de la superficie a la reflectancia
especificada por el mapa de reflectancia. Sin embargo la correspondencia inversa no es única, un
número infinito de orientaciones de superficies producen el mismo brillo, por lo tanto, un contorno
constante conecta dicho conjunto de orientaciones en el mapa de reflectancia [1].
15
2.5. Métodos basados en texturas
Extraer la profundidad a partir de la textura es una capacidad que poseemos los seres
humanos se puede comprobar fácilmente al observar las siguientes figuras:
Fig. 2.3: Texturas 3D a distintos niveles de profundidad [1].
Dado que la percepción de forma proviene de la observación de la uniformidad, como del
gradiente de textura derivado de la distorsión de los texels3, el problema puede abordarse desde la
proyección en perspectiva o desde la proyección ortogonal.
En localización de caras los métodos de texturas han destacado por su rapidez y altos
porcentajes de acierto, incluso sobre fondos complejos, como es el caso del estudio presentado por
Dai y Nakano (1995) [26] donde emplean parámetros característicos de una matriz de dependencias
de niveles de gris entre celdas de píxeles [27]; su modelo de texturas faciales busca caras sobre
imágenes en color detectando tonos naranja. La ventaja de este método es que es capás de localizar
rostros que no tengan una vista frontal y es tolerante a oclusión por barba o gafas, además de tener
bajas tasas de falsos positivos en la escala YIQ4 y aciertos de hasta 98% en 30 imágenes con caras
de 60 personas.
2.6. Métodos basados en visión estereoscópica
La visión estereoscópica artificial tomó como referencia el modelo estereoscópico biológico.
En estos sistemas el desplazamiento relativo de los ojos permite obtener la tercera dimensión
mediante un proceso de triangulación a partir de las 2 imágenes generadas por el mismo objeto de la
escena 3D en cada ojo. Este fenómeno es posible porque el hecho de que los ojos estén desplazados
entre sí hace que las imágenes en cada ojo se muestren desplazadas según la distancia de los objetos
a los ojos.
3 Contracción del inglés texture element.4 Espacio de color donde Y representa luminancia e I y Q información de crominancia.
16
Fig. 2.4: Sistema biológico de visión estereoscópica [1].
Para extraer la correspondencia de las imágenes de un sistema estereoscópico existen dos
técnicas:
• Por áreas: utilizan la correlación cruzada entre patrones de intensidad en la vecindad local
de un píxel en una imagen con patrones también de intensidad en una vecindad
correspondiente de un píxel en la otra imagen del par estereoscópico.
• Por características: utilizan representaciones simbólicas obtenidas de las imágenes de
intensidad en lugar de las intensidades directamente. Las características utilizadas
normalmente son:
• Puntos de borde aislados.
• Cadenas de puntos de bordes.
• Regiones delimitadas por bordes.
En cualquier caso, y dependiendo del método elegido, como se verá en la siguiente sección,
el proceso de visión estereoscópica puede requerir aun un paso de segmentación adicional en el
sentido de que una vez definidas las características a utilizar es necesario extraer de ellas más
información.
17
2.7. Métodos basados en conocimiento
Este tipo de métodos se centra en las características más notorias de un rostro, intenta
traducir el conocimiento humano sobre detección en reglas estrictas. Por ejemplo, es común que una
cara contenida en una imagen aparezca con dos ojos separados simétricamente, una nariz y una
boca; así entonces, las relaciones entre estos rasgos pueden representarse mediante distancias
relativas. Sin embargo la mayoría de los esfuerzos se centran en reglas relacionadas con los niveles
de gris en condiciones “normales” de luz, deduciendo de estos niveles la ubicación las partes que
conforman un rostro. El método jerárquico de mosaicos [28] es un método representativo de este
grupo.
2.7.1. Mosaicos jerárquicos
Aquí se definen tres niveles de reglas. En el Nivel 1, el método intenta ajustar la cara en
áreas de 4x4 bloques, donde la dimensión de cada bloque es de n x n pixeles.
Una vez encontrada una zona donde el área de los bloques sea una posible candidata a cara
se continúa con el Nivel 2; en este nivel se aplica a las candidatas un histograma de ecualización
lumínica para minimizar la sensibilidad de las reglas a las condiciones de luz y se detectan
contornos subdividiendo cada bloque Nivel 1 en 4 sub-bloques, lo que produce áreas de 8x8
bloques.
Finalmente en el Nivel 3 nuevamente se divide cada bloque en 4 cuatro sub-bloques,
obteniendo áreas de 16x16 bloques de nxn píxeles que identifican boca, nariz y ojos.
Fig. 2.5: Imágenes procesadas con el método jerárquico de mosaicos [28].
Este método jerárquico basado en conocimiento posee 2 limitantes: 1) tiene una fuerte carga
de cálculo computacional ya que debe hacer cálculos iterativos para estimar la dimensión correcta
de los bloques Nivel 1, y 2) sólo emplea bloques y no otras geometrías. Sus tasas de reconocimiento
son inferiores a otros métodos y suele ser usarse sólo cuando quedan pocas imágenes restantes de
un tratamiento previo, u otros algoritmos de escaneo ya ejecutaron un filtrado previo e identificaron
18
candidatas.
2.8. Métodos basados en características invariantes
Los métodos de características invariantes tratan de reproducir la habilidad de los seres
humanos para detectar caras y objetos en diferentes posturas y condiciones del ambiente empleando
un mínimo esfuerzo. Asumen que la explicación de este acto reside en que deben existir
características que no cambian en el tiempo y que por lo tanto no se ven afectadas por ningún
estímulo del entorno. Estás características pueden ser la presencia de cejas, nariz, boca y ojos las
cuales son identificadas mediante algoritmos detectores de contornos.
La desventaja de los métodos de características invariantes es que suelen ser muy sensibles a
la iluminación, ruido y oclusión. Efectos de sombra podrían distorsionar los límites de rasgos como
los que se identifican con las técnicas de la sección siguiente:
2.8.1. Identificación de rasgos faciales
Identificar características comunes a la mayoría de los rostros ha entregado resultados como
la propuesta de Sirohey (1993)[29] donde se segmenta el rostro ajustándolo a una estructura
elíptica. Este modelo busca – usando el detector de contornos Canny [30] – los máximos puntos de
intensidad en la imagen que describan una curvatura, luego se segmentan los puntos de intersección
con los bordes aplicando criterios de continuidad, y finalmente se agrupan los segmentos de
contornos que sean ajustables a la ecuación estándar de la elipse. En una prueba con 48 imágenes5
con objetos de fondo se alcanzó un 80% de detecciones efectivas.
Fig. 2.6: Detección de contornos usando Canny [29]
5 Imágenes de una base de datos del MIT (Massachusetts Institute of Technology).
19
Entre los métodos que mejor rendimiento han demostrado está el de Han et al. (2006)[31].
Este método se centra en que los ojos y cejas son las características más notorias del rostro y que
por lo tanto son las más aptas para la identificación. La propuesta de Han está dirigida a sistemas de
verificación y la detección se divide en tres etapas, la primera consiste en segmentar la zona de los
ojos detectando los píxeles donde la intensidad lumínica cambia significativamente. La segunda
etapa usa estos segmentos como candidatos a ojos y trata de ajustar las relaciones de tamaño, forma
y dirección entre pares de candidatos, una vez que encuentra un par de candidatos que superan un
umbral de relación puede concluir que ha detectado un rostro. Sus resultados experimentales
arrojaron que el porcentaje de detecciones efectivas alcanzó aproximadamente un 94% para 130
imágenes de prueba. La no detección de caras se atribuye a tres factores: las caras de la imagen no
superan la dimensión esperada (50x50 píxeles); no se puede identificar un par de ojos, lo que puede
ocurrir por lesiones o por una imagen mal capturada; problemas de oclusión.
Fig. 2.7: Identificación de múltiples rostros [31]
2.9. Métodos basados en apariencias
Los métodos basados en apariencias se caracterizan por el uso de técnicas estadísticas y por
aprender de sus mismas entradas. Esta clase de métodos se pueden dividir en dos grupos: los que
representa su conocimiento mediante modelos de distribución probabilística y los que implementan
funciones discriminantes [23]. Los más destacados son:
20
2.9.1. Eigenfaces
Derivan del análisis de componentes principales (PCA), interpretan cada imagen facial en
escala de grises como un conjunto bidimensional de patrones brillantes y oscuros; a estas áreas se
les llama eigenface o cara propia [32]. Los patrones de niveles de gris se convierten y representan
vectorialmente formando una base de vectores capaces de representar caras que tienen
características comunes. El algoritmo que crea las eigenfaces consta de los siguientes pasos:
1. Preparar el set de entrenamiento. Las imágenes de caras deben tener la misma dimensión,
estar en escala de grises, en forma vectorial, y las caras deben estar aproximadamente
alineadas. Cada vector es una fila en una nueva matriz de imágenes N.
2. Substraer la media. Se calcula el promedio de grises de todas las imágenes y se substrae de
cada imagen original.
3. Calcular la matriz de covarianzas de N y extraer sus autovectores y autovalores.
4. Elegir los componentes principales, es decir los autovectores (eigenfaces) con mayor
autovalor asociado, los cuales se usarán para representar nuevas imágenes de entrada.
2.9.2. Redes neuronales artificiales
Detectar caras con redes neuronales se considera como un problema de clasificación entre
dos tipos: rostro y no-rostro [13].
Para una imagen de N = M x N píxeles se requiere una red neuronal que tenga la misma
cantidad N de neuronas de entrada. El mapa que corresponde a la imagen se traza en un número p
de neuronas en capas ocultas, estas neuronas van definiendo por turnos el mapa de las neuronas de
salida para que al menos una dispare la correspondiente cara en la base de datos del sistema. La
capa oculta se considera un vector de características que expresa los rasgos faciales de forma
concentrada, sobre todo si p es más pequeño que N.
El rendimiento de los sistemas de localización que emplean RNAs puede alcanzar tasas de
localización efectiva superior al 95% [33], sin embargo son muy dependientes del número de capas,
pesos entre las conexiones y determinación de los parámetros de aprendizaje, por lo que se requiere
precisión y rigurosidad en sus fases de diseño y desarrollo. Además se necesitan muchos elementos
21
clasificables como rostro y no-rostro para entrenar la red, lo cual es un problema, es imposible
recopilar todas las imágenes que no contienen caras. Por otra parte, en el caso de un sobre-
entrenamiento, será difícil para la red alcanzar un mínimo global de su función de error y su índice
de convergencia decrecería [34]. Se recomienda utilizarlo junto a otras técnicas.
2.9.3. Máquinas de soporte vectorial
Las maquinas de soporte vectorial o SVM (Support Vector Machine) implementan la
siguiente idea: mapear los vectores de entrada x en un espacio de características de dimensión
superior Z por medio de un mapeo no lineal elegido a priori. En este se construye un hiperplano
separador óptimo [35]. Mientras mayor sea el margen mejor será la generalización en la
clasificación.
Fig. 2.8: Hiperplano separando elementos válidos de no válidos [35]
Las SVM implementan el principio de minimización del riesgo estructural (SRM). Este
principio de inducción se fundamenta en el hecho de que el error de generalización está acotado por
la suma del error de entrenamiento y un término de intervalo de confianza que depende de la
dimensión de Vapnik-Chervonenkis6. Así entonces, el objetivo del SRM es minimizar el límite
superior del error de generalización en vez del principio de minimización de riesgo empírico (usado
en la RNAs para minimizar el error de entrenamiento) [35].
El entrenamiento de una SVM es equivalente a resolver un problema de programación
cuadrática con restricción lineal, lo que implica que la solución alcanzada por SVM es única,
óptima y ausente de mínimos locales a diferencia de las RNA que durante el entrenamiento
requieren optimización no lineal, corriendo el riesgo de ser atrapadas por mínimos locales [36].
6 Cardinalidad del mayor conjunto de puntos que el algoritmo o modelo puede separar.
22
Osuna et al. (1997) muestran un sistema de detección de rostros que usa SVMs y que
alcanza rendimientos de hasta 97% de localizaciones correctas en imágenes de alta calidad donde
existe un solo rostro [37]. En imágenes con muchos rostros y de calidad variada la localización
desciende a 74.2% de efectividad. Entre sus cualidades destacan que es capaz de detectar caras con
rotaciones de 10° aproximadamente.
Fig. 2.9: Localización de rostros usando SVMs [37].
2.9.4. Hidden Markov models
Una cara puede dividirse intuitivamente en varias regiones como frente, ojos, nariz, boca y
mentón. Según esta clasificación se podría identificar un rostro si las regiones se detectan en un
orden apropiado, y cada región correspondería a un estado dentro de una HMM. Los métodos
basados en HMM generalmente tratan los patrones faciales como una secuencia de vectores donde
cada vector es una franja de píxeles [24]:
Fig. 2.10: Regiones de una cara usando HMMs [24].
Una secuencia consiste en la observación de todos los valores de intensidad de cada bloque.
23
Los estados de salida corresponden a las categorías a las que pertenecen las observaciones.
Las HMM se han aplicado al reconocimiento de la cara y a su localización. Cardinaux et al.
(2006)[38] presentan un sistema de localización automática y reconocimiento de cara usando HMM
tradicionales y una variante 2D donde cada franja es una cadena de Markov (fig.2.11). La
localización automática la lograron usando un método de detección de contornos propuesto por
Fröba y Ermst (2004)[39] que puede alcanzar un índice superior al 90% de localización correcta.
Fig. 2.11: HMM 2D [38].
2.10. Métodos basados en modelos geométricos
Entre los métodos de localización de rostros en tiempo real, destacan también los modelos
geométricos tales como los ASMs (Active Shape Models) y AAMs (Active Appearance Models)
que suelen verse como una versión perfeccionada los ASMs [40][41].
Actualmente los modelos de apariencias activas son los más usados. Esta técnica pertenece
al grupo de modelos paramétricos generativos, los cuales han sobresalido en el pasado por su uso en
seguimiento de rostros en videos (face tracking), estimación de poses para interfaces de usuario en
tiempo real, lectura de labios, y reconocimiento de expresiones.
Los ASMs comparan un modelo de puntos con una nueva imagen usando variante del
algoritmo de maximización de la esperanza [42]. La búsqueda se realiza en torno a la posición
actual de cada punto para encontrar un punto cercano que mejor ajuste un modelo del punto de
referencia. Los parámetros del modelo de formas y que controlan las posiciones de los puntos se
actualizan y luego se desplazan a los mejores puntos de la imagen real. Por otra parte los AAMs
manipulan modelos completos de apariencia, representando variación de forma y de textura de la
24
región cubierta por el modelo, siendo capaces de generar imágenes de objetos completamente
sintéticas. AAM usa la diferencia entre la imagen sintetizada actual y la imagen objetivo para
actualizar sus parámetros.
Cootes et al. (1999) comparan los dos algoritmos [40], muestran los resultados
experimentales y establecen que ASM es más efectivo y rápido en la ubicación de los puntos
característicos de un rostro, sin embargo, AAM tiene una mejor correspondencia con la textura de la
imagen tratada.
Las tres diferencias claves entre ASM y AAM son:
1. ASM sólo usa modelos de textura de la imagen en pequeñas regiones cercanas a cada punto
de referencia. AAM usa un modelo de apariencia de toda la región (generalmente dentro de
un espacio convexo alrededor de los puntos).
2. ASM busca alrededor de su posición, por lo general a lo largo de los perfiles normales a su
frontera. AAM simplemente extrae muestras en virtud de su posición actual.
3. ASM intenta minimizar la distancia entre su modelo de puntos y los correspondientes
encontrados en el resto de la imagen. AAM trata de minimizar la distancia entre el modelo
sintetizado y la imagen objetivo.
Según estas diferencias el método más robusto sería el AAM y que a continuación se detalla.
2.10.1. AAM
Un AAM es un modelo estadístico integrado que combina un modelo de variación de forma
con un modelo de variaciones de la apariencia en un fotograma normalizado en escala de grises.
Corresponder a una imagen supone encontrar los parámetros del modelo que minimizan la
diferencia entre dicha imagen y la síntesis del modelo proyectado en la imagen. La dificultad está
en que el número de parámetros puede ser potencialmente grande [43].
Para construir el AAM hace falta un conjunto de entrenamiento con imágenes etiquetadas
con los puntos significativos marcados en cada ejemplo y en posiciones clave para los rasgos
característicos. Todos los vectores de caras se normalizan en un sistema de coordenadas común y se
aplica PCA para construir el modelo de la forma. En la fase de reconocimiento se hace el proceso
inverso [44].
Los AAMs tienen una variación de forma lineal, lo que significa que una forma puede
25
expresarse como combinación lineal de otros vectores de formas. Una variación en un vértice de un
modelo incide directamente en todo el resto de los vectores.
Fig. 2.12: Representación de un rostro usando AAMs [45].
El algoritmo que sigue AAM se puede resumir en los siguientes pasos [41]:
1. Proyectar la muestra de textura en el modelo: )(1imus gTg −=
2. Evaluar el vector de error: mg−= sgr y el error actual: 2|| rE =
3. Calcular desplazamientos, )( pRrp −=∂ ; TT
pr
pr
prR
∂∂
∂∂
∂∂=
− 1
4. Actualizar los parámetros del modelo: pkpp ∂+→ ; inicialmente 1=k ,
5. Calcular los nuevos puntos: 'X y el nuevo modelo de textura mg '
6. Obtener una nueva imagen a partir de los nuevos puntos y genera img '
7. Calcula un nuevo vector de error: mimu ggTr ')'(' 1' −= −
8. Si Er <2' se acepta los nuevos parámetrosSi Er >2' reintentar con 5.0=k , 25.0=k etc.
Una secuencia gráfica de lo que en concreto realiza el algoritmo luego de 18 iteraciones se
ve en la figura 2.13.
Fig. 2.13: Iteraciones en AAM [41].
26
2.11. Métodos 3D e infrarrojos
En las imágenes 2D la apariencia de un rostro puede variar por efectos de iluminación o
posición, lo que implica mayores desafíos para los sistemas de reconocimiento. Una buena forma de
solucionar estos problemas es usar modelos de caras en tres dimensiones.
Los modelos 3D no tenían mucha aceptación debida a su complejidad y alto coste
computacional que involucran, sin embargo, actualmente la amplia gama y disponibilidad de
sensores 3D en tiempo real [15] han hecho que los modelos resurjan.
Manejan variaciones de iluminación y expresiones faciales y pueden dividirse en dos
categorías: métodos 3D simples que usan sólo representaciones de la superficie o forma del rostro, y
métodos que usan formas 3D e imágenes 2D. Zhao y Chellapa (2006) [46] exponen un sistema
híbrido 2D+3D donde se captura mediante eigenfaces una imagen 2D y con sensores una imagen
3D; normalizan en posición, rotación y escala, usando la punta de la nariz como punto de encuentro
entre ambos tipos de capturas. Los resultados experimentales demostraron que el uso de esta técnica
híbrida puede alcanzar rendimientos superiores al 95% a diferencia de solo imágenes 2D que no
superaban el 90%. Si se aumentan la cantidad de muestras que forman el espacio de caras el
rendimiento incluso alcanzó el 98% de verificación efectiva.
Otra de las técnicas que se está abriendo paso en la detección de caras son las de sensores
infrarrojos (IR). La ventaja principal de estas técnicas sobre los sensores visibles, es que las
imágenes IR son independientes de la iluminación ambiental, la luz IR solamente se emite y no se
refleja [47]. Esta característica las convierte en una buena alternativa para el reconocimiento de
patrones.
Se propone que el método más conveniente para reconocimiento IR son las SVM por las
razones siguientes:
1. Las características faciales en imágenes suelen ser representadas por formas suaves a
diferencia de las imágenes visuales.
2. Las imágenes IR son independientes de la luz ambiente, no requieren preprocesamientos
como corrección del gradiente de iluminación, ecualización histograma o DCT7 para los
datos de entrenamiento, los datos de temperatura pueden ser directamente aplicados.
7 Transformada del coseno.
27
3. La técnicas para acelerar el proceso localización – por ejemplo, la extracción de piel –
tienen menor coste computacional ya que el espectro de temperaturas siempre se
encontrará en un rango entre 30° y 40°; así entonces, reducir el espacio de búsqueda se
lograría fijando un umbral.
Wang y Sung (2007) plantean que la información extraíble del espectro de temperaturas no
es suficiente para capturar rasgos que definan una emoción; proponen mezclar imágenes IR con
imágenes tradicionales para formar estructuras geométricas 3D realistas [48]. Las esquinas de los
ojos y boca las detectan en la imagen visible, y la posición de la cabeza a partir de la imagen IR. La
figura 2.14 muestra la orientación de la cabeza detectada por un sensor de orientación espacial (en
rojo) y el sistema que proponen (en azul). Los resultados son muy similares.
Fig. 2.14: Comparación de rendimientos software vs. sensor hardware de orientación espacial [48].
28
Capítulo 3
Reconocimiento de emociones
3.1. Introducción
La información extraída de los rasgos faciales es regularmente de carácter geométrico
(asociada a las formas de ojos, nariz, boca, etc. y ubicación de vértices de la boca u ojos) y
relacionada con la apariencia o texturas (arrugas, surcos y protuberancias). Estas son las bases del
reconocimiento de emociones, el cual ha crecido sobre todo en el campo de HCII (Human
Computer Intelligent Interaction) [14][15][16][17][18], y además es foco de interés en el apoyo de
diagnósticos psiquiátricos y psicológicos [19][49][20][21]. La estimación de la edad de una persona
puede derivarse de los métodos empleados para detectar emociones, un adulto por lo general tiene
muchas líneas de expresión o surcos, sus expresiones neutrales suelen aparentar tristeza, y el brillo
de su piel es inferior al que puede tener un niño.
Los avances para detectar emociones en datos extraídos de la voz se han desarrollado de la
misma manera [50][51][52] siendo complemento de las técnicas basadas en el rostro y formando
parte de sistemas multimodales [53][44][54]. Sin embargo este capítulo describirá sólo los
relacionados con características faciales.
3.2.Estudios de la psicología.
Los estudios de Darwin sobre emociones [55] tomaron dos cursos distintos, el de la
perspectiva etológica8 y el de la perspectiva psicológica; ambas corrientes crecieron separadas, sin
embargo convergieron en 1994 con Fridlund y su crítica al Programa de Expresión Facial (P.E.F.)9
[56][57]. Este programa consta de una serie de hipótesis, teorías y métodos, pero es
sorprendentemente difícil encontrar una aceptación completa del conjunto, dado que cada autor
presenta su propia visión sobre un programa que evoluciona rápidamente [57].
No obstante a que muchos autores presentan su propia visión frente al PEF, la mayoría de
ellos están de acuerdo en que la principal conclusión del programa es el carácter de universalidad de
8 Estudio científico del carácter y modos de comportamiento del hombre. 9 Nombre dado al conjunto de investigaciones sobre expresiones faciales basadas en emociones “básicas”: alegría, desagrado, ira, tristeza, sorpresa, miedo.
29
las expresiones faciales al demostrar una emoción [57], es decir:
1. En todos los grupos humanos ocurren los mismos patrones de movimientos faciales.
2. Observadores de distintas sociedades atribuyen una misma emoción a patrones establecidos
como universales.
3. Esos patrones universales son por lo tanto manifestaciones de todas esas emociones en todas
las sociedades humanas.
La tabla siguiente intenta predecir similitudes entre culturas en interpretación de expresiones
faciales sin postular un sistema de señas innato; a este conjunto de supuestos, advertencias y reglas
de predicción se le denomina en psicología universalidad mínima.
Se supone que:
1. Los patrones de los movimientos de músculos faciales ocurren en todos los
seres humanos.
2. Los movimientos faciales están correlacionados con estados psicológicos (p.e.:
acciones, preparación para acciones, estados emocionales, estados cognitivos).
3. La mayoría de las personas pueden inferir algo del estado psicológico de otras
a partir de sus movimientos faciales.
4. Las personas de culturas occidentales tienen la creencia de que tipos
específicos de acciones faciales son expresiones de tipos específicos de
emociones.
Se advierte que:
1. Acciones faciales no son necesariamente señales.
2. La acción facial no es necesaria o suficiente para una emoción. Una acción
facial no necesariamente está más asociada con emociones que con otro
estado psicológico.
3. Las inferencias hechas en una cultura, o por un individuo, no necesariamente
coincidirán exactamente con inferencias hechas en otra cultura o por otro
individuo.
4. Las culturas no necesariamente comparten creencias occidentales sobre
asociaciones específicas entre emociones y acciones faciales.
30
5. Creencias occidentales sobre la asociación entre expresiones faciales y
emociones no son necesariamente válidas.
Se predice que:
1. Fotografías de movimientos faciales serán asociados a un estado estado
psicológico con el acuerdo de que es más que una casualidad.
2. Las personas, en algunas ocasiones, son precisas en inferencias que hacen
sobre la base de movimientos faciales.
3. Habrán similitudes entre culturas que deducen desde los movimientos faciales.
Tabla 1: Universalidad mínima [57].
Actualmente los psicólogos clasifican las emociones en categorías discretas, en un lenguaje
común y universal. La categoría más sencilla comprende seis emociones básicas, resultantes de
estudios inter-culturales [44][58][59]: felicidad, tristeza, miedo, ira, asco/disgusto, y sorpresa.
Tabla 2: Resultados del estudio inter-cultural hecho por Ekman [59].
Cuando se interactúa con otra persona inevitablemente se juzga qué tan feliz o no feliz se
encuentra nuestro interlocutor y qué tan somnoliento o excitado está. Ante esto, Russell y
Fernández-Dols (1997) presentan dos dimensiones para estudiar las emociones y su relación con
sentimientos afectivos: placer y excitación (fig.3.1) [57]. Con estas nuevas dimensiones se pretende
establecer niveles de predominancia entre ellas ampliando la cantidad de emociones clasificables:
31
Figura 3.1: Juicios Placer-Excitación para sentimientos afectivos [57].
3.3.Desafíos actuales
¿Por qué se cometen faltas al interpretar la expresión facial de las emociones? ¿Cómo se
puede decir cómo se siente una persona a partir de su cara, y cómo se puede saber si su expresión
facial es genuina o falsa?. En verdad estas son las preguntas que siguen marcando el rumbo de las
investigaciones en reconocimiento de expresiones. Ekman y Friesen (1975)[22] concluyeron a partir
de sus investigaciones que la cara proporciona tres tipos de señales para transmitir más de un tipo
de mensaje o información:
• Estáticas: incluyen aspectos más o menos permanentes de la cara como el color de la piel,
forma de la cara, estructura de los huesos, cartílagos, depósitos de grasa, forma y
localización de los rasgos faciales (cejas, ojos, nariz, boca).
• Lentas: cambios en la apariencia de la cara que tienen lugar gradualmente con el paso del
tiempo. Además del desarrollo de las arrugas permanentes, hay también cambios en el tono
muscular, la textura de la piel e incluso cambio de color de la piel por paso de los años,
principalmente en edades avanzadas.
• Rápidas: se producen por movimientos de los músculos faciales, dando como resultado
cambios temporales en la apariencia de la cara, cambios en la localización y tamaño de los
rasgos faciales y arrugas temporales. Estos cambios se reflejan en la cara durante unos
32
segundos o incluso durante fracciones de segundo.
Las señales rápidas son las más fáciles de cambiar o disfrazar inhibiendo los músculos
asociados o cubriendo parte del rostro; los engaños generalmente se encuentran en este tipo de
señales, sin embargo, las investigaciones han demostrado que se pueden hacer acertados juicios
sobre las emociones básicas a partir de señales rápidas [58]. Cuando ocurren sentimientos
transitorios tales como felicidad, sorpresa, ira, miedo, etc. los músculos faciales se contraen y hay
cambios visibles en la apariencia de la cara.
Además de lo transmitido por las señales rápidas, el rostro también posee otros múltiples
mensajes a transmitir. La cara emite mensajes sobre emociones, humor, actitudes, carácter,
inteligencia, atractivo, edad, sexo, raza y posiblemente sobre más aspectos; sin embargo las técnicas
de detección de emociones estudian esencialmente los mensajes emitidos por las señales rápidas
que es donde más información existe.
Las personas suelen ocultar sus emociones más intensas cuando están junto a otras y
también cuando han crecido y absorbido reglas culturales como “Los niños no lloran.” o “No
debes mirar a tus padres de manera desafiante si te regañan.”, que suelen incorporarlas cuando son
menores pero que de algún modo condicionan su libre expresión cuando adultos [22].
Es mucho más fácil ocultar lo que se revela con palabras que lo que se revela con el rostro
debido a factores como velocidad, las expresiones son involuntarias y el nivel de retroalimentación
es inferior; en cambio en las palabras podemos corregirnos fácilmente solos o con ayuda, además de
que se ha aprendido a hablar preparándonos muy bien en gramática y cantidad de vocabulario que
manejamos [22]. Al intentar ocultar expresiones se pueden distinguir tres categorías [22]:
Leakage: cuando una persona intenta ocultar una expresión pero aun así da señales de ella.
Intento de traición de un sentimiento.
Poker-face: consigue ocultarla absolutamente.
Deception clues: indicios de que la emoción que se muestra no es convincente y se advierte
que algo está mal en ella.
33
3.4.Técnicas de investigación para inferir emociones.
La clasificación anterior puede ser interpretada como demasiado subjetiva ya que no define
una unidad de medida.
Las expresiones faciales han sido investigadas como una herramienta para comprender la
regulación de emociones en salud y enfermedades e investigar sus sustratos neuronales [60][61].
El análisis de expresiones faciales consiste de dos subproblemas: reconocimiento de
expresión y cuantificación de la expresión, donde ambas requieren un modelamiento facial.
Reconocer expresiones involucra clasificar la expresión como una de varias posibles emociones
[62]. Por otra parte, en cuantificación de la expresión, se necesita cuantificar la intensidad de la
emoción dentro de un conjunto de regiones del rostro, establecidas para comprender así cuánto es la
contribución de cada región. El análisis automático de expresiones ha atraído la atención de la
visión computacional debido a su importancia para investigaciones clínicas, pero los esfuerzos se
han centrado en reconocimiento de expresión y no en cuantificación [63].
3.4.1. Métodos de cuantificación de emociones
Regional Volumetric Difference (RVD)
Verma et al. (2005) [63] proponen un método para cuantificar expresión que se aplica
considerando al rostro como un conjunto de regiones con límites bien definidos. Un cambio de
expresión en la cara lo caracterizan y cuantifican mediante una combinación de deformaciones
elásticas (expansiones y contracciones); luego de cada deformación se da lugar a una
transformación geométrica 2D, esta transformación se utiliza para registrar las acciones en cada
región y contrastarlas con una plantilla de expresión neutral. Al compararlas obtienen dos
resultados:
1. Un conjunto de escalares que representan la magnitud de desplazamiento para cada píxel
considerando la diferencia entre una plantilla (cara neutral) y una nueva imagen. Este valor
se calcula mediante la función:
RVDF=det ∇ S s ;
donde:
34
S :matríz de transformación que contiene desplazamientos de los pixelesentre lasimágenes.s : puntoen la imagende un sujeto.∇ S s=Jacobiano de ' S ' evaluado en cada punto ' s ' de la imagen.
Fig. 3.2: Mapa RVD normalizado [63].
2. El vector de desplazamiento de la deformación que caracteriza la dirección y el movimiento
de cada píxel durante el cambio de expresión.
(a) (b)
(c)
Fig. 3.3: (a)Cara neutral, (b) con expresión y (c) mapa de vectores de deformación asociado [63].
35
RVD sólo se ha empleado para cuantificar imágenes de actores profesionales expresando
emociones. La validación experimental de Verma et al. (2005) se realizó sobre 11 imágenes de
felicidad, 6 de tristeza, 8 de miedo y 15 de ira; para la clasificación utilizaron PCA. Los resultados
que obtuvieron son [63]:
• Felicidad: todas clasificadas correctamente pero muy cercanas a ira.
• Tristeza: 3 clasificadas correctamente, 2 clasificadas como ira y 1 como miedo.
• Ira: 12 clasificadas correctamente, 1 como tristeza y 2 como miedo.
• Miedo: 4 clasificadas correctamente, 2 como tristeza y 2 como ira pero con baja intensidad.
Facial Action Coding System (FACS)
El modelo FACS – propuesto por Ekman y Friesen (1978)[64] – intenta responder a la
ausencia de métricas para clasificación de emociones básicas con una serie de puntos a observar en
el rostro. Actualmente es casi un estándar en lo que refiere a clasificación de la expresión facial y
está presente en investigaciones del área de la psicología y en el área de la animación 3D [65][66].
FACS describe todas las actividades visuales en base a 46 unidades de acción únicas
(AUs10), además de varias categorías de cabeza y posiciones de ojos y movimientos. Es importante
resaltar que aunque FACS surge en la anatomía no existe una correspondencia 1:1 entre los grupos
de músculos y las AUs, esto se debe al hecho de que un músculo puede actuar en diferentes formas
– o contraerse en distintas regiones – para producir acciones visibles diferentes. Un ejemplo claro
de esto son los músculos frontales; la contracción de la zona media de ellos sólo levanta las
esquinas interiores de las cejas (produciendo la AU 1), mientras que la contracción de la porción
lateral de los frontales levanta las cejas desde su parte externa (produciendo AU 2). En el ANEXO I
se puede observar la lista completa de AUs presentes en FACS.
La comparación más frecuente de los resultados que pueda entregar FACS es con los
resultados de evaluaciones de actividad electrofisiológica medida con electromiografías faciales
(EMG)[62]. Los EMG miden potenciales eléctricos en los músculos de la cara para luego inferir 10 AUs, del inglés Action Units.
36
contracciones musculares. La ventaja principal de los EMG es su capacidad para detectar actividad
muscular que a simple vista no puedes ser captada por el ojo humano y que por lo tanto no puede
ser codificable mediante sistemas como FACS. Sin duda esto puede convertir a los EMG en el
sistema ideal para obtener medidas, sin embargo, es un sistema demasiado invasivo y puede
provocar reacciones musculares que interfieran con las esperadas de estímulos externos. Otro
problema de los EMG es que las señales de grupos musculares pueden verse afectadas por
potenciales de músculos cercanos, teniendo como resultado final una mala clasificación de la
expresión [62].
Fig. 3.4: Músculos codificados en FACS [64]
37
Facial Expression Coding System (FACES)
FACES se propuso principalmente por dos necesidades [67] :
1. Una codificación facial que esté alineada con un modelo dimensional de la emoción. Kring
y Sloan (2003) comentan en The Facial Expression Coding System (FACES) que varios
investigadores han sostenido que la expresión afectiva consta de dos grandes dimensiones:
valencia (agradable/desagradable) y excitación (relajante/activante); así mismo, otros
autores también distinguen que la variación entre experiencias emocionales es posible
capturarla por dos dimensiones.
2. La reducción de tiempos de codificación de las emociones. Examinar pequeños segmentos
puede impedir una correcta evaluación del comportamiento expresivo y requiere a priori
decisiones sobre qué segmentos son los más idóneos para producir el comportamiento más
expresivo, lo que suele ser difícil. FACES no necesita una codificación individual de cada
músculo, sino que realiza una codificación del conjunto de músculos involucrados en la
expresión.
FACES entrega información de frecuencia, intensidad, valencia y duración de la expresión
facial. La selección de variables se basó en teoría y previos estudios empíricos. Adoptó el estilo
descriptivo de Ekman y define una expresión como cualquier cambio en la cara, pasando desde un
rostro neutral a uno no neutral para luego volver a uno sin expresión. Cuando ocurre esta situación,
se inicia un control de frecuencia de expresiones. Luego, codificadores humanos evalúan la valencia
(positiva o negativa, Tabla 3), la intensidad de cada expresión detectada y la duración de cada
expresión. Finalmente, se calcula un índice de expresividad global para cada segmento y se pueden
hacer juicios sobre la emociones específicas expresadas en cada segmento [67].
Positive NegativeHappy Miserable
Delighted DistressedGlad Annoyed
Amused JitteryPleased Nervous
38
Content AngrySatisfied Gloomy
Calm AnxiousSerene AfraidExcited Tense
Astonished AlarmedCheerful FrustratedSurprised Disgusted
Active DepressedContent Hostile
Tabla 3: Valencias positivas y negativas [67]
3.4.2. Análisis automático de expresión facial
El análisis automático – también llamado AFEA11 – obtiene medidas cuantitativas
automáticamente. Los desafíos de este tipo de análisis están en dos factores principales:
1. Las expresiones faciales varían según apariencias, grado de plasticidad, morfología y
frecuencia de las expresiones.
2. Cuantificar automáticamente la intensidad de una expresión es complejo, sobre todo cuando
las expresiones son muy sutiles. Por ejemplo, FACS emplea reglas para calificar las
intensidades de las AUs, pero finalmente esta calificación está sujeta a un juicio subjetivo.
Pantic y Rothkrantz (2000)[68] evaluaron la factibilidad de que un sistema artificial pueda
alcanzar la capacidad del ser humano de identificar emociones con un mínimo esfuerzo aparente.
Identificaron tres aspectos en el problema: detección de rostro, extracción de la información de la
expresión facial, y clasificación de la expresión facial que es la más estudiada de las tres debido a su
utilidad en aplicaciones HCI12. Sin embargo, la mayoría de los sistemas no contemplan bello facial
ni gafas lo que los limita a aplicaciones poco realistas, además Pantic y Rothkrantz sostienen que no
existe certeza de que las emociones básicas de Ekman y Friesen – en las que se sostienen la mayoría
de los desarrollos – sean suficientes para clasificar todas las emociones que pueda expresar un
rostro y sobre todo si desean sistemas HCI independientes de la persona.
11 AFEA, del inglés Automated Facial Expression Analysis.12 HCI, del inglés Human Computer Interface.
39
Los métodos AFEA se dividen en tres grupos:
• Basados en imágenes estáticas.
• Basados en videos.
• Basados en modelos geométricos.
• Basados en superficies 3D e infrarrojos.
Métodos basados en imágenes estáticas
Extraen características desde imágenes individuales y crean clasificadores para reconocer
expresiones faciales. Las características comúnmente usadas son geometría, textura y
combinaciones de ambas. Se han agrupado las características geométricas en permanentes y
transitorias. Las características permanentes incluyen posiciones de labios, ojos, cejas, mejillas y
arrugas o marcas de expresión producto de los años; un artículo reciente donde se expone un
análisis sobre características permanentes es el de Lucey et al. (2007) el que presenta una fusión de
un AAM con el sistema FACS [45]. Por otra parte, las características transitorias incluyen marcas y
arrugas que no se distinguen en reposo pero que aparecen con las expresiones, estas texturas pueden
obtenerse mediante técnicas como cálculo de intensidad de la imagen, diferencia entre imágenes,
detección de bordes, y wavelets [69].
Para reconocer expresiones faciales sutiles tanto las expresiones calculadas mediante
componentes principales como las de diferencia de imagen requieren una alineación precisa que no
es fácilmente alcanzable en la realidad. Las características de contorno se usan a menudo para
describir surcos o líneas de expresión, pero no sirven demasiado para detectar expresiones sutiles.
Las wavelets de Gabor calculadas a partir de la apariencia facial describen información
espacial y de frecuencia, además son eficientes en sistemas destinados a localización de rostro [70]
así como en reconocimiento de expresiones [71][72].
Experimentos como el de Zhang (2003) [13], han demostrado que la fusión de métodos
aplicando texturas tales como wavelets de Gabor o PCA con técnicas geométricas pueden proveer
mejor rendimiento que usarlas por separado. Luego, para reconocer la expresión facial, las
características extraídas son entradas en clasificadores como: Nearest Neighbor [73], redes
40
neuronales [74], SVM [72], redes bayesianas [75], y Adaboost [72][69][76][77]. De estos
clasificadores el que ha dado mejores resultados, según la publicaciones recientes, es Adaboost. Las
tablas siguientes muestran el porcentaje de acierto de un modelo híbrido Haar+Adaboost frente a un
modelo Gabor+SVM en un problema de localización de unidades de acción FACS en ojos, cejas y
boca, en imágenes de 24x24 y 64x64 píxeles:
Tabla 4: Exactitud de reconocimiento de los clasificadores Gabor+SVM y Haar+AdaBoost[77].
Tabla 5: Tiempos de extracción de características de Gabor y Haar [77].
Tabla 6: Tiempos de clasificación de SVM frente a AdaBoost [77].
Métodos basados en video
Cohen et al. (2003) afirman que la información temporal que se pueda obtener desde un
vídeo mejoraría la precisión de reconocimiento sobre el uso de imágenes simples [78]. Sin embargo
sólo pocas propuestas, como la de Wang et al. (2008), han empleado esta información [69].
41
Wang et al. (2008)[69] destacan que un aspecto importante en los métodos basados en video
es mantener la precisión de seguimiento. Varios modelos deformables como los musculares [79], de
alambres 3D [78], mallas faciales [80][81], redes potenciales [82], ASMs y formas geométricas
[63][69] se usan para el seguimiento de rostro. Aunque se ha demostrado que los sofisticados
modelos faciales deformables mejoran la precisión del seguimiento, y en consecuencia mejorarían
también la precisión del análisis de la expresión facial [83], no hay experimentos que muestren que
el modelo deformable sea superior a los demás [69]. Resulta evidente que los métodos basados en
video pueden capturar más imágenes útiles para identificar emociones, cambios sutiles en el rostro,
o ciertas tendencias; no obstante, mientras más grande sea la cantidad de información a analizar se
hacen necesarios métodos que tengan mayor autonomía e independencia de un especialista.
Métodos basados en modelos geométricos
Saatci y Town (2006)[84] presentan un esfuerzo para reconocer el género y la emoción
expresada (alegría, enfado, tristeza y neutralidad). El método usado para extraer las características
de los rostros fue AAM y para clasificar dichas características se usaron SVMs.
Para inicializar la búsqueda del AAM se empleó una implementación del detector de rostros
de Viola-Jones [85]. Luego para la etapa de entrenamiento se usó un conjunto de imágenes de caras
frontales, todas ellas anotadas (marcadas con 58 puntos en las regiones de interés) y donde los
sujetos mostraban cada una de las cuatro emociones además del efecto en sus características físicas
(vello facial, género y raza lo que mejora la capacidad de generalización del sistema).
La forma de clasificar las expresiones en [84] se centró en una arquitectura de SVMs en
cascada:
Fig. 3.5: Clasificación de expresiones en cascada [84].
42
Y los resultados se pueden ver en la siguiente matriz de confusión donde destaca claramente
la expresión de felicidad frente a las demás:
Fig. 3.6: Matriz de confusión para el modelo SVM en cascada [84].
Métodos basados en superficies 3D e infrarrojos
Sugimoto et al. (2000)[86] intentan identificar mediante infrarrojos las transiciones entre
distintas emociones expresadas, y concluyen que fácilmente se podrían detectar transiciones cuando
realmente no existe ninguna (falsos positivos). Las causas de las falsas transiciones estarían en
movimientos musculares voluntarios; para eliminar esta influencia proponen construir un modelo
geométrico normalizado 3D con una vista frontal y expresión neutral para luego analizar las
variaciones de temperatura y detectar precisamente qué regiones tienen información válida al
momento de cambiar de expresión; la figura 3.5 describe el algoritmo de diferencias propuesto por
Sugimoto et al. (2000) y en la figura 3.6 se puede observar una adaptación de una maya 3D a la
imagen térmica.
43
Fig. 3.7: Diagrama de flujo para analizar los cambios de temperatura en el rostro [86].
Para estudiar las imágenes térmicas emplearon los sistemas termográficos TVS-3500 y TVS-
8100 de Nippon Avionics13 ya que se requería la detección más precisa de diferencias de temperatura
dentro de una resolución espacial de 300x300 píxeles y con hasta 256 niveles de temperatura.
Fig. 3.8: Normalización de un rostro empleando IR y modelos geométricos 3D [86].
13 http://www.avio.co.jp/english/
44
Capítulo 4
Propuesta para sistemas de seguridad y control de tránsito de pasajeros
4.1.Resultados de la investigación sobre el estado del arte
En la etapa de localización del rostro lo que se desea es un método rápido y con un alto
porcentaje de acierto, mientras más rápido se localice el rostro mayor será la cantidad de frames
disponibles para extracción y análisis de expresiones en la etapa posterior.
Algunos autores destacan la rapidez de los métodos de localización por color o texturas y los
estadísticos o basadas en reglas [26][27]. Otros, como Osuna et al. (1997)[37], proponen soluciones
más complejas como clasificación de apariencias mediante SVMs – que alcanzan niveles de hasta
un 97% de correcta localización en imágenes de alta calidad donde hay solo un rostro, pero niveles
cercanos a 77% donde hay más de uno [37] – y clasificadores AdaBoost sobre características de
Haar [69] cuyos resultados, extrayendo características y clasificando expresiones superan en tiempo
y precisión a los SVM [57] como se observó en las Tablas 4, 5 y 6.
En el punto 3.4.2 se citó una investigación que usa cámaras IR térmicas para interpretar
expresiones y capturar transiciones entre ellas [86], aunque esta técnica también puede ser muy útil
en localización de rostros en tiempo real si analizan las imágenes desde la perspectiva de color o
textura.
En lo que concierne netamente a identificación de expresiones la mayoría de los autores
concuerdan en la existencia del carácter de universalidad mínima de las expresiones faciales al
demostrar una emoción [57] ya que:
1. En todos los grupos humanos ocurren los mismos patrones de movimientos faciales.
2. Observadores de distintas sociedades atribuyen una misma emoción a patrones
establecidos como universales.
3. Esos patrones universales son por lo tanto manifestaciones de todas esas emociones en
todas las sociedades humanas.
45
Una buena interpretación de dichas emociones está sujeta al contexto en el cual se
desenvuelve un individuo, es posible que una persona que está a punto de llorar de muestras de
tristeza en su rostro, pero el llanto puede estar ocasionado por dolor físico, por tristeza, presión
psicológica o por un intenso momento de felicidad. Para el caso de control de pasajeros, el contexto
está bien definido.
4.2.Sistema propuesto
El esquema para localización y seguimiento propuesto por Wang et al. (2008)[69] (fig. 4.1)
es una solución que se adecua a las necesidades de localización y seguimiento, lo que la convierte
en una solución válida para el problema que se presenta en este TFM. Además, puede responder a
problemas de oclusión y de caras en orientaciones no frontales al contrastar la región donde se
detectó la cara con los puntos característicos del AAM.
Fig. 4.1: Diagrama de flujo de la propuesta de Wang et al.(2008)[69]
Sin embargo, modelos de carácter geométrico, como los AAM, requieren de hardware
potente que sea capaz de ejecutar su algoritmo en tiempo real, y más aun si se están observando
expresiones o microexpresiones14. Por este motivo se propone en este TFM replantearse la
identificación de expresiones y comenzar desde los elementos básicos que logran transmitir una
emoción tales como: cejas, ojos y boca.
Aplicaciones de mensajería instantánea recurren a dichos elementos básicos y los ofrecen
para que sus usuarios expresen con imágenes en lugar de palabras. Algunos ejemplos de esta forma
de expresar y su semejanza con una expresión real son:
14 Expresión breve e involuntaria. Su duración se estima en fracciones de segundo.
46
Fig. 4.2: Formas visuales clásicas para expresar tristeza, ira y sorpresa respectivamente.
Para individualizar los elementos de expresión en un rostro real se puede aprovechar su
característica principal: resaltan en el marco general del rostro, y por lo tanto tienen un contorno
bien definido. Citando el modelo FACS de Ekman y Friesen (1978)[64] las AUs involucradas en
este caso serían:
• Cejas:
◦ AU1: levantamiento cejas parte interior.
Fig. 4.3: Unidad de acción 1.
◦ AU4: bajada de cejas.
Fig. 4.5: Unidad de acción 4
• Boca:
◦ AU26: caída del mentón.
Fig. 4.6: Unidad de acción 26
◦ AU27: apertura de la boca.
47
Fig. 4.7: Unidad de acción 27
Se propone en este documento extraer los elementos usando operadores morfológicos. Las
operaciones morfológicas son operaciones realizadas sobre imágenes binarias que describen formas.
Estas operaciones toman como entrada una imagen binaria regresando como resultado una imagen
también binaria donde el valor de cada nuevo píxel se obtiene en función del valor del píxel original
y de sus vecinos. Entonces, eligiendo apropiadamente la forma de los vecinos a considerar
(elemento estructurante), pueden construirse operaciones morfológicas sensibles a una forma en
particular.
Las operaciones morfológicas usadas frecuentemente son:
Dilatación: adiciona píxeles con valor 1 en la frontera de cada objeto. La adición se hace según la
forma del elemento estructurante que sitúa su centro en cada píxel original del objeto, luego el píxel
del origen tomará el máximo valor de sus vecinos, es decir, el valor 1 si existe en la vecindad. En la
figura siguiente se observa la aplicación de dos elementos estructurantes sobre un objeto:
Fig. 4.8: Dilatación.
Erosión: elimina de la frontera píxeles con valor 1. Al igual que en la dilatación la forma del
elemento estructurante determina la forma final del objeto y el píxel analizado convertirá su valor
de 1 a 0 si en su vecindad existe algún elemento 0. Aunque puede considerarse el operador inverso
48
de la dilatación, en la práctica no lo es ya que elimina objetos pequeños que pueden desaparecer
absolutamente de la imagen:
Fig. 4.9: Erosión.
Apertura: es la aplicación de una erosión seguida de una dilatación manteniendo el elemento
estructurante.
Fig. 4.10: Apertura.
Cierre: aplicación de un operador de dilatación seguido de una erosión manteniendo el elemento
estructurante:
Fig. 4.11: Cierre.
El algoritmo propuesto para concretar la clasificación de la expresión basada en contornos
49
queda definido en términos generales por los siguientes pasos:
• Capturar un frame desde un video o cámara.
• Localizar y extraer del frame una subimagen que contenga sólo el rostro a analizar15.
• Convertir la imagen del rostro a escala de grises.
• Binarizar la imagen fijando un umbral sobre el cual los pixeles que superen X nivel de gris sean
todos de color negro y bajo el umbral todos blancos.
• Aplicar el filtro morfológico dilate sobre la imagen binarizada. Se obtiene una imagen con
cejas, ojos y boca más notorias.
15 Esta tarea la realiza el clasificador AdaBoost sobre características de Haar que es parte de las bibliotecas de distribución pública OpenCV y de una versión compilada para su uso en Matlab. http://www.mathworks.com/matlabcentral/fileexchange/19912
50
• Aplicar el algoritmo de detección de contornos Canny (utilizado en el EIT I (2008)[87]).
• Suprimir de la imagen los objetos de menor tamaño que no superen un umbral de cantidad de
pixeles que lo definen.
• Unir segmentos de líneas rotos mediante el operador morfológico bridge.
• Etiquetar individualmente los objetos restantes y calcular los centroides de cada uno.
• Localizar los dos objetos menos distantes del eje X (según coordenadas de la imagen total) e
identificarlos como las cejas. El eje de coordenadas siempre tendrá el origen situado en el píxel
superior-izquierdo de la imagen.
• Localizar el objeto con mayor área en la parte inferior de la imagen e identificarlo como el
objeto que representa la boca.
51
• Extraer el grado de inclinación que poseen los objetos cejas y determinar según el mismo si se
expresa tristeza o ira.
• Extraer el grado de apertura de la boca y determinar si expresa sorpresa.
Al extraer características desde los rostros se observó que el contorno de la boca suele ser
más difícil de extraer que los contornos de cejas y ojos, por lo tanto los operadores morfológicos no
deberían aplicarse de igual forma para la imagen completa. Así, se planteó la posibilidad de
segmentar la imagen y generar dos subimagenes: una superior que contenga contornos de cejas y
ojos, y una inferior que contenga sólo la boca. Estas operaciones de división de imagen y
aplicaciones de operadores por separado puede considerarse como un proceso previo a la
determinación de la emoción. En resumen las etapas de pre-procesado son:
52
Y el diagrama de flujo de la solución propuesta es:
53
54
4.3. Pruebas de rendimiento
El algoritmo se implementó sobre Matlab ya que los operadores morfológicos empleados
están incorporados en esta herramienta. La interfaz gráfica tiene la siguiente apariencia:
Fig. 4.7: Prototipo identificador de expresiones.
4.3.1. Pruebas con imágenes
Para evaluar el rendimiento se utilizaron 90 imágenes de la base de datos de JAFFE16. Esta
base de datos contiene sólo imágenes clasificadas dentro de las seis emociones básicas, donde todos
los sujetos fotografiados son mujeres japonesas. Para probar la aplicación desarrollada se
consideraron expresiones de sorpresa, ira y tristeza.
Fig. 4.8: Imágenes de JAFFE representando ira, sorpresa y tristeza respectivamente.
16 http://kasrl.org/jaffe.html
55
De 90 imágenes sometidas a prueba (10 sujetos, 3 imágenes para cada expresión del sujeto,
misma probabilidad a priori para cada clase: 33.33%) la aplicación identificó expresiones en 48, y
el 69% de ellas fueron bien clasificadas. La matriz de confusión asociada a los resultados es la
siguiente:
Ira Tristeza Sorpresa N.C.
Ira 15 0 0 15Tristeza 3 11 5 11Sorpresa 3 4 7 16
Tabla. 7: Matriz de confusión para pruebas sobre imágenes de JAFFE (NC: no clasificadas).
Al comparar las características de las imágenes clasificadas frente a las clasificadas
erróneamente y no clasificadas se distinguen aspectos que afectan la predicción:
• Rotación de la cabeza.
• Expresiones muy sutiles.
• Sombras producidas por la posición de la fuente de iluminación y que generan contornos
con características similares a los de boca y cejas, esto ocasiona la detección de falsos
objetos de interés.
Fig. 4.9: Imágenes de JAFFE no clasificadas.
Además, según la matriz anterior, las predicciones para tristeza y sorpresa son las que más
variación presentan, y en particular la predicción entre ambas. Algunas imágenes de tristeza fueron
clasificadas como sorpresa ya que al extraer el contorno de la boca se obtuvo una apertura superior
al umbral, sin embargo esa relación de apertura puede ser un falso positivo debido a que la boca
puede no estar abierta sino que el sujeto en observación podría tener labios muy gruesos o poco
56
alargados. En segundo lugar, imágenes de sorpresa también fuero clasificadas como tristeza, esta
situación sucede donde actúan dos AUs al mismo tiempo: apertura de boca y caída interior de las
cejas, lo que a una percepción visual simple puede verse como un nivel extremo de sorpresa.
Se analizaron también fotografías, descargadas desde internet, de sujetos con piel morena
pero en estos casos identificar correctamente las cejas es más complejo.
4.3.2. Pruebas con videos
Se hizo pruebas con 3 videos de sujetos distintos, con condiciones de iluminación uniforme
y expresando las tres emociones contempladas en este TFM con expresiones neutrales entre cada
emoción. Los umbrales de discriminación para los contornos debieron ser ajustados a las
condiciones de luz del entorno ya que las imágenes en escala de grises se mostraban con menos
contraste comparadas con las imágenes de JAFFE.
Fig. 4.10: Efectos de iluminación en las imágenes en gris. Frame de video (izquierda), fotografía
de JAFFE (derecha).
Los resultados en videos mostraron prácticamente el mismo porcentaje de acierto que en
imágenes únicas.
Considerando que en video se tiene la ventaja de que se disponen de 30 frames por segundo
– lo que aporta mayor información al considerar la variable tiempo – se optó por incorporar a la
aplicación un buffer de emociones detectadas (fig.4.11) con capacidad para 3 frames (100
milisegundos apróx.).
Si el buffer se completa con una misma emoción el algoritmo asumirá esa emoción como la
válida y la informará por pantalla. De esta forma los frames clasificados con una expresión que no
corresponde a la realidad no se omiten y por lo tanto el resultado final depende de la continuidad de
una misma ocurrencia. Las expresiones correctamente clasificadas (desde su inicio hasta su fin)
alcanzaron hasta un 75%. de predicción correcta.
57
Fig. 4.12: Buffer de emociones detectadas.
58
Frame Nira ira
Inicio de expresión
Fin de expresión
tristeza ira tristeza
IRA
Frame N+4
Capítulo 5
Conclusiones y proyección
Sobre la investigación y la propuesta
Las emociones más usadas en estudios sobre expresiones y sistemas automáticos de
reconocimiento son las que se proponen como las seis básicas: felicidad, miedo, ira, tristeza,
desagrado y sorpresa. En un control de seguridad (por ejemplo, una ventanilla de chequeo de
identificación) identificar extremos en la expresión de dichas emociones – de forma similar a como
lo presentan Russell y Fernández-Dols (1997)[57] y como se vio en el punto 3.2 – podría ser una
tarea menos compleja y que un agente de seguridad quizá pueda identificar fácilmente si está
siempre poniendo atención a los rostros; no obstante, cuando se trata de seguridad en medios de
transporte las intenciones de causar daños están ocultas y generalmente sólo se dejan ver en breves
espacios de tiempo o en pocos frames de una grabación.
El prototipo desarrollado logra clasificar tres tipos de expresiones: tristeza, ira y sorpresa
con hasta un 75% de efectividad en videos, sólo con información sobre cejas y boca y sin emplear
algoritmos geométricos o de aprendizaje artificial, esto lo convierte en parte en una solución
práctica y de baja carga computacional.
Queda información importante por rescatar de las imágenes y que puede aumentar el
indicador de acierto, esta información se encuentra en los desplazamientos musculares de mejillas y
frente, incluso las expresiones más sutiles implican dichos movimientos.
Dividir la imagen en un segmento que comprenda cejas y ojos, y en un segmento que sólo
comprenda la boca facilitó la discriminación entre las distintas expresiones abordadas en este
trabajo, procesar ambos segmentos independientemente es una ventaja. Al aplicar umbrales
uniformes sobre toda la imagen se rescata en perfectas condiciones bordes del segmento superior o
inferior, pero difícilmente de ambos a la vez.
Usar operadores morfológicos para extraer características faciales es una buena opción si lo
que se busca es análisis en tiempo real, reducción de tiempos de ejecución y seguimiento de los
rasgos más notorios. Los efectos provocados por la fuente de luz, tales como sombras o excesos de
brillo serían solucionables aplicando tratamientos de ecualización sobre los frames. Los objetos
59
como gafas de gran tamaño inevitablemente ocluyen ojos y cejas y por lo tanto inducen a errores,
pero el ambiente donde se pretende implantar la solución es un entorno de seguridad supervisado y
ocultar el rostro no está permitido.
Factores como rotación de la cabeza y rasgos o expresiones muy sutiles son cuestiones que
afectan la identificación de las expresiones mediante la aplicación desarrollada. El primero es
factible de solucionar mejorando el módulo de localización de rostro, pero el segundo entra en un
campo muy subjetivo donde es recomendable un modelo geométrico capaz de hacer seguimiento de
texturas con mayor precisión que la detección de contornos.
Incorporar el buffer de emociones detectadas facilitó la interpretación de lo que expresa un
sujeto al centrarse en la continuidad de las expresiones en pequeñas fracciones de segundo. Además
es un indicador global y más certero que sólo analizar una imagen.
Esta propuesta comprende la interpretación de expresiones considerables como anómalas:
tristeza, ira y sorpresa; las que deberían poner en alerta a personal de seguridad. La suma de estas
expresiones a los gestos observados por el personal tales como tocarse la nariz u orejas, desviar la
mirada frecuentemente serían una clara señal de actividad poco usual en un pasajero sobre el que
debería centrarse la atención.
Trabajo futuro
Incorporar la identificación de microexpresiones que complementen al prototipo, haciendo
un seguimiento al desplazamiento muscular del rostro con modelos como los vistos en el punto 3.4
y en particular el modelo geométrico deformable aplicado sobre videos (propuesta por Wang et al.
(2008)[69] y cuya base es un AAM). En este caso podría aplicarse el AAM sólo a una parte del
rostro, como por ejemplo, los ojos, cejas y mejillas; al reducir el área de cobertura también se
reducirá la cantidad de triangulaciones del algoritmo de Cootes y en consecuencia se obtendrá un
procesado de la imagen más rápido que al usar el AAM sobre toda la cara y habrían menos
desplazamientos que cuantificar. Así entonces, según los artículos publicados [45][69][77][80][81]
[74] los mejores métodos de cuantificación serían el sistema FACS y los mapas de desplazamiento
vectorial como el de la técnica RVD [63], ya que permitirían mayor aproximación a las
microexpresiones al ir al detalle de los cambios en el rostro en lugar de tener una visión global.
60
Incorporar un módulo de tratamiento de imagen que controle los efectos negativos de las
fuentes de luz para no detectar contornos de falsas cejas o bocas producidos por sombras, se
mejoraría así la predicción del algoritmo.
Dado que el sistema está basado en reglas, los umbrales de binarización y de los operadores
morfológicos son estáticos y probablemente no sean los óptimos para cada rostro que se analice.
Frente a esta situación sería interesante aplicar técnicas de tratamientos de imágenes o someter el
ajuste de dichos umbrales a un algoritmo genético que se encargue de encontrar los mejores valores
para la etapa de clasificación.
Realizar pruebas de rendimiento con capturas de sujetos expresando en forma
completamente natural y en entornos lo menos controlado posible. Lo cual aportaría a un enfoque
de desarrollo con bases reales y no actuadas.
Finalmente, otra línea que se desprende de aquí es una posible investigación sobre
identificación de estados de neutralidad emocional. No todos expresamos neutralidad de la misma
forma, algunos tienen rasgos de ira o tristeza muy marcados pero no necesariamente es lo que
sienten, así entonces identificar el estado de neutralidad para cada sujeto permitiría crear sistemas
de interacción mucho más personalizados tanto en el ámbito comercial o médico.
61
62
Bibliografía [1] Pajares, G.; de la Cruz, J., Visión por computador, Ed. Ra-Ma, 2ª Edición 2007. ISBN:9788479878311
[2] Marr, D., Visión Una investigación basada en el cálculo acerca de la representación y el procesamiento humano de la información visual, Ed. Alianza, 1985. ISBN:8420665126
[3] Goldstein, B., Sensación y percepción, Ed. Paraninfo, 6ª Edición 2006. ISBN:9788497323888
[4] Pantrigo, J., Análisis biomecánico del movimiento humano mediante técnicas de visión artificial [Online], Biomecánica. Comunicaciones Symposium SIB, pp.38-43 Nº10 Vol.2 2006. Available: http://www.escet.urjc.es/~jjpantrigo/papers/ElDesarrolloDelPaqueteBiomSoft.pdf
[5] Chen, Z., Bayesian Filtering: From Kalman Filters to Particle Filters, and Beyond, Tech. Rep. [Online], McMaster University, 2003. Available: http://www.dsi.unifi.it/users/chisci/idfric/Nonlinear_filtering_Chen.pdf
[6] Gordon, N.; Salmond, D.; Smith, A., Novel approach to nonlinear/nongaussian bayesian state estimation [Online], Radar and Signal Processing, IEEE Procs. F pp.107-113 , 1993. ISSN:0214-9915 Available: http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=210672
[7] Smith, A.; Gelfand, A., Bayesian statistics without tears: A sampling-resampling perspective [Online] [Online], The American Statistian Vol.46 Nº2 pp.84-88, 1992. Available: http://dga.jouy.inra.fr/dga/internet/ESeminaire/BayesianStatistics.pdf
[8] Higuchi, T., Monte Carlo filter using the Genetic algorithm operators [Online], Statistical Computation and Simulation Vol.59 Nº1 pp.1-23, 1997. Available: http://www.springerlink.com/content/r87034270w044v6h/
[9] Doucet, A.; Godsill, S.; Andrieu, C., On sequential Monte Carlo sampling methods for Bayesian filtering [Online], Sequential Monte Carlo Methods in Practice Vol.10 Nº3 pp.197-208, 2000. Available: http://people.cs.ubc.ca/~arnaud/doucet_godsill_andrieu_sequentialmontecarloforbayesfiltering.pdf
[10] Duane, S.; Kennedy, D.; Pendleton, B.; Roweth, D., Hybrid Monte Carlo [Online], Physics Letters B Vol.195 Nº2 pp.216-222, 1987. Available: http://dx.doi.org/10.1016/0370-2693(87)91197-X
[11] Siddiqui, M.; Medioni, G., Robust Real-Time Upper Body Limb Detection and Tracking [Online], Procs. 4th ACM international workshop on Video surveillance and sensor networks, pp.53-60 2006. ISBN:1-59593-496-0 Available: http://portal.acm.org/ft_gateway.cfm?id=1178792&type=pdf&coll=GUIDE&dl=GUIDE&CFID=58843309&CFTOKEN=76057618
[12] Higuera, O., Images sequence movement estimation [Online], Revista Colombiana de Tecnologías de Avanzada, Nº7 Vol.1 2006. ISSN:1692-7257 Available: http://www.unipamplona.edu.co/unipamplona/hermesoft/portalIG/home_18/recursos/01_general/documentos/16052008/rev_tec_avan_art10_vol1_num7.pdf
[13] Zhang, D., Automated Biometrics Technologies and systems, Ed. Kluwer Academic, 2000. ISBN:0792378563
[14] Sun, Y.; Sebe, N.; Lew, M.; Gevers, T., Authentic Emotion Detection in Real-Time Video [Online], Procs. of the Computer Vision in Human-Computer Interaction, pp.94-104 Vol.3058 2004. ISBN: 978-3-540-22012-1 Available: http://www.springerlink.com/content/u504gjnb8rnp1c4x/
[15] Jaimes, A., The Face in Activity Analysis and Gesture Interfaces [Online], Procs. Computer Human Interfaces 2006, 2006. Available: http://www.bartneck.de/workshop/chi2006/papers/ajaimes_hcif06.pdf
[16] Branco, P., Usability Indicators - In Your Face [Online], Procs. Computer Human Interaction, 2006. Available: http://www.bartneck.de/workshop/chi2006/papers/branco_hcif06.pdf
[17] Chatting, D.; Thorne, J., Faces as Content [Online], Procs. Human Computer Interaction, 2006. Available: http://www.bartneck.de/workshop/chi2006/papers/chatting_chif06.pdf
[18] Lyons, M., HCI and the FACE [Online], Procs. of CHI 2006, April 22–27, 2006, Montreal, Canada. pp.1671-1674 , 2006. ISBN:1-59593-298-4 Available: http://portal.acm.org/ft_gateway.cfm?
63
id=1125759&type=pdf&coll=GUIDE&dl=GUIDE&CFID=58672730&CFTOKEN=44479745
[19] Machado, P.; Beutler, L.; Greenberg, L., Emotion Recognition in Psychotherapy: Impact of Therapist Level of Experience and Emotional Awareness [Online], Journal of Clinical Psychology pp.39-57 Vol.55, 1999. ISSN:0021-9762 Available: http://www3.interscience.wiley.com/cgi-bin/fulltext/30004809/PDFSTART
[20] Browndyke, J., Neuropsychosocial factors in emotion recognition: Facial expressions [Online], Telepsychology Solutions, 2002. Available: http://www.neuropsychologycentral.com/interface/content/resources/page_material/resources_general_materials_pages/resources_document_pages/neuropsychosocial_factors_in_emotion_recognition.pdf
[21] Pal, P.; Iyer, A.; Yantorno, R., Emotion Detection from Infant Facial Expressions and Cries [Online], Procs. IEEE International Conference Acoustics, Speech and Signal processing, pp.721-724 Vol.2 2006. Available: http://aniyer.googlepages.com/pal_icassp06.pdf
[22] Ekman, P.; Friesen, W., Desenmascarando la cara (Traducción), Ed. s.n., 1975.
[23] Rossenfeld, A.; Chellapa, R., Face recognition a Literature Survey [Online], ACM Computing Surveys Vol.35 Nº4 pp.399–458, 2003. Available: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.3.3531&rep=rep1&type=pdf
[24] Yang, H.; Kriegman, D.; Ahuja, N., Detecting Faces in Images: A Survey [Online], Procs. IEEE Trans. On Pattern Analysis And Machine Intelligence Vol.24 Nº1 pp. 34-58, 2002. Available: http://vision.ai.uiuc.edu/mhyang/papers/pami02a.pdf
[25] Thompson, W.B.; Barnard, S.T., Computer Lower level estimation and interpretation of visual motion [Online], Computer Vol.14 Nº8 pp.20-28, 1981. Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&isnumber=&arnumber=1667466
[26] Dai, Y.; Nakano, Y., Face-Texture model based on SGLD and its application in face detection in a color scene [Online], Pattern Recognition, pp.1007-1017 Nº6 1995. Available: http://linkinghub.elsevier.com/retrieve/pii/0031320395001395
[27] Haralick, R.; Shanmugam, K.; Dinstein, I., Textural Features for Image Classification [Online], IEEE Trans. On systems, man, and cybernetics Vol.3 Nº6 pp.610-621, Shinshu University; University of Kansas 1973. Available: http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?&arnumber=4309314
[28] Yang, G.; Huang, T. S., Image and Vision Computing [Online], Human Face Detection in a Complex Background Vol.20 Nº20 pp.257-264, 2002. Available: http://linkinghub.elsevier.com/retrieve/pii/0031320394900175
[29] Sirohey, S. A., Human face segmentation and identification, Tech. Rep. [Online], University of Maryland, 1993. Available: http://citeseerx.ist.psu.edu/icons/pdf.gif;jsessionid=8768EC49104AF65CBECF3D9A7220DCDF
[30] Canny, J.F., A computational approach to edge detection [Online], IEEE Trans. on Pattern Analysis and Machine Intelligence Vol.8 Nº6 pp.679-698, 1986. Available: http://portal.acm.org/citation.cfm?id=11275
[31] Han, Chin-Chuan; Mark Liao, Hong-Yuan; Yu, Kuo-Chung; Chen, Liang-Hua, Fast face detection via morphology-based pre-processing [Online], Lecture Notes In Computer Science, pp.469-476 2006. ISBN:3-540-63508-4 Available: http://www.springerlink.com/content/2u511r2875225k4g/
[32] Sirovich, L.; Kirby, M., Low-dimensional procedure for the characterization of human faces, Procs. Journal of the Optical Society of America Vol.A Nº4 pp.512-524, 1987. Available: http://www.opticsinfobase.org/viewmedia.cfm?uri=josaa-4-3-519&seq=0
[33] Haddadnia J.; Faez K.; Ahmadi, M., N-Feature Neural Network Human Face Recognition [Online], Procs. from the 15th International Conference on Vision Interface, pp.1072-1082 Nº12 Vol.22 2002. Available: http://linkinghub.elsevier.com/retrieve/pii/S0262885604000794
[34] Armengol, M., Tesis: Análisis comparativo de métodos basados en subespacios aplicados al reconocimiento de caras [Online], Universidad de Valencia, 2006. Available: http://www.uv.es/marjoari/pdf/definitivo.pdf
[35] Vapnik, V., The nature of statistical learning theory, Ed. Springer, 1995.
64
[36] Villasana, S.; Seijas, C.; Caralli, A.; Villanueva, C., Estimador de resistencia rotórica usando máquinas de vectores de soporte [Online], Revista Ingeniería UC Vol.11 Nº3 pp.25-32, 2004. Available: http://redalyc.uaemex.mx/src/inicio/ArtPdfRed.jsp?iCve=70711304&iCveNum=9464
[37] Osuna, E.; Freund, R.; Giros, F., Training Support vector Machines: an Application to Face Detection [Online], Computer Vision and Pattern Recognition pp.130-136 , 1997. ISBN:0-7695-2528-8 Available: http://ieeexplore.ieee.org/search/wrapper.jsp?arnumber=609310
[38] Cardinaux, F.; Sanderson, C.; Bengio, S., User Authentication via Adapted Statistical Models of Face Images [Online], IEEE Trans. on Signal Processing Vol.54 Nº1 pp.361-373, 2006. Available: http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=1561601
[39] Fröba B., Ernst A., Face detection with the modified census transform [Online], Procs. 6th IEEE International Conference on Automatic Face and Gesture Recognition pp.91-96, 2004. Available: http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=1301514
[40] Cootes, T.F.; Edwards, G.; Taylor, C.J., Comparing Active Shape Models with Active Appearance Models [Online], British Machine Vision Conference, pp.173-182 Vol.1 1999. Available: http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.33.2465
[41] Cootes, T.F.; Taylor, C.J., Statistical models of appearance for medical image analysis and computer vision [Online], Image processing. Conference, pp.236-248 Nº3 Vol.4322 2001. Available: http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.5.7256
[42] Hartley; Dempster; McLachlan and Krishnan, EM Algorithm [Online], Biometrics, pp.174-194 1958,1977,1997. Available: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.9.9735&rep=rep1&type=url&i=0
[43] Cootes, T.F.; Edwards, G.; Taylor, C.J., Active Appearance Models [Online], IEEE Trans. on Pattern Analysis and Machine Intelligence, pp.681-685 Nº6 Vol.23 2001. ISSN:0162-8828 Available: http://www.computer.org/portal/web/csdl/abs/trans/tp/2001/06/i0681abs.htm
[44] Zhihong, Z.; Maja, P.; Roisman, G.; Huang, T. S., A Survey of Affect Recognition Methods: Audio, Visual and Spontaneous Expressions [Online], Procs. of the 9th international conference on Multimodal interfaces, pp.126-133 2007. Available: http://dx.doi.org/10.1145/1322192.1322216
[45] Lucey, S.; Ashraf, A.B.; Cohn, J.F., Investigating Spontaneous Facial Action Recognition through AAM Representations of the Face [Online], Carnegie Mellon University, 2007. Available: http://www.ri.cmu.edu/pub_files/pub4/lucey_simon_2007_2/lucey_simon_2007_2.pdf
[46] Zhao, W.; Chellappa, R., Face processing, modelling and methods, Ed. Academic Press, Inc, 2006.
[47] Xiaoyu, W.; Jihong, C.; Pingjiang, W.; Zhihong, H., Infrared Human Face Auto Locating Based on SVMand A Smart Thermal Biometrics System [Online], Procs. of the Sixth International Conference on IntelligentSystems Design and Applications pp.1066-1072 Vol.2, 2006. ISBN:1-59593-298-4 Available: http://www.computer.org/portal/web/csdl/doi/10.1109/ISDA.2006.253759
[48] Wang, J.; Sung, E., Facial Feature Extraction in an Infrared Image by Proxy With a Visible Face Image [Online], IEEE Trans. On Instrumentation And Measurement Vol.56 Nº5 , 2007. Available: http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=1301514
[49] Martínez, F.; Montero, J.; De la Cerra, J., Sesgos cognitivos en el reconocimiento de expresiones emocionales de voz sintética en la alexitimia [Online], Psicothema 2002 pp.344-349 Vol.14, 2002. ISSN:0214-9915 Available: http://www.psicothema.com/pdf/730.pdf
[50] Luengo, I.; Navas, E.; Hernáez, I.; Sánchez J., Reconocimiento automático de emociones utilizando parámetros prosódicos [Online], Procesamiento del Lenguaje Natural Nº35 pp.13-20, Temple University 2005. Available: http://www.sepln.org/revistaSEPLN/revista/35/02.pdf
[51] Kwon, O.; Chan, K.; Hao, J.; Lee, T., Emotion Recognition by Speech Signals [Online], Eighth European Conference on Speech Communication and Technology, 2003. Available: http://inc2.ucsd.edu/~leelab/pdfs/ES030151.pdf
65
[52] Planet, S.; Morán, J.; Formiga, L., Reconocimiento de emociones basado en el análisis de la señal de voz parametrizada [Online], Actas da 1a Conferência Ibérica de Sistemas e Tecnologias de Informação, pp.837-854 Vol.2 2006. ISBN:978-989-20-0271-2 Available: http://www.salle.url.edu/~splanet/material/pdf/planet06.pdf
[53] Castellano, G.; Kessous, L.; Caridakis, G., Multimodal emotion recognition from expressive faces, body gestures and speech [Online], Artificial Intelligence and Innovations 2007: from Theory to Applications, pp.375-388 Vol.247 2007. Available: http://www.springerlink.com/content/p7154u362j677195/fulltext.pdf
[54] Busso, B.; Deng, Z.; Yildirim, S.; Bulut, M., Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information [Online], ACM 6th International Conference on Multimodal Interfaces pp.205-211 , 2004. ISBN:1-58113-995-0 Available: http://portal.acm.org/citation.cfm?id=1027968
[55] Darwin, Ch., The expression of the emotions in man and animals, Ed. The classics of psychiatry & behavioral sciences library, 1872.
[56] Fridlund, A. J., Human facial expression: An evolutionary view, Ed. Academic Press, Inc, 1994. ISBN:0122676300
[57] Russell, James A.; Fernández-Dols, J.M.l, The Psychology of Facial Expression, Ed. Camb.U.P., 1997.
[58] Ekman, Paul., Universals and cultural differences in facial expressions of emotion, Journal of Personality and Social Psychology Vol.4 Nº53 pp.712-717, 1972.
[59] Elfenbein, H.; Ambady, N., Universals And Cultural Differences In Recognizing Emotions [Online], Current Directions In Psychological Science Vol.12 Nº5 pp.159-164, 2003. Available: http://www.tufts.edu/~nambad01/Universals%20and%20cultural%20differences%20in%20recognizing%20emotions.pdf
[60] Phillips, M.; Young, A.; Senior, C., Brammer; M.; Andrew, C.; Calder, A.; Bullmore, E.; Perrett, D.; Rowland, D.; Williams, S.; Gray, J.; David, A., A specific neural substrate for perceiving facial expressions of disgust, Nature Nº389 pp.495-498, 1997.
[61] Atkinson, A., Emotion-Specific Clues to the Neural Substrate of Empathy [Online], Behavioral and Brain Sciences Vol.1 Nº25 pp.22-23, 2007. Available: http://journals.cambridge.org/action/displayAbstract?fromPage=online&aid=139145
[62] Ekman, P.; Rosenberg, E., What the face reveals, Ed. Oxford University Press, 1997. ISBN:0-19-510446-3
[63] Verma, R.; Davatzikos, C.; Loughead, J.; Indersmitten, T.; Hu, R.; Kohler, C.; Gur R. E.; Gur, R. C., Quantification of facial expressions using high-dimensional shape transformations [Online], Journal of Neuroscience Methods, pp.61-73 Nº141 Vol.1 2005. Available: http://www.biomedexperts.com/Profile.bme/291934/Christos_Davatzikos
[64] Ekman, P.; Friesen, W., Facial Action Coding System, Ed. Consulting Psychologists Press, 1978.
[65] Curio, C.; Breidt, M; Kleiner, M.; Vuong, Q.; Giese, M.; Bülthoff, H., Semantic 3D Motion Retargeting for Facial Animation [Online], Procs. 3th Symposium on Applied perception in graphics and visualization, pp.77-84 2006. ISBN:1-59593-429-4 Available: http://portal.acm.org/citation.cfm?id=1140491.1140508
[66] Wojdel, A.; Rothkrantz, L., Intelligent system for semiautomatic facial animation, , 2006.
[67] Kring, A.; Sloan, D., The Facial Expression Coding System (FACES): A users guide, Tech. Rep. [Online], University of California; Temple University, 2003. Available: http://socrates.berkeley.edu/~akring/FACES%20manual.pdf
[68] Pantic, M.; Rothkrantz, Leon., Automatic Analysis of Facial Expressions: The State of the Art [Online], Trans. on patterns analysis and machine inteligence Vol.22 Nº12 pp.1424-1445, 2000. Available: http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.25.5398
[69] Wang, P.; Barrett, F.; Martin, E.; Milonova, M.; Gurd, R.E.; Gurb, R.C.; Kohler C.; Verma R., Automated video-based facial expression analysis of neuropsychiatric disorders [Online], Journal of Neuroscience Methods Vol.168 Nº168 pp.224–238, 2008. Available: http://linkinghub.elsevier.com/retrieve/pii/S016502700700475X
66
[70] Wiskott, L.; Fellous J.; Krüger, N.; von der Malsburg, C., Face Recognition by Elastic Bunch Graph Matching [Online], Intelligent Biometric Techniques in Fingerprint and Face Recognition Vol.19 Nº7 pp.775-779, 1997. Available: http://dx.doi.org/10.1109/34.598235
[71] Lyons, M.; Budynek, J.; Akamatsu, S., Automatic classification of single facial images [Online], IEEE Trans. on pattern analysis and machine intelligence Vol.21 Nº12 pp.1357-1362, 1999. Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&isnumber=&arnumber=817413
[72] Littlewort, G.; Stewart Bartlett, M.; Fasel, I.; Susskind, J; Movellan, J., Dynamics of facial expression extracted automatically from video [Online], Procs. Computer Vision and Pattern Recognition Workshop, pp.80 2005. Availabe: http://linkinghub.elsevier.com/retrieve/pii/S0262885605001654
[73] Fasel B.; Luettin J., Recognition of asymmetric facial action unit activities and intensities [Online], Procs. 15th International Conference on Pattern Recognition, pp.1100-1103 Vol.1 2000. Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&isnumber=&arnumber=905664
[74] Tian, T.; Kanade, T.; Cohn, J., Recognizing Action Units for Facial Expression Analysis [Online], Procs. IEEE Trans. on Pattern Analysis and Machine Intelligence, pp.97-115 Nº2 Vol.23 2001. Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&isnumber=&arnumber=908962
[75] Cohen, I.; Sebe, N.; Garg, A.; Chen, L.; Huang, T., Facial expression recognition from video sequences: temporal and static modeling [Online], Procs. Computer Vision and Image Understanding, pp.160-187 Nº1 Vol.91 2003. Available: http://linkinghub.elsevier.com/retrieve/pii/S107731420300081X
[76] Wang, Y.; Ai, H.; Wu, B.; Huang, C., Real Time Facial Expression Recognition with Adaboost [Online], Procs. 17th International Pattern Recognition, pp.926-929 Vol.3 2004. ISBN:0-7695-2128-2 Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&isnumber=&arnumber=1334680
[77] Whitehill, J.; Omlin, C., Haar Features for FACS AU Recognition [Online], 7th International Conference on Automatic Face and Gesture Recognition pp.101, University of the Western Cape; University of the South Pacific 2006. Available: http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=1613004
[78] Cohen, I.; Sebe, N.; Cozman, F.; Cirelo, M.; Huang, T., Learning Bayesian Network Classifiers for Facial Expression Recognition using both Labeled and Unlabeled Data [Online], Procs. Computer Vision and Pattern Recognition, pp.I595-I601 Vol.1 2003. ISBN:0-7695-1900-8 Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&isnumber=&arnumber=1211408
[79] Ohta, H.; Saji, H.; Nakatani, H., Recognition of Facial Expressions Using Muscle-Based Feature Models [Online], Procs. 14th International Conference on Pattern Recognition, pp.1379-1381 1998. ISBN:0-8186-8512-3 Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&isnumber=&arnumber=711959
[80] Essa, I.; Pentland, A., Facial Expression Recognition using a Dynamic Model and Motion Energy [Online], Procs. 5th Fifth International Conference on Computer Vision, pp.360-367 1995. ISBN:0-8186-7042-8 Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&isnumber=&arnumber=466916
[81] Essa, I.; Pentland, A., Coding, Analysis, Interpretation, and Recognition of Facial Expressions [Online], Procs. 6th International Conference on Mutlmodal Interfaces, Nº7 Vol.19 1997. Available: http://graphics.usc.edu/cgit/pdf/papers/ICMI2004-emotionrecog_upload.pdf
[82] Kimura, S.; Yachida, S., Facial expression recognition and its degree estimation [Online], Procs. Computer Vision and Pattern Recognition, pp.295-300 1997. ISBN:0-8186-7822-4 Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&isnumber=&arnumber=609338
[83] Wen, Z.; Huang, T., Capturing subtle facial motions in 3D face tracking [Online], Procs. 9th IEEE International Conference on Computer Vision, pp.1343-1350 Vol.2 2003. ISBN:0-7695-1950-4 Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&isnumber=&arnumber=1238646
[84] Saatci, Y.; Town, C., Cascaded Classification of Gender and Facial Expression using Active Appearance Models [Online], Procs. 7th International Conference on Automatic Face and Gesture Recognition, pp.393-398 2006. ISBN:0-7695-2503-2 Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&isnumber=&arnumber=1613052
[85] Viola, P.; Jones, M., Robust Real-Time Face Detection [Online], Procs. 8th IEEE International Conference on
67
Computer Vision, pp.747 Vol.2 2003. ISBN:0-7695-1143-0 Available: http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=937709
[86] Sugimoto, Y.; Yoshitomi, Y.; Tomita, S., A method for detecting transitions of emotional states using a thermal facial image based on a synthesis of facial expressions [Online], Robotics and Autonomous Systems, pp.147-160 Nº3 Vol.31 2000. Available: http://www.ingentaconnect.com/content/els/09218890/2000/00000031/00000003/art00104
[87] Rojas Bello, R., Estudio Independiente Tutelado: Identificación de rostro e identificación de emociones y variaciones naturales, Escuela Politécnica Superior Universidad Autónoma de Madrid, 2008.
68
ANEXOS
ANEXO I: AUs definidas en FACS
Tabla 8: Unidades de acción sencillas en FACS [64]
Tabla 9: Unidades de acción generales en FACS [64]
69