UNIVERSIDAD DE GUAYAQUILrepositorio.ug.edu.ec/bitstream/redug/49491/1/B-CISC-PTG... · 2020. 11. 5. · Físicas de la Universidad de Guayaquil, previo a la obtención del Título

UNIVERSIDAD DE GUAYAQUIL

FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS

CARRERA DE INGENIERÍA EN SISTEMAS

COMPUTACIONALES

RECONOCIMIENTO DE LOS ESTADOS DE ÁNIMO DE LAS

PERSONAS EMPLEANDO TÉCNICAS DE APRENDIZAJE

AUTOMÁTICO

PROYECTO DE TITULACIÓN

Previa a la obtención del Título de:

INGENIERO EN SISTEMAS COMPUTACIONALES

AUTORES:

ALVARADO GUERRERO MARÍA ANDREA

PONCE FIGUEROA ANGELO JOEL

TUTOR:

ING. MIGUEL BOTTO TOBAR, M.SC.

GUAYAQUIL – ECUADOR

2020

II

REPOSITORIO NACIONAL EN CIENCIAS Y TECNOLOGÍAS

FICHA DE REGISTRO DE TRABAJO DE TITULACIÓN

TÍTULO: “RECONOCIMIENTO DE LOS ESTADOS DE ÁNIMO DE LAS PERSONAS

EMPLEANDO TÉCNICAS DE APRENDIZAJE”

AUTOR(ES):

María Andrea Alvarado Guerrero

Angelo Joel Ponce Figueroa

REVISOR:

Angel Cuenca Ortega, M. Sc.

INSTITUCIÓN: Universidad de

Guayaquil

FACULTAD: Ciencias Matemáticas y Físicas

CARRERA: Ingeniería en Sistemas Computacionales

FECHA DE PUBLICACIÓN: N° DE PAGS: 151

AREA TEMÁTICA: Investigación

PALABRAS CLAVES: estado de ánimo, voz, redes neuronales, máquinas de vectores de

soporte, bosques aleatorios, personas, modelos, análisis.

RESUMEN: La existencia de plataformas digitales que identifiquen el estado de ánimo de las

personas es muy limitada, en cuanto al estudio de la voz. El propósito de este estudio es

determinar algoritmos de aprendizaje automático que faciliten identificar el estado anímico de

las personas a través de la voz. La metodología está fundamentada en el método científico

debido a que posibilitó inspeccionar, indagar y examinar, todo tipo de resultados e

investigaciones para la obtención de modelos innovadores que se justificarán en pruebas

controladas y monitoreadas. Se utilizaron dos bases de datos de discurso emocional, que estaban

constituidas por las emociones básicas del ser humano y por esta razón fueron etiquetadas por

estados de ánimo. Además, se utilizaron extractores de características acústicas para identificar

la intensidad en el tono de la voz, generando14 dataset. Se evaluaron a 29 personas, haciendo

uso del test de Sacks que es aplicado en el área de psicología en donde se eligieron 6 sujetos

aleatoriamente para interpretar su estado anímico por parte de los expertos en el área de

psicología, siendo validados por medio de los coeficientes kappa y permitieron reducir la

cantidad de dataset. Para la clasificación, se implementaron las técnicas de aprendizaje

automático: ANN, RF y SVM, obteniendo mejores resultados con el clasificador ANN.

N° DE REGISTRO: N° DE CLASIFICACIÓN:

DIRECCIÓN URL: (PROYECTO DE TITULACION EN LA WEB)

ADJUNTO PDF SI X NO

CONTACTO CON AUTORES:



Teléfono:

0983326570

0967861317

Email:

[email protected]

[email protected]

CONTACTO DE LA INSTITUCIÓN Nombre: Ab. Juan Chávez Atocha

Teléfono: 2307729

Email: [email protected]

mailto:[email protected]

III

APROBACIÓN DEL TUTOR

En mi calidad de Tutor del Trabajo de Titulación, “RECONOCIMIENTO DE LOS ESTADOS

DE ÁNIMO DE LAS PERSONAS EMPLEANDO TÉCNICAS DE APRENDIZAJE

AUTOMÁTICO” elaborado por los Srs.

Alvarado Guerrero María Andrea y Ponce Figueroa Angelo Joel, estudiantes no titulados de

la Carrera de Ingeniería en Sistemas Computacionales, Facultad de Ciencias Matemáticas y

Físicas de la Universidad de Guayaquil, previo a la obtención del Título de Ingeniero(a) en

Sistemas Computacionales, me permito declarar que luego de haber orientado, estudiado y

revisado, la apruebo en todas sus partes.

Atentamente

Ing. Miguel Botto Tobar, M.Sc.

TUTOR

IV

DEDICATORIA

Con todo cariño dedico el presente trabajo

de titulación a Dios, gracias a él he logrado

concluir con perseverancia mi carrera. A

mi familia, en especial a mis padres Xavier

y Mónica, a mi hermana María de los

Ángeles, y mis tías Marcela y Gabriela,

porque siempre estuvieron a mi lado

brindándome su apoyo y consejos para

hacer de mí una mejor persona y son la

motivación de mi vida.

En memoria a mis amados abuelitos

Manuel, Jorge, Leticia y Rosa, por ser

ejemplo en vida de lealtad, sabiduría,

humildad, sacrificio y amor.


V

DEDICATORIA

El presente trabajo de titulación se lo

dedico a Dios, por guiarme con

inteligencia y sabiduría a lo largo de mi

carrera. A mi mamá Sebastiana por

siempre estar a mi lado brindándome su

apoyo incondicional y alentarme en

alcanzar mis objetivos.


VI

AGRADECIMIENTO

Al concluir una etapa maravillosa de mi

vida quiero extender un profundo

agradecimiento a quienes hicieron

posible este sueño, aquellos que siempre

fueron inspiración, apoyo y fortaleza para

seguir adelante día a día; Dios, mis

padres, mi hermana, mis amigos, mis

docentes y mi tutor de tesis.

Cada uno de los momentos vividos

durante todos estos años, son

simplemente únicos e inolvidables.


VII

AGRADECIMIENTO

Agradezco principalmente a Dios por

permitirme alcanzar una nueva meta en

mi carrera profesional, a mi familia por

ser mi pilar fundamental, con sus

consejos que día a día permitían que

mejore como persona.

De igual manera agradezco a mis

profesores y tutor de tesis que me

brindaron sus conocimientos y consejos

para aplicarlos tanto en mi vida

universitaria como profesional y por

guiarme para culminar este trabajo.


VIII

TRIBUNAL PROYECTO DE TITULACIÓN

Ing. Fausto Cabrera Montes, M.Sc.

DECANO DE LA FACULTAD

CIENCIAS MATEMÁTICAS Y FÍSICAS

Ing. Gary Reyes Zambrano, Mgs.

DIRECTOR DE LA CARRERA DE

INGENIERÍA EN SISTEMAS

COMPUTACIONALES

Ing. Miguel Botto Tobar, M.Sc.

PROFESOR TUTOR DEL PROYECTO

DE TITULACIÓN

Ing. Angel Cuenca Ortega, M.Sc.

PROFESOR REVISOR DEL PROYECTO

DE TITULACIÓN

Ab. Juan Chávez Atocha, Esp.

SECRETARIO

IX

DECLARACIÓN EXPRESA

“La responsabilidad del contenido de este Proyecto de

Titulación, me corresponden exclusivamente; y el patrimonio

intelectual de la misma a la UNIVERSIDAD DE

GUAYAQUIL”.

MARÍA ANDREA ALVARADO GUERRERO

ANGELO JOEL PONCE FIGUEROA

X

CESIÓN DE DERECHOS DE AUTOR

Ingeniero

Fausto Cabrera Montes, M.Sc.

DECANO DE LA FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS

Presente.

A través de este medio indico a usted que procedo a realizar la entrega de la cesión de derechos de

autor en forma libre y voluntaria del trabajo de titulación “RECONOCIMIENTO DE LOS

ESTADOS DE ÁNIMO DE LAS PERSONAS EMPLEANDO TÉCNICAS DE

APRENDIZAJE AUTOMÁTICO”, realizado como requisito previo para la obtención del Título

de Ingeniero(a) en Sistemas Computacionales de la Universidad de Guayaquil.

Guayaquil, octubre de 2020.

______________________________________


C.I. N° 0953321106

______________________________________


C.I. N° 0931019210

XI



CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES

RECONOCIMIENTO DE LOS ESTADOS DE ÁNIMO DE LAS PERSONAS EMPLEANDO

TÉCNICAS DE APRENDIZAJE AUTOMÁTICO

Proyecto de Titulación que se presenta como requisito para optar por el título de

INGENIERO(A) EN SISTEMAS COMPUTACIONALES

Autores: Alvarado Guerrero María Andrea

C.I: 0953321106

Ponce Figueroa Angelo Joel

C.I: 0931019210

Tutor: Ing. Miguel Botto Tobar, M.Sc.

Guayaquil, octubre del 2020

XII

CERTIFICADO DE ACEPTACIÓN DEL TUTOR

En mi calidad de Tutor del Proyecto de Titulación, nombrado por el Consejo Directivo de la

Facultad de Ciencias Matemáticas y Físicas de la Universidad de Guayaquil.

CERTIFICO:

Que he analizado el Proyecto de Titulación presentado por los estudiantes MARÍA ANDREA

ALVARADO GUERRERO, ANGELO JOEL PONCE FIGUEROA, como requisito previo

para optar por el Título de Ingeniero(a) en Sistemas Computacionales cuyo proyecto es:

RECONOCIMIENTO DE LOS ESTADOS DE ÁNIMO DE LAS PERSONAS

EMPLEANDO TÉCNICAS DE APRENDIZAJE AUTOMÁTICO

Considero aprobado el trabajo en su totalidad.

Presentado por:

Alvarado Guerrero María Andrea C.I: 0953321106

Ponce Figueroa Angelo Joel C.I: 0931019210


Firma

Guayaquil, octubre del 2020

XIII




AUTORIZACIÓN PARA PUBLICACIÓN DE PROYECTO DE TITULACIÓN EN FORMATO DIGITAL

1. Identificación del Proyecto de Titulación

Nombre del Estudiante: María Andrea Alvarado Guerrero

Dirección: Mucho lote 2, Paraíso del río 2 mz. 3080 villa 15

Teléfono: 0983326570 Email: [email protected]

Nombre del Estudiante: Angelo Joel Ponce Figueroa

Dirección: Suburbio 24 y 1er Callejón P

Teléfono: 0967861317 Email: [email protected]

Facultad: Ciencias Matemáticas y Físicas

Carrera: Ingeniería en Sistemas Computacionales

Proyecto de Titulación al que opta: Ingeniero en Sistemas Computacionales

Profesor Tutor: Ing. Miguel Botto Tobar, M.Sc.

Título del Proyecto de Titulación: RECONOCIMIENTO DE LOS ESTADOS DE ÁNIMO DE LAS

PERSONAS EMPLEANDO TÉCNICAS DE APRENDIZAJE AUTOMÁTICO

Palabras Claves: estado de ánimo, voz, redes neuronales, máquinas de vectores de soporte, bosques

aleatorios, personas, modelos, análisis.

2. Autorización de Publicación de Versión Electrónica del Proyecto de Titulación

A través de este medio autorizo a la Biblioteca de la Universidad de Guayaquil y a la Facultad de Ciencias

Matemáticas y Físicas a publicar la versión electrónica de este Proyecto de Titulación.

Publicación Electrónica:

Inmediata Después de 1 año

Firma Estudiante:

Alvarado Guerrero María Andrea Ponce Figueroa Angelo Joel

3. Forma de envío:

El texto del Proyecto de Titulación debe ser enviado en formato Word, como archivo .docx, .RTF o. Puf para

PC. Las imágenes que la acompañen pueden ser: .gif, .jpg o .TIFF.

DVDROM CDROM

X

XIV

ÍNDICE GENERAL

FICHA DE REGISTRO DE TRABAJO DE TITULACIÓN .................................................. II

APROBACIÓN DEL TUTOR ................................................................................................... III

DEDICATORIA .......................................................................................................................... IV

DEDICATORIA ........................................................................................................................... V

AGRADECIMIENTO ................................................................................................................ VI

AGRADECIMIENTO .............................................................................................................. VII

TRIBUNAL PROYECTO DE TITULACIÓN ..................................................................... VIII

DECLARACIÓN EXPRESA ..................................................................................................... IX

CESIÓN DE DERECHOS DE AUTOR .................................................................................... X

CERTIFICADO DE ACEPTACIÓN DEL TUTOR ............................................................. XII

AUTORIZACIÓN PARA PUBLICACIÓN DE PROYECTO DE TITULACIÓN EN

FORMATO DIGITAL ............................................................................................................ XIII

ÍNDICE GENERAL ................................................................................................................ XIV

ÍNDICE DE TABLAS.............................................................................................................. XIX

ÍNDICE DE FIGURAS.............................................................................................................. XX

ABREVIATURAS.................................................................................................................. XXII

RESUMEN............................................................................................................................. XXIII

ABSTRACT ........................................................................................................................... XXIV

INTRODUCCIÓN ........................................................................................................................ 1

XV

CAPÍTULO I ................................................................................................................................. 3

PLANTEAMIENTO DEL PROBLEMA ................................................................................... 3

Descripción de la situación problemática ................................................................................... 3

Ubicación del problema en un contexto...................................................................................... 3

Situación conflicto nudos críticos ............................................................................................... 4

Delimitación del problema .......................................................................................................... 4

Evaluación del Problema ............................................................................................................ 5

Causas y consecuencias del problema ......................................................................................... 6

Formulación del problema ........................................................................................................... 6

Objetivos del proyecto .................................................................................................................. 6

Objetivo general .......................................................................................................................... 6

Objetivos específicos .................................................................................................................. 7

Alcance del proyecto ..................................................................................................................... 7

Justificación e importancia .......................................................................................................... 8

Limitaciones del estudio ............................................................................................................... 8

CAPÍTULO II ............................................................................................................................. 10

MARCO TEÓRICO ................................................................................................................... 10

Antecedentes del estudio............................................................................................................. 10

Fundamentación teórica ............................................................................................................. 12

Voz ............................................................................................................................................ 12

XVI

Emoción .................................................................................................................................... 13

Estado de ánimo ........................................................................................................................ 15

Diferencia entre emoción y estado de ánimo ........................................................................ 15

Trastornos del estado de ánimo............................................................................................. 15

Base de datos de emociones ...................................................................................................... 17

Extractores de características .................................................................................................... 18

Coeficientes Cepstrales en las Frecuencias de Mel .............................................................. 18

Tasa de cruces por cero ......................................................................................................... 19

Transformada de Fourier de tiempo corto ............................................................................ 20

Selector de características ......................................................................................................... 20

Inteligencia artificial ................................................................................................................. 21

Aprendizaje automático ............................................................................................................ 22

Máquinas de Vectores de Soporte......................................................................................... 23

Redes Neuronales Artificiales ............................................................................................... 24

Bosques Aleatorios ............................................................................................................... 25

Coeficiente kappa de Cohen ..................................................................................................... 27

Python ....................................................................................................................................... 27

Revisiones sistemáticas ............................................................................................................... 28

Mapeo Sistemático sobre los estados de ánimo de las personas empleando técnicas de

aprendizaje automático ............................................................................................................. 29

XVII

Planteamiento de la pregunta de investigación ..................................................................... 29

Búsqueda de estudios primarios............................................................................................ 29

Criterios de Inclusión y Exclusión ........................................................................................ 30

Extracción de Datos .............................................................................................................. 31

Fase de Resultados ................................................................................................................ 33

Hipótesis ....................................................................................................................................... 35

Variables de la investigación ...................................................................................................... 35

CAPÍTULO III ............................................................................................................................ 36

METODOLOGÍA DE LA INVESTIGACIÓN ........................................................................ 36

Tipo de investigación .................................................................................................................. 37

Diseño metodológico de la investigación ................................................................................... 37

Metodología de investigación ................................................................................................... 38

Bases de datos ....................................................................................................................... 38

Extractores de características ................................................................................................ 41

MFCC ............................................................................................................................... 42

Tasa de cruces por cero ..................................................................................................... 45

Transformada de Fourier de tiempo corto ........................................................................ 45

Entrenamiento ....................................................................................................................... 46

RAVDESS y TESS ................................................................................................................... 63

Población muestra ................................................................................................................. 67

XVIII

Procesamiento y análisis ....................................................................................................... 68

Técnicas de recolección de datos. ..................................................................................... 68

Introductorio ............................................................................................................................. 70

Demográfico ............................................................................................................................. 70

Psicológico ................................................................................................................................ 70

Criterios de validación de la propuesta .................................................................................... 71

Resultados .................................................................................................................................... 72

CAPÍTULO IV ............................................................................................................................ 80

CONCLUSIONES Y RECOMENDACIONES ........................................................................ 80

Conclusiones ................................................................................................................................ 80

Recomendaciones ........................................................................................................................ 82

Trabajos futuros.......................................................................................................................... 82

REFERENCIAS BIBLIOGRÁFICAS ...................................................................................... 83

Apéndice A: Bibliografía del Mapeo Sistemático .................................................................... 93

ANEXOS ...................................................................................................................................... 94

Anexo 1. Planificación de actividades del proyecto ................................................................ 94

Anexo 2. Fundamentación Legal ............................................................................................. 95

Anexo 3. Modelo de la Encuesta ............................................................................................. 97

Anexo 4. Validación de expertos. .......................................................................................... 106

Anexo 5. Artículo científico ................................................................................................... 127

XIX

ÍNDICE DE TABLAS

Tabla 1 Delimitación del Problema .............................................................................................. 5

Tabla 2 Matriz de Causas y Consecuencias del Problema ............................................................ 6

Tabla 3 Clasificación Psicopedagógica de las Emociones .......................................................... 14

Tabla 4 Comparativo entre SAS, R y Python ............................................................................. 28

Tabla 5 Cantidad de Artículos Seleccionados............................................................................. 31

Tabla 6 Criterios de Extracción .................................................................................................. 32

Tabla 7 Porcentaje de los Criterios de Extracción ...................................................................... 33

Tabla 8 Bases de Datos de Discurso Emocional ......................................................................... 39

Tabla 9 Etiquetado según Expertos de las Emociones a EA....................................................... 41

Tabla 10 Dataset Seleccionados y sus Características ................................................................ 63

Tabla 11 Resultados de capas ocultas y neuronas en ANN ........................................................ 65

Tabla 12 Definición de la Población Muestra y Participantes .................................................... 68

Tabla 13 Estructura del Test Aplicado Sacks (18 preguntas en específico) ............................... 70

Tabla 14 Rangos y Valoración del Coeficiente Kappa ............................................................... 71

Tabla 15 Resultados de la Aplicación del Coeficiente Kappa .................................................... 72

Tabla 16 Predicción del EA por Clasificador ............................................................................. 75

XX

ÍNDICE DE FIGURAS

Figura 1 La voz, el instrumento de la emoción........................................................................... 13

Figura 2 Mel Cepstral Frequency Coefficients MFCC ............................................................... 19

Figura 3 ¿Qué es la selección de funciones y por qué la necesitamos en el ML? ...................... 21

Figura 4 Máquinas de Vectores de Soporte ................................................................................ 24

Figura 5 Esquema de una Red Neuronal Artificial (RNA) ......................................................... 25

Figura 6 Esquema de un modelo de Bosques aleatorios ............................................................. 26

Figura 7 Pasos de un Vector MFCC ........................................................................................... 42

Figura 8 Banco de filtros de Mel ................................................................................................ 44

Figura 9 Diagrama del Proceso de Clasificación ........................................................................ 47

Figura 10 Clasificador SVM de la Base de Datos RAVDESS ................................................... 48



Figura 13 Clasificador SVM de la Base de Datos RAVDESS & TESS .................................... 51



Figura 16 Clasificador SVM de la Base de Datos RAVDESS & TESS Audios Positivos ........ 54



Figura 19 Clasificador SVM de la Base de Datos RAVDESS & TESS 288 Audios Positivos . 57



Figura 22 Clasificador SVM de la Base de Datos RAVDESS & TESS 512 Audios Negativos 60

XXI



Figura 25 Resultados Clasificador Red Neuronal ....................................................................... 66

Figura 26 Resultados Clasificador Bosques Aleatorios .............................................................. 67

Figura 27 EA con el Clasificador Bosques Aleatorios ............................................................... 73

Figura 28 EA con el Clasificador Red Neuronal ........................................................................ 73

Figura 29 EA con el Clasificador SVM ...................................................................................... 74

Figura 30 Estado de ánimo del Sujeto 1 ..................................................................................... 76

Figura 31 Estado de ánimo del Sujeto 7 ..................................................................................... 77

Figura 32 Estado de ánimo del Sujeto 17 ................................................................................... 77




XXII

ABREVIATURAS

ANN Redes Neuronales Artificiales

AS Análisis de Sentimientos

CC.MM.FF Facultad de Ciencias Matemáticas y Físicas

EA Estados de Ánimo

IA Inteligencia Artificial

Ing. Ingeniero

MFCC Coeficientes Cepstrales en las Frecuencias de Mel

ML Aprendizaje Automático

M.Sc. Máster

RF Bosques Aleatorios

STFT Transformada de Fourier de Tiempo Corto

SVM Máquinas de Vectores de Soporte

UG Universidad de Guayaquil

ZCR Tasa de Cruces por Cero

XXIII




RECONOCIMIENTO DE LOS ESTADOS DE ÁNIMO DE LAS

PERSONAS EMPLEANDO TÉCNICAS DE APRENDIZAJE

AUTOMÁTICO

Autores: María Andrea Alvarado Guerrero

C.I. N° 0953321106


C.I. N° 0931019210


RESUMEN

La existencia de plataformas digitales que identifiquen el estado de ánimo de las personas es muy

limitada, en cuanto al estudio de la voz. El propósito de este estudio es determinar algoritmos de

aprendizaje automático que faciliten identificar el estado anímico de las personas a través de la

voz. La metodología está fundamentada en el método científico debido a que posibilitó

inspeccionar, indagar y examinar, todo tipo de resultados e investigaciones para la obtención de

modelos innovadores que se justificarán en pruebas controladas y monitoreadas. Se utilizaron dos

bases de datos de discurso emocional, que estaban constituidas por las emociones básicas del ser

humano y por esta razón fueron etiquetadas por estados de ánimo. Además, se utilizaron

extractores de características acústicas para identificar la intensidad en el tono de la voz,

generando14 dataset. Se evaluaron a 29 personas, haciendo uso del test de Sacks que es aplicado

en el área de psicología en donde se eligieron 6 sujetos aleatoriamente para interpretar su estado

anímico por parte de los expertos en el área de psicología, siendo validados por medio de los

coeficientes kappa y permitieron reducir la cantidad de dataset. Para la clasificación, se

implementaron las técnicas de aprendizaje automático: ANN, RF y SVM, obteniendo mejores

resultados con el clasificador ANN.

Palabras clave: estado de ánimo, voz, redes neuronales artificiales, máquinas de vectores de

soporte, bosques aleatorios, personas, modelos, análisis.

XXIV




RECOGNITION OF THE MOODS OF PEOPLE USING SELF-

LEARNING TECHNIQUES

Authors: María Andrea Alvarado Guerrero

C.I. N° 0953321106


C.I. N° 0931019210


ABSTRACT

The existence of digital platforms that identify the mood of people is very limited, in terms of the

study of the voice. The purpose of this study is to determine machine learning algorithms that

make it easier to identify people's moods through voice. The methodology is based on the scientific

method because it made it possible to inspect, inquire and examine all kinds of results and

investigations to obtain innovative models that will be justified in controlled and monitored tests.

Two databases of emotional discourse were used, which were made up of the basic emotions of

the human being and for this reason they were labeled by mood states. Besides, acoustic

characteristic extractors were used to identify the intensity in the tone of the voice, generating 14

dataset. 29 people were evaluated, making use of the Sacks test that is applied in the area of

psychology where 6 subjects were randomly chosen to interpret their mood by experts in the area

of psychology, being validated using the coefficients kappa and allowed to reduce the amount of

dataset. For the classification, the automatic learning techniques were implemented: ANN, RF and

SVM, obtaining better results with the ANN classifier.

Key words: mood, voice, artificial neural networks, support vector machines, random forests,

people, models, analysis.

1

INTRODUCCIÓN

A través del tiempo, las personas se han adecuado a las diversas formas de comunicación,

siendo hoy en día los medios digitales aptos para este proceso, con solo tener acceso a internet se

consigue simular una comunicación presencial, mediante el uso de un micrófono y una cámara es

posible la comunicación entre el emisor y el receptor, no obstante, si se usa sólo el micrófono es

posible que se pierda el interés en identificar características o estados anímicos que las personas

emitimos por naturaleza.

Esta investigación tiene como objetivo presentar un análisis del reconocimiento de los

estados de ánimo de las personas a través de la voz, siendo esta un medio notable de adquisición

de información por las señales acústicas emitidas, es posible la extracción de características y así

generar los dataset.

Para lograr este objetivo se plantean las siguientes fases: 1) adquisición de datos; 2)

extracción de características; 3) entrenamiento. Estas tres fases pueden cambiar de acuerdo con

varios factores, por ejemplo, datos de acceso no públicos, ruido en las grabaciones, diversidad de

oradores, emociones sin identificar. Así mismo, se buscarían métodos para alcanzar el objetivo

que se propone.

En la fase de resultados se implementarán técnicas de aprendizaje automático permitiendo

identificar el estado de ánimo de las personas a través de la voz, usando test psicológicos que serán

supervisados por profesionales en el área de psicología.

El presente trabajo de titulación está conformado por 4 capítulos que se especifican a

continuación:

Capítulo I: El capítulo está constituido por el planteamiento del problema, su descripción,

situación conflicto nudos críticos, delimitaciones, evaluaciones, causas y consecuencias y la

2

formulación del problema. Además, plantea un objetivo general con sus objetivos específicos, el

alcance del proyecto, justificación e importancia, y las limitaciones del estudio.

Capítulo II: Se define el marco teórico, antecedentes del estudio, la fundamentación

teórica, un mapeo sistemático, la hipótesis a formularse y las variables de la investigación.

Capítulo III: Se presenta la metodología de la investigación y se describen las etapas del

diseño metodológico del proyecto, los criterios de validación de la propuesta aplicados a un

experimento controlado en el campo de psicología, concluyendo con sus resultados.

Capítulo IV: Se presentan las conclusiones, recomendaciones del proyecto y trabajos

futuros.

3

CAPÍTULO I

PLANTEAMIENTO DEL PROBLEMA

Descripción de la situación problemática

Ubicación del problema en un contexto

El análisis de sentimientos es un tema que se está trabajando a profundidad debido a ser un

campo muy amplio en diferentes disciplinas como marketing, ciencias políticas y economía

(Hernández & Gómez, 2014).

Las expresiones que se pueden detectar en el análisis de sentimientos son: positivas,

negativas o neutrales, sobre algún tema en específico, producto o servicio, persona física, entidad,

etc. (SAURA et al., 2018). Para el análisis de sentimientos existen diversos enfoques que al final

terminan siendo una categorización de palabras en donde emplean técnicas basadas en el

reconocimiento de patrones, o usando técnicas de aprendizaje supervisado, no supervisado o

aprendizajes híbridos (Hernández & Gómez, 2014).

Existen estudios que se basan en el análisis de la voz para detectar las emociones de las

personas con diferentes técnicas, entre ellas aplicando aprendizaje automático. El análisis de la

voz ha generado que se realicen muchas investigaciones de distintas organizaciones y/o

instituciones alrededor del mundo. Las diversas fuentes de investigación apoyan su trabajo en el

empleo de algoritmos de aprendizaje automático para el análisis de emociones por la capacidad

4

que poseen para clasificar los audios a partir del tono de la voz y el énfasis al pronunciar ciertas

palabras (Hernández Tamayo et al., 2020).

No obstante, los diferentes estudios emplean las técnicas mencionadas anteriormente para

el reconocimiento de emociones por la voz, y para el reconocimiento de los estados de ánimo

aplican test psicológicos o juegos interactivos. Al ser un campo que continúa en exploración no se

han aplicado técnicas específicas para el reconocimiento de los estados de ánimo en la voz.

La aplicación de este proyecto se centrará en la validación de respuestas de los test

psicológicos realizados por expertos en el área de psicología/psiquiatría a sus pacientes, y de esta

forma, medir sus rasgos de personalidad y particularidades psicológicas.

Situación conflicto nudos críticos

Actualmente, los investigadores han mostrado un creciente interés por desarrollar técnicas

o metodologías que permitan reconocer las emociones que presentan las personas en un momento

determinado.

En el área de psicología existen técnicas que detectan los estados de ánimo mediante test

psicológicos o juegos interactivos, sin embargo, no se ha tratado de analizar con mayor

profundidad los estados de ánimo a través de la voz.

Delimitación del problema

En la

Tabla 1 se detalla la delimitación del problema que abarca el presente proyecto.

5

Tabla 1

Delimitación del Problema

Delimitador Descripción

Campo Investigación

Área Sistemas e inteligencia artificial

Aspecto Reconocimiento y análisis de estados de ánimo

Tema Reconocimiento de los estados de ánimo de las personas empleando

técnicas de aprendizaje automático Nota: En esta tabla se presentan los términos para la delimitación del problema conforme al contexto de la

problemática, datos propios de la investigación.

Evaluación del Problema

A continuación, se describen 6 aspectos relevantes en la evaluación del problema:

• Delimitado: El desarrollo de test psicológico, las pruebas y fundamentación científica

dentro del lapso de 9 semanas, beneficiará a las personas que deseen desarrollar un

sistema basado en nuestro enfoque investigativo.

• Claro: La investigación de las metodologías óptimas a emplear en el reconocimiento

de los estados de ánimo a través de la voz será muy explícito y poseerá un análisis

comparativo.

• Evidente: Se desarrollarán pruebas con grabaciones de audio para el análisis y

reconocimiento de los estados de ánimo de los usuarios participantes.

• Original: Desarrollo de un modelo que implemente algoritmos de aprendizaje

automático para realizar el procesamiento de grabaciones de audio y evidenciar los

resultados.

• Contextual: Fomentar el desarrollo de sistemas que permitan reconocer los estados de

ánimo de las personas a través de su voz, para validar respuestas y conocer su real

disposición anímica.

6

• Factible: No solicita gran cantidad de recursos financieros y su fundamentación será

realizada en un corto plazo de tiempo.

Causas y consecuencias del problema

En la Tabla 2 se presenta la matriz que determina las causas y consecuencias del

proyecto.

Tabla 2

Matriz de Causas y Consecuencias del Problema

Causas Consecuencias

C1. Inexistencia de técnicas y algoritmos para

el reconocimiento de los estados de ánimo a

través de la voz.

E1. Incertidumbre sobre nuevas técnicas que

pueden emplearse en esta área.

C2. Ausencia de sistemas que implementen

herramientas para la detección de los estados

de ánimo por la voz.

E2. Desconocimiento de procesos que

simplifiquen un análisis previo de la voz.

C3. Inexistencia de una aplicación o sistema

con algoritmos de aprendizaje automático para

validar test psicológicos del reconocimiento de

los estados de ánimo.

E3. Mantener la evaluación de los estados de

ánimo con procesos que se han realizado

hasta la actualidad.

C4. Ausencia de plataformas digitales para

grabar la voz a través de formularios en línea.

E4. Realizar las grabaciones de la voz de

manera presencial. Nota: Esta tabla refleja el análisis que se realizó en la situación problemática, datos propios de la investigación.

Formulación del problema

¿Cuáles son los algoritmos de aprendizaje automático que identifican los estados de ánimo

de las personas a través de la voz?

Objetivos del proyecto

Objetivo general

Determinar algoritmos de aprendizaje automático mediante el análisis de la voz que

identifiquen los estados de ánimo de las personas.

7

Objetivos específicos

1. Analizar el estado del arte realizando una revisión de la literatura para identificar las

técnicas de reconocimiento de los estados de ánimo por la voz.

2. Combinar bases de datos de discurso emocional identificando características relevantes

de los estados de ánimo de las personas a través de su tono de voz para su

correspondiente clasificación.

3. Construir un modelo de reconocimiento de los estados de ánimo a través de la

implementación de técnicas especializadas en la extracción de características de la voz

del registro de las bases de datos para su correspondiente identificación.

4. Evaluar el modelo de reconocimiento de los estados de ánimo por la voz obtenidos

mediante la realización de test psicológicos para la validación de los resultados en el

análisis de la voz.

Alcance del proyecto

Los siguientes ítems describen el alcance del proyecto:

1. Se realizará un análisis en diferentes fuentes bibliográficas y artículos científicos.

2. Cada grabación se realizará en español latino.

3. Se procederá con la entrevista a expertos en el área de psicología para identificar

adecuadamente los estados de ánimo de cada persona en base a las grabaciones de

audio.

4. Las grabaciones serán etiquetadas en dos clases (estados de ánimo); positivas y

negativas.

5. Se realizarán las pruebas con los scripts implementados o desarrollados.

8

Justificación e importancia

La voz es el canal de comunicación fundamental en los seres humanos. Se considera que

posee información muy relevante sobre el estado emocional de la persona que la emite.

El análisis de sentimientos pretende identificar y extraer información subjetiva del

lenguaje natural y de esta forma identificar los diferentes estados de ánimo que pueden tener las

personas al hablar, en un momento determinado.

Las iniciativas del análisis de voz a través del uso de técnicas de aprendizaje automático

facilitarían a las organizaciones e instituciones a detectar los estados de ánimo de las personas

ante situaciones totalmente exageradas; positivas y/o negativas. De esta forma se podría

identificar en tiempo real los estados de ánimo que posea una persona para tener una mejor

interacción, sin necesidad de encontrarse físicamente en el mismo lugar, sólo haciendo uso de un

medio para receptar la señal de voz.

Los expertos en el área de psicología, al notar situaciones anímicas excesivas, podrían

identificar las posibles causas del exceso y encontrar soluciones adecuadas que generen un

equilibrio en su personalidad.

Limitaciones del estudio

Durante el desarrollo del proyecto de titulación se encontraron las siguientes limitantes:

• El período de tiempo de realización del proyecto tuvo una duración de nueve semanas.

• Se utilizaron bases de datos de discurso emocional en idioma inglés para la extracción de

características de cada grabación de audio.

• No se encontraron bases de datos de discurso emocional en idioma español de libre acceso.

• Escasa información accesible sobre los algoritmos de aprendizaje automático utilizados

para el análisis de la voz.

9

• En el análisis de las características extraídas en las grabaciones de audio, para su posterior

clasificación, se realizó a través de las siguientes técnicas de aprendizaje supervisado:

Máquinas de vectores de soporte, Bosques aleatorios y Redes Neuronales.

• Bajos recursos tecnológicos para la utilización de las diferentes técnicas de aprendizaje

supervisado.

10

CAPÍTULO II

MARCO TEÓRICO

Antecedentes del estudio

El desarrollo del presente trabajo de titulación se fundamenta en diferentes investigaciones

de instituciones académicas nacionales y extranjeras, también de artículos de revistas científicas

que nos van a posibilitar efectuar la revisión del estado del arte, consultar en fuentes bibliográficas

y obtener información relacionada a la utilización de técnicas de aprendizaje automático para el

reconocimiento de los estados de ánimo de las personas a través de la voz, aplicado al área de

piscología/psiquiatría mediante el empleo de test psicológicos.

Los estados de ánimo son más prolongados, de horas o días, según el estudio de Páez &

Costa (2014) “la síntesis de meta-análisis torna posible concluir que las estrategias que permiten

mejorar el estado de ánimo, aumentar emociones positivas y disminuir negativas”.

Existen algoritmos que identifican y evidencian las emociones de las personas por medio de

las redes sociales. Montoro Montarroso desarrolló un mecanismo computacional calificado en

identificar y clasificar según su nivel de frecuencia, mensajes de odio en las redes sociales

aplicando técnicas de AS, procesamiento del lenguaje natural y lógica borrosa para definir la

intensidad del discurso de odio (Montoro Montarroso, 2019).

Bello Ambario et al. plantearon una metodología para el reconocimiento de emociones

estudiando fragmentos de voz. La metodología se apoyó primordialmente en la transformada

11

rápida de Fourier y coeficientes de correlación de Pearson. Posteriormente, se presentaron los

efectos parciales adquiridos en las períodos iniciales de este proceso, manejando la base de datos

Berlín, la cual es la referencia de estos trabajos (Bello Ambario et al., 2017).

Morán et al. propusieron el entrenamiento de los siguientes modelos de ML: SVM, RF y

Aumento del Gradiente aplicados en una base de datos en condiciones controladas y actuadas de

seis emociones determinadas, tales como ira, sorpresa, felicidad, miedo, tristeza y asco. Después,

construyeron dos bases de datos de forma complementaria (una en condiciones controladas y semi-

naturales, y otra en condiciones no controladas y naturales) para realizar las pruebas con mayor

rigurosidad de los modelos previamente entrenados (Morán et al., 2018).

En la investigación de Hernández Tamayo et al., utilizaron varios métodos de clasificación

como Naïve Bayes, Multilayer Perceptron, Máquinas Vectores de Soporte y Random Forest para

el reconocimiento de emociones por la voz en el español hablado en México. Para este estudio se

emplearon dos bases de datos, o también llamado corpus, de lenguaje emocional: Emo_voz.mx1 y

EmoWisconsin, de las cuáles, una de ellas fue producida por la inducción de emociones, y la otra

por emociones actuadas. El corpus Emo_voz.mx1 contiene tres conjuntos de datos de voz, cada

conjunto presenta 40 palabras seleccionadas de la lista Swadesh para español, 40 oraciones,

párrafos que contienen un promedio de 450 palabras y un poema con 94 palabras. Las emociones

obtenidas fueron: enojo, disgusto, miedo, alegría, tristeza, sorpresa y neutral. En el corpus

EmoWisconsin se trabajaron con siete emociones: molesto, seguro, inseguro, motivado, nervioso,

neutral e indeterminado, y utilizaron un grupo de 28 niños, 11 niñas y 17 niños con intervalo de

edades entre 7 y 13 años. Las características acústicas utilizadas fueron: MFCCs, Tasa de Cruce 0

(ZCR), energía, spectral centroid, spectral spread, entre otras. Los mejores resultados se alcanzaron

mediante un algoritmo basado en máquinas vectores de soporte, en comparacion a los otros

12

clasificadores que implemetaron: Naïve Bayes, Multilayer Perceptron y Random Forest

(Hernández Tamayo et al., 2020).

Después de haber realizado el correspondiente estudio del arte se concluye que para

identificar los EA de las personas por medio de la voz se deberían identificar las emociones que

presentan para así etiquetarlas como positivas y negativas.

Fundamentación teórica

Voz

La voz ha sido el medio de comunicación entre las personas a lo largo del tiempo con lo

cual podemos mantener conversaciones cortas o largas, intercambio de ideas o pensamientos,

compartir anécdotas o vivencias entre dos personas o un grupo de audiencia. La Figura 1 muestra

la representación de las emociones que se transmiten a través de la voz.

La voz humana se genera espontáneamente mediante el aparato fonatorio. Éste está

constituido por los pulmones como fuente de energía en el proceder de una corriente de aire, la

laringe, que comprende las cuerdas vocales, la faringe, las cavidades oral (o bucal) y nasal y un

grupo de componentes articulatorios: los labios, los dientes, el alvéolo, el paladar, el velo del

paladar y la lengua (Miyara, 1999).

13

Figura 1

La voz, el instrumento de la emoción

Nota: La voz humana es quizá el instrumento musical con mayor capacidad para generar emociones, provocar

sentimientos y, en definitiva, para construir vínculos entre las personas. Tomado de Marketing Directo (2020).

Emoción

Las emociones se pueden sentir, vivir, reconocer, pero una sola parte de ellas son las que

se pueden expresar en palabras o conceptos, el ser humano no puede vivir un solo día sin que pueda

experimentar alguna emoción a partir de algún acontecimiento externo o interno; actual, pasado o

futuro; real o imaginario (Bisquerra Alzina, 2009; Esquivel, 2015).

Con lo mencionado anteriormente el ser humano es gobernado por sus propias emociones,

ya que son las que pueden influir en las decisiones, percepciones y acciones de las personas, debido

a que son las que sentimos día a día dependiendo de nuestro entorno o de las que podamos

experimentar en las circunstancias que se presenten, por ejemplo, los pintores pueden demostrar

las emociones a través de sus propias pinturas.

Según el psicólogo Paul Ekman las emociones básicas son: tristeza, felicidad, miedo,

sorpresa, asco e ira, que en teoría existen en cada ser humano independientemente de la cultura

que se hayan desarrollado (Corbin, 2017).

14

Bisquerra (2009) menciona que las emociones positivas son consideradas como el

resultado favorable de los objetivos personales, las emociones negativas son consideradas a los

resultados como desfavorables, dificultades que pueden surgir en la vida. En la Tabla 3 se detalla

la clasificación psicopedagógica de cada emoción.

Tabla 3

Clasificación Psicopedagógica de las Emociones

Emociones Negativas

Miedo Temor, horror, pánico, terror, pavor, desasosiego, susto, fobia.

Ira

Rabia, cólera, rencor, odio, furia, indignación, resentimiento, aversión,

exasperación, tensión, excitación, agitación, acritud, animadversión,

animosidad,

irritabilidad, hostilidad, violencia, enojo, celos, envidia, impotencia,

desprecio, acritud, antipatía, resentimiento, rechazo, recelo.

Tristeza

Depresión, frustración, decepción, aflicción, pena, dolor, pesar,

desconsuelo,

pesimismo, melancolía, autocompasión, soledad, desaliento, desgana,

morriña, abatimiento, disgusto, preocupación.

Asco Aversión, repugnancia, rechazo, desprecio.

Ansiedad Angustia, desesperación, inquietud, inseguridad, estrés, preocupación,

anhelo, desazón, consternación, nerviosismo.

Emociones Positivas

Alegría

Entusiasmo, euforia, excitación, contento, deleite, diversión, placer,

estremecimiento, gratificación, satisfacción, capricho, éxtasis, alivio,

regocijo, humor.

Amor

Aceptación, afecto, cariño, ternura, simpatía, empatía, interés, cordialidad,

confianza, amabilidad, afinidad, respeto, devoción, adoración, veneración,

enamoramiento, ágape, gratitud, interés, compasión.

Felicidad Bienestar, gozo, tranquilidad, paz interior, dicha, placidez, satisfacción,

serenidad.

Emociones Sociales

Vergüenza Culpabilidad, timidez, vergüenza ajena, bochorno, pudor, recato, rubor,

sonrojo, verecundia.

Emociones Ambiguas

Sorpresa La sorpresa puede ser positiva o negativa: sobresalto, asombro,

desconcierto, confusión, perplejidad, admiración, inquietud, impaciencia Nota: En esta tabla se detallan los diferentes tipos de emociones. La elaboración es propia y la fuente corresponde a

Bisquerra Alzina (2009).

15

Estado de ánimo

El estado de ánimo (EA) prevalece en los individuos que habitualmente se asocia con el

humor de la persona en un momento dado y se mantiene por algún tiempo este puede ser agradable

o desagradable, expansivo o introspectivo (Martinez, 2018).

Desde la psicología positiva, mencionan que el ánimo positivo no solo es la ausencia de un

ánimo negativo, si no se pueden estar relacionados con la presencia de emociones positivas y con

conceptos del florecimiento (Martinez, 2018).

Diferencia entre emoción y estado de ánimo

Una de las más notables diferencias es que el EA dura más tiempo, también es menos

intenso y no necesita un estímulo para que aparezca, el EA no tiene expresiones faciales propias,

mientras que las emociones básicas si cuentan con expresiones faciales propias, siendo así

universales y siguen un patrón único en los seres humanos (Neipp López, 2019).

Trastornos del estado de ánimo

Los trastornos del EA son trastornos de la salud mental que se caracteriza por alteraciones

emocionales, persistente en periodos prolongados de tristeza excesiva (depresión), exaltación o

euforia excesiva (manía) también pueden presentarse ambos, los extremos o los dos polos de los

trastornos del EA son representados por la depresión y la manía (Coryell, 2018).

La psicóloga Neipp (2019) menciona que “cuando un EA perdura mucho en el tiempo,

genera un malestar significativo e interfiere en diferentes áreas de la vida de una persona” y

normalmente se los denomina trastornos afectivos o del EA.

Mayo Clinic (2018) menciona algunos ejemplos de trastornos del EA:

1. Trastorno depresivo mayor: tiempos prolongados y constantes de tristeza.

16

2. Trastorno bipolar: es una depresión que alterna entre momentos de depresión o manía

también denominado “depresión maníaca” o “trastorno afectivo bipolar”.

3. Trastorno afectivo estacional: depresión que muy a menudo, está relacionada con

tener menos horas de luz solar en las latitudes que se encuentran más al norte y al sur,

desde finales de la estación de otoño hasta principios de la primavera.

4. Trastorno ciclotímico: provoca altibajos emocionales, menos extremos que el

trastorno bipolar.

5. Trastorno disfórico premenstrual: se producen durante la fase premenstrual del ciclo

de la mujer y se disipan en el comienzo de la menstruación produciendo cambios en el

EA e irritabilidad.

6. Trastorno depresivo persistente (distimia): depresión a largo plazo(crónica).

7. Trastorno de desregulación disruptiva del EA: berrinches frecuentes que no son

acorde a la edad del desarrollo del niño provocando trastorno de irritabilidad, crónica,

grave y persistente en los niños.

8. Depresión relacionada con una enfermedad física: tiene relación directa con efectos

físicos de otra enfermedad provocando EA deprimido persistente y perdida del placer

en todas o gran parte de las actividades.

9. Depresión inducida por el consumo de drogas o medicamentos: son síntomas de la

depresión que pueden presentar durante el consumo de sustancias, de la abstinencia o

después de la exposición a algún medicamento.

Las personas que sufren algún tipo de trastorno del EA, que implique depresión, podrían presentar

incapacidad de realizar actividades diarias y mantener relaciones, ansiedad extrema, alcoholismo

17

y perdida del apetito, las personas con depresión que no reciban tratamiento un 15% pueden

aumentar el riesgo de acabar con su vida suicidándose (Coryell, 2018).

Base de datos de emociones

La base de datos del habla emocional es necesaria para el reconocimiento automático del

habla (ASR) y para la robótica, posibilita la síntesis fundamentada en el corpus emocional y la

determinación de los modelos prosódicos de emociones para la detección adecuada. La base de

datos puede ser apropiada para desafiar la solidez de una variedad de aplicaciones de voz en

sistemas de reconocimiento automático del habla. Contienen emociones básicas como: felicidad,

tristeza, enojo, sorpresa, miedo, neutral, etc. en diversos idiomas hablados (Waghmare et al.,

2012).

Para el presente estudio, hemos analizado las siguientes bases de datos de emociones.

• RAVDESS (The Ryerson Audio-Visual Database of Emotional Speech and Song),

incluye 1440 archivos con la participación de 24 actores profesionales (12 mujeres,

12 hombres), que entonan dos declaraciones léxicamente combinadas en un acento

neutral del idioma inglés proveniente de América del Norte. Contiene expresiones

habladas en las emociones: neutral, calma, felicidad, tristeza, enojo, miedo, asco y

sorpresa (Livingstone & Russo, 2018).

• TESS (Toronto emotional speech set), una base de datos elaborada en la

Universidad de Toronto en la que participaron dos actrices (de 26 y 64 años de

edad) vocalizando un conjunto de 200 palabras en idioma inglés y expresando siete

emociones distintas (miedo, sorpresa, tristeza, enojo, disgusto, felicidad y neutral),

generando un total de 2800 archivos de audio (Dupuis & Pichora-Fuller, 2010).

18

Extractores de características

La extracción de características es una de las fases más significativas del ML. “Esta tiene

como objetivo la obtención de atributos del objeto a clasificar, de forma tal que un método de

clasificación pueda encontrar regiones de decisión para cada una de las clases en el espacio

formado por dichos atributos o características” (García et al., 2019).

Coeficientes Cepstrales en las Frecuencias de Mel

Para realizar la extracción de características o features, las grabaciones de audio fueron

empleadas para definir los Coeficientes Cepstrales en las Frecuencias de Mel (MFCC, por sus

siglas en inglés Mel Frequency Cepstral Coefficients).

Los MFCC hacen referencia a la amplitud del espectro del habla de forma compacta, esto

los ha convertido en la técnica de extracción de características más utilizada en reconocimiento de

voz. La Figura 2 muestra el proceso para la obtención del MFCC a partir de un filtro de pre-énfasis

a la señal, luego se fracciona la misma en segmentos y se utiliza una función de ventaneo, en este

caso una ventana de Hamming. El ventaneo tiene como función, suprimir los bordes de la señal y

darle un énfasis a la parte central del segmento para su estudio. Al conseguir la Transformada

Discreta de Fourier de cada segmento se analiza la amplitud del espectro, y estos datos son

dirigidos al dominio de Mel a través del Banco de Filtros. La escala Mel se fundamenta en mapear

entre la frecuencia actual al pitch que distingue, un escucha humano simulado o representado, esta

escala es lineal por debajo de 1 kHz y logarítmica por encima de este umbral. Después se adquiere

el logaritmo de la señal y por último se emplea la Transformada de Coseno Discreta, de este vector

se obtiene el número de coeficientes deseados por segmentos (Martínez Mascorro & Aguilar

Torres, 2013).

19

Figura 2

Mel Cepstral Frequency Coefficients MFCC

Nota: El rango de frecuencias Mel está fundamentado en la reducción de frecuencias de la señal de voz teniendo como

referencia aquellas frecuencias que se pueden percibir más fácilmente a través del oído humano. Tomado de Franco

Galván (2017).

Tasa de cruces por cero

La tasa de cruces por cero (ZCR, por sus siglas en inglés zero-crossing rate) calcula la

frecuencia en que la señal de voz pasa por el nivel cero durante el segmento bajo análisis. Esta

medida otorga una representación general de la asignación en frecuencia de la señal. Una ZCR alta

señala que el segmento de voz posee un contenido espectral en frecuencia elevada notable,

mientras que una tasa inferior representa que casi toda la señal está en baja frecuencia. Esta

diferencia del espectro posibilita conseguir otra forma de dispersar los segmentos de voz sonoros

de los sordos. Una sección sonora tiene un espectro centrado en baja frecuencia y uno opaco tiene

un elemento en alta frecuencia superior. “El mayor inconveniente de la tasa de cruces por cero es

20

que se ve muy influenciada por el ruido de fondo, ya que este suele tener un espectro amplio,

elevando la tasa de cruces por cero cuando en realidad no hay señal de interés” (Bleda et al., 2012).

Transformada de Fourier de tiempo corto

La Transformada de Fourier (STFT, por sus siglas en inglés Short-time Fourier transform)

posibilita comprender todos los elementos de frecuencia de una señal y su correspondiente

aportación energética. Esto define que la STFT posee una considerable resolución en el dominio

frecuencial pero una resolución en el dominio temporal anulada, debido a que la STFT necesita,

para su deducción, el empleo de todos los antecedentes de la señal o del tramo de señal analizado,

por lo que no es posible definir en qué momento de la señal hace presencia un elemento de

frecuencia precisa. Por consiguiente, la STFT es una herramienta demasiado útil en el estudio de

señales estacionarias. No obstante, ésta no puede ser utilizada con el propósito de conseguir

información exacta de cuando los diversos elementos de frecuencia realizan su intervención en la

señal, como por ejemplo, las señales no estacionarias cuyo contenido espectral difiere con el

tiempo (Flórez et al., 2009).

Selector de características

La selección de características es la tarea de elegir un pequeño subconjunto de

características que sea suficiente para predecir bien las etiquetas de destino.

Se ha declarado que la selección de características es un modo eficiente y apto para preparar

datos de alta dimensión en la minería de datos y el aprendizaje automático, en la Figura 3 se

presenta el proceso de selección de características para un conjunto de datos. La actual aparición

de técnicas novedosas, nuevos tipos de datos y características no solo continúa el desarrollo de la

investigación existente, sino que también hace que esta evolucione continuamente, llegando a ser

21

adaptable a una gama más amplia de implementaciones. La selección de características tiene como

propósito escoger un limitado subconjunto de las características más importantes de las iniciales

excluyendo características intrascendentales, redundantes o ruidosas. La selección de

características habitualmente proporciona un mejor rendimiento de aprendizaje, es decir, una

mayor exactitud de aprendizaje, menor costo computacional y mejor análisis del modelo (Wang et

al., 2016).

Figura 3

¿Qué es la selección de funciones y por qué la necesitamos en el ML?

Nota: La gráfica muestra el proceso de selección de características de un conjunto de datos de entrenamiento que son

clasificados de forma interna, para poder filtrar y determinar las características más relevantes. Tomado de Srinidhi,

S. (2018).

Inteligencia artificial

La inteligencia artificial (IA) es una especialidad académica vinculada con la teoría de la

computación cuya finalidad es imitar algunas de las capacidades y habilidades intelectuales

humanas en sistemas artificiales, las cuáles hacen referencia a procedimientos de percepción

sensorial, como por ejemplo la visión, audición, etc., y a procesos relacionados con el

reconocimiento de patrones, por lo que las aplicaciones más comunes de la IA son el manejo de

los datos y la determinación de sistemas (Escolano Ruiz et al., 2003).

22

El planteamiento de un sistema de IA habitualmente necesita del manejo de materiales de

especialidades muy distintas como el cálculo numérico, la estadística, la informática, el procesado

de señales, el control automático, la robótica o la neurociencia. Por esta razón, a pesar de que la

IA es conocida como un campo de la informática teórica, es una especialidad en la que aportan de

forma continua un gran número de investigadores, técnicos y matemáticos. En algunas ocasiones,

también se fundamenta de estudios en campos tan diversos como la psicología, la sociología o la

filosofía (Benítez et al., 2014).

Aprendizaje automático

El aprendizaje automático (ML, por sus siglas en inglés Machine Learning) es un término

aplicado en la comunidad de IA para referirse a una mejora automatizada fundamentada en la

experiencia o los datos empíricos en el cumplimiento de una tarea determinada, como la

optimización de una función objetivo (Gass & Fu, 2013).

En este marco de referencia, los sistemas que aprenden de manera automatizada deben ser

aptos para trabajar con un rango muy extenso de modelos de datos de entrada, que pueden

incorporar datos inconclusos, inciertos, ruido, inconsistencias, entre otros. El ML consta de dos

etapas en su proceso; en la primera, el sistema elige las características más importantes de un

objeto y luego realiza su comparación con otras existentes, cuando las diferencias son

significativas inicia la segunda fase, la cual consiste en la adaptación del modelo del objeto a partir

del resultado del cotejamiento (Moreno et al., 1998).

Para poder ordenar las características obtenidas de las grabaciones de audio, es importante

determinar el tipo de algoritmo de ML más adecuado para realizar el respectivo entrenamiento de

los datos y posteriormente las pruebas, entre estos constan: aprendizaje supervisado y aprendizaje

no supervisado

23

Los tipos de ML son los siguientes: aprendizaje supervisado, aprendizaje no supervisado y

aprendizaje por refuerzo.

Enfocándonos en el aprendizaje supervisado, podemos determinar que es un paradigma de

ML para obtener la información de vínculo entrada-salida de un sistema fundamentado en una

colección dada de muestras de entrenamiento de entrada-salida emparejadas. Como la salida se

representa como la etiqueta de los datos de entrada o la inspección, una muestra de entrenamiento

de entrada-salida también se nombra datos de entrenamiento etiquetados o datos supervisados (Liu

& Wu, 2012).

Máquinas de Vectores de Soporte

Una Máquina de Soporte Vectorial (SVM, por sus siglas en inglés Support Vector

Machines) aprende la superficie decisión de dos clases diferentes de los puntos de entrada. Como

un clasificador de una sola clase, la descripción dada por los datos de los vectores de soporte es

apta para formar una frontera de decisión alrededor del dominio de los datos de aprendizaje con

muy poco o ningún conocimiento de los datos fuera de esta frontera. Los datos son mapeados por

medio de un kernel Gaussiano u otro tipo de kernel a un espacio de características en un espacio

dimensional más alto, donde se busca la máxima separación entre clases, en la Figura 4 se

evidencia la división entre dos clases a través de la técnica del SVM. Esta función de frontera,

cuando es traída de regreso al espacio de entrada, puede separar los datos en todas las clases

distintas, cada una formando un agrupamiento (Betancourt, 2005).

24

Figura 4

Máquinas de Vectores de Soporte

Nota: La gráfica presenta la clasificación del conjunto de puntos en dos grupos, especificando el tipo de kernel lineal

para fijar una recta o frontera entre las clases. Tomado de Gorreta, D. (2015).

Redes Neuronales Artificiales

Una red neuronal artificial (ANN, por sus siglas en inglés Artificial neural network) es “un

nuevo sistema para el tratamiento de la información, cuya unidad básica de procesamiento está

inspirada en la célula fundamental del sistema nervioso humano: la neurona” (Matich, 2001).

Las ANN son competentes en actividades tales como el reconocimiento de patrones,

problemas de optimización o clasificación, y se pueden incorporar en un sistema de apoyo a la

toma de decisiones, pero no son una alternativa capaz de solucionar todas las preguntas o

cuestiones: todo lo contrario, son modelos muy específicos que pueden aplicarse en dominios muy

precisos (Pérez Ramírez & Fernández Castaño, 2007).

Existen diversos modelos en base a su arquitectura y forma de aprendizaje. Una de las más

usadas es la red fundamentada en varias capas de neuronas de tipo perceptrón, entrenadas a través

de la técnica de retropropagación (backpropagation) como se muestra en la Figura 5. Las uniones

25

o enlaces de la red comienzan aleatoriamente y de forma creciente se adaptan a medida que se

realiza el entrenamiento con los datos utilizables, de manera que ésta se instruye en reconocer

sucesivamente todos los procesos del conjunto de datos empleados para su entrenamiento. El

aprendizaje concluye cuando, después de un número cambiante de iteraciones, se logra agrupar

apropiadamente el total de los procesos, o bien se consigue un valor notable de coincidencias, que

no aumenta con más iteraciones. De esta forma, la red aprende a identificar patrones con todo tipo

de figuras o formatos optimizando su desempeño como clasificador (Sáenz Bajo & Álvaro

Ballesteros, 2002).

Figura 5

Esquema de una Red Neuronal Artificial (RNA)

Nota: La gráfica muestra el esquema de una Red Neuronal Artificial (RNA) de tres capas interconectadas, cada

relación entre las neuronas interviene como un canal de comunicación a través del cual se traslada la información.

Tomado de Jaramillo & Antunes (2018).

Bosques Aleatorios

Medina-Merino & Ñique-Chacón (2017), afirman que uno de los algoritmos que se

encuentran dentro de la clasificación de aprendizaje supervisado es “el modelo no paramétrico

Random Forest, el cual es una técnica de clasificación que se basa en un conjunto de árboles de

26

decisiones, ideal para trabajar con una gran cantidad de datos y múltiples variables, ya que

selecciona submuestras para elaborar cada árbol”.

Los bosques aleatorios (RF, por sus siglas en inglés Random forest) son una composición

de árboles predictivos, el cual está constituido por un conjunto de árboles incorrelacionados para

luego determinar su promedio; de manera que cada árbol necesita de las cifras de un vector

aleatorio de la muestra de forma independiente y con la distribución igual que todos los árboles en

el bosque como se muestra en la Figura 6. “Random Forest o Selvas Aleatorias es una técnica

predictiva en la cual todos los clasificadores del método del consenso (Bagging) son árboles de

decisión. Cada modelo genera una predicción y se selecciona por la mayor cantidad de votos”

(Haro Rivera et al., 2018).

Figura 6

Esquema de un modelo de Bosques aleatorios

Nota: En la gráfica se muestran los datos de entrenamiento que representarían la entrada, pasando a la siguiente etapa

en la cual se generan múltiples árboles. Cada árbol genera una clasificación y el resultado o salida es la clase con

mayor cantidad de votos en todo el bosque. Tomado de (Orellana Alvear, 2018)

27

Coeficiente kappa de Cohen

El coeficiente kappa (κ) constituye la relación de coincidencias observadas sobre el total

de observaciones, habiendo descartado las coincidencias obtenidas al azar. El coeficiente kappa

(κ) ocupa cifras entre -1 y +1; entretanto más aproximado a +1, mayor es el nivel de coincidencia

inter-observador. Cuando una cifra de κ = 0 demuestra que la coincidencia examinada es la que se

supone a razón únicamente del azar. El análisis del coeficiente kappa se desarrolla correlacionando

la cifra obtenida con una gradación cualitativa que incorpora seis niveles de fuerza de concordancia

(“pobre”, “leve”, “aceptable”, “moderada”, “considerable” y “casi perfecta”), sintetizando la

interpretación del mismo (Cerda L & Villarroel Del P., 2008).

Python

Es un lenguaje de programación interpretado dinámico, siendo considerado un lenguaje de

alta productividad por la sintaxis simple que se usa además contiene gran cantidad de bibliotecas

y se ha ganado la popularidad en la comunidad científica informática (Lam et al., 2015).

Python es un lenguaje muy expresivo y sus programas son muy conciso: un programa

Python suele ser bastante más reducido que su semejante en lenguajes como C, en la Tabla 4 se

presenta un análisis comparativo entre Python y otros lenguajes de programación. Python llega a

ser valorado por muchos un lenguaje de programación de muy alto nivel. Python fue diseñado por

Guido van Rossum y se encuentra en un ciclo continuo de optimización por un gran grupo de

desarrolladores por esta razón se debe la gratuidad de su intérprete. El ambiente de desarrollo de

Python localiza varios de los errores de programación que escapan a la inspección de los

compiladores y otorga información relevante para descubrirlos y modificarlos. Este lenguaje de

programación “puede utilizarse como lenguaje imperativo procedimental o como lenguaje

orientado a objetos” (Marzal & Gracia, 2002).

28

Tabla 4

Comparativo entre SAS, R y Python

Parámetro SAS R Python

Disponibilidad / Costo 2 5 5

Facilidad de aprendizaje 4.5 2.5 3.5

Capacidades de manejo de datos 4 4 4

Capacidades gráficas 3 4.5 4

Avances en la herramienta 4 4.5 4

Perspectivas laborales 4.5 3.5 2.5

Soporte de servicio al cliente y

comunidad

4 3.5 3

Nota: Para cada parámetro de cada uno de los lenguajes mencionados se proporción su valoración específica (1 - Baja,

5 - Alta). La elaboración es propia y la fuente corresponde a Alejandro, F. (2020).

Revisiones sistemáticas

Las revisiones sistemáticas forman parte de resúmenes claros y cuidadosamente

estructurados para proporcionar la mejor evidencia científica orientada a responder una pregunta

de investigación especifica (B. Moreno et al., 2018).

Kitchenham (2009) menciona que el objetivo de una revisión sistemática de la literatura no

solamente es agregar toda la evidencia existente sobre una pregunta de investigación sino también

es destinado al apoyo del desarrollo de directrices que se basan en la evidencia para profesionales.

El mapeo sistemático es una metodología que se centra en dar una visión general en busca

de la literatura de un área de investigación para así clasificar los temas que se relacionan con las

categorías de la clasificación o que se han cubierto en la literatura (Petersen et al., 2015).

29

Mapeo Sistemático sobre los estados de ánimo de las personas empleando técnicas de

aprendizaje automático

Para la siguiente investigación se consideran las recomendaciones provistas en los trabajos

de (Botto Tobar, 2014; Monroy et al., 2016).

Planteamiento de la pregunta de investigación

El propósito de la investigación consiste en identificar las técnicas de ML que se usan hasta

el momento para el reconocimiento del EA de las personas. Para el mapeo sistemático se define la

siguiente pregunta de investigación:

RQ: ¿Cuáles son las técnicas o metodologías que se aplican en los estudios existentes para

identificar el EA de las personas a través de la voz?

Esto permitirá contar con un inventario de los trabajos existentes para la identificación de

los EA en las personas. Dado que nuestra de investigación es demasiado amplia, esta se ha

descompuesto en sub-preguntas de investigación más detalladas con el objetivo de ser abordada.

SRQ1: ¿Cómo se clasifican las técnicas utilizadas en los estudios existentes?

SRQ2: ¿Qué artefactos se utilizan en cada estudio para identificar el EA de las personas?

Estas dos preguntas permitirán clasificar las técnicas que empleen ML y que artefactos son

utilizados para identificar el EA de las personas, facilitando el trabajo a futuras investigaciones.

Búsqueda de estudios primarios

La búsqueda de estudios primarios se realizó en el gestor de búsquedas bibliográficas

académica – científica: Google Scholar.

La expresión de la cadena de búsqueda para obtener los estudios se formuló de la siguiente

manera: (techniques OR method*) AND (identif* OR recogni*) AND “mood” AND “voice”

30

La búsqueda se realizó con la implementación de la cadena de búsqueda en los siguientes

campos: titulo, resumen y palabras claves, los estudios que se revisaron son solamente los

publicados desde el año 2015 hasta la elaboración de este documento siendo incluidos en los

criterios.

Criterios de Inclusión y Exclusión

Los estudios que se incluyeron y excluyeron fue evaluado por la decisión de los autores

tomando en consideración el título, resumen y palabras claves.

Se incluyeron los siguientes estudios que cumplían al menos uno de los criterios de

inclusión:

• Artículos de revistas, capítulos de libros que presenten resultados de estudios

empíricos.

• Estudios en el idioma inglés.

• Estudios que se basen en técnicas o métodos para identificar el EA a través de la voz

humana.

Se excluyeron los siguientes estudios que cumplían al menos uno de los criterios de

exclusión:

• Estudios cuyo tema no se relacionan a los EA de las personas.

• Artículos introductorios para ediciones de talleres o libros.

• Documentos duplicados.

• Documentos de opinión.

• Publicaciones en revistas o actas de conferencias no arbitradas.

• Artículos de extensión menor a 5 páginas.

• Estudios no escritos en inglés.

31

En la Tabla 5 se presenta la cantidad de artículos encontrados y seleccionados para realizar

el presente proyecto.

Tabla 5

Cantidad de Artículos Seleccionados

Base de Datos Encontrados Seleccionados

Google Scholar 433 4

Nota: En esta tabla se detallan los artículos encontrados y seleccionados en la base de datos. La elaboración es propia

y la fuente corresponde al mapeo sistemático.

Aseguramiento de calidad

Se consideró fundamental la evaluación de calidad para otorgar una evaluación de

rigurosidad a los estudios primarios seleccionados y así detectar lo más representativos para

realizar el mapeo sistemático, respondiendo las siguientes preguntas:

• ¿El estudio utiliza técnicas o métodos para identificar el EA de las personas?

• ¿El estudio ha sido publicado en una conferencia o revista relevante?

• ¿Otros autores han citado el estudio?

Extracción de Datos

La estrategia para la extracción de datos se definió con posibles respuestas a cada sub-

pregunta que se había definido en la investigación para facilitar la clasificación y asegurar la

extracción de datos en todos los trabajos seleccionados, como se evidencia en la Tabla 6.

32

Tabla 6

Criterios de Extracción

Pregunta de

Investigación

Criterio Opciones

SRQ1: ¿Cómo se

clasifican las técnicas

utilizadas en los

estudios existentes?

C1: Clasificación de

técnicas

Con ML

Sin ML

Supervisado

No Supervisado

SRQ2: ¿Qué

artefactos se utilizan

en cada estudio para

identificar el EA de

las personas?

C2: Artefactos Utilizados DataSet

Agrupación de Datos

Patrones de Voz

Nota: La tabla detalla las preguntas con sus criterios de extracción que se usarán en el mapeo sistemático. La

elaboración es propia y la fuente datos propios de la investigación.

Para SRQ1 ¿Cómo se clasifican las técnicas utilizadas en los estudios existentes?, un

artículo puede ser categorizado en una de las siguientes respuestas:

C1: Clasificación de técnicas: Se empleó este término para lograr clasificar los

estudios que aplican ML y que son utilizadas por investigadores de acuerdo a Sandoval

Serrano (2018), además de los que implementaron otro tipo de técnicas no relacionadas al

ML para comprobar cómo se identificaría el EA utilizando otros tipos de técnicas.

a) Supervisado: para esta clasificación es cuando se parametriza las preguntas

(características) y las respuestas(etiquetas).

b) No supervisado: solo se parametriza las características.

SRQ2: ¿Qué artefactos se utilizan en cada estudio para identificar el EA de las personas?,

Se plantea la pregunta para identificar qué artefactos son utilizados para identificar el EA

de las personas.

33

Fase de Resultados

Los resultados que responden a las preguntas se encuentran detallados en la Tabla 7.

Tabla 7

Porcentaje de los Criterios de Extracción

Pregunta de

Investigación

Criterio Opciones Porcentaje Absoluto

SRQ1: ¿Cómo

se clasifican las

técnicas

utilizadas en

los estudios

existentes?

C1: Clasificación

de técnicas

Con ML

Sin ML

Supervisado

No

Supervisado

75% 3

SRQ2: ¿Qué

artefactos se

utilizan en

cada estudio

para

identificar el

EA de las

personas?

C2: Artefactos

Utilizados

DataSet

Agrupación de

Datos

Patrones de

Voz

50%

25%

2

1

Nota: Se detallan los resultados obtenidos por cada criterio de extracción. La elaboración es propia y la fuente datos

propios de la investigación.

Braun et al., [M1] en su estudio aplicó ML con la técnica de ANN como artefacto de guía

para la identificación del EA realizaron grabaciones en salas acústicas blindadas con equipos de

alta gama para obtener un dataset de 5 idiomas diferentes siendo los siguientes: inglés, francés,

alemán, italiano, español. Cada idioma constaba de 120 sujetos donde los clasificaban según su

género, edad y educación. El objetivo del trabajo es extender el método CSA y así encontrar un

esquema de grabaciones para detectar de manera óptima la transición de “normal” a “afectado” y

sea aceptable para todo tipo de personas de pruebas y pacientes.

Ramm et al., [M3] presentan en su investigación el primer artefacto de código abierto para

anotar el tiempo morfosintáctico, el EA y la voz aplicado en complejos verbales en inglés, francés

34

y alemán. La anotación se fundamenta en un grupo de reglas propias del lenguaje, que se emplean

en los árboles de dependencia y aprovechan la información sobre lemas, propiedades morfológicas

y etiquetas gramaticales de los verbos. Este artefacto tiene una precisión promedio de

aproximadamente 76%. Las propiedades de tiempo EA y voz son convenientes tanto como

propiedades en el modelado computacional como para la investigación corpuslingüística. El

artefacto está implementado en Python. Toma como entrada el archivo de texto analizado en el

formato CoNLL (Ramm et al., 2017).

Khorram et al., [M2] propone su estudio en el uso de un conjunto de datos de emociones

salvaje, PRIORI EMOTION dataset que contiene grabaciones de conversaciones cotidianas en

telefonos inteligentes de paciente con transtorno bipolar, para la prediccion del EA usaron 2

sistemas que son parte del ML la primera fue red neuronal de avance profundo (FFNN) que opera

en el conjunto de caracteristicas eGeMAPS y la segunda aplico una red neuronal convolucional

(CNN) que funciona con las caracteristicas del banco de frencuencias Mel (log-MFB).

Victory et al., [M4] desarrollan en su investigación la propuesta de aumentar la

participación del campo médico en el monitoreo del EA a personas que padecen trastornos del

mismo y de esta forma, descubrir su dinámica para llegar a predecir su estado anímico y

proporcionar micro intervenciones digitales. Los datos que se analizaron fueron conseguidos

mediante grabaciones de voz, GPS, rastreador de sueño, rastreador de actividad, rastreador de

frecuencia cardíaca, metadatos del teléfono, pulsaciones de teclas y autoinformes, de los pacientes

involucrados. Durante la realización de este estudio, se utilizó un algoritmo aplicando RF y se

obtuvieron exitosos resultados, aportando a la gran cantidad de herramientas potenciales que los

médicos pueden usar para prevenir episodios de trastornos relacionados al EA (Victory et al.,

2020).

35

Hipótesis

En esta investigación, se enuncia la siguiente hipótesis:

El algoritmo SVM es el más utilizado para la clasificación, etiquetado y entrenamiento de

las muestras para estructurar un modelo que identifique correctamente las clases definidas

(positivo y negativo) en el reconocimiento del EA de las personas por la voz.

Variables de la investigación

Las siguientes variables a enunciar contribuyen en la realización del proyecto:

Variable dependiente:

Reconocimiento del EA de las personas por la voz.

Variable independiente:

Algoritmos de ML.

La variable dependiente es el punto evidenciado y de mejorías en la presente investigación,

se describe como el reconocimiento del EA de las personas por la voz. Los algoritmos de ML;

SVM, RF y ANN, representarían la variable independiente.

En resumen, el desarrollo de esta investigación ayuda a optimizar el reconocimiento del

EA de las personas por la voz e identificar cuál es el algoritmo de ML más adecuado para clasificar

los datos obtenidos. Las variables establecidas previamente tienen el propósito de orientar al

investigador hacia la resolución, volviéndose útiles al momento de plantear un tema investigativo

o realizar posteriores implementaciones. Por lo consiguiente, a través de estas variables se

determinan la problemática del proyecto y el curso por el que debe enfocarse el investigador para

la solución de este caso de estudio.

36

CAPÍTULO III

METODOLOGÍA DE LA INVESTIGACIÓN

Para la realización del presente proyecto se consideró el método científico debido a que

posibilitó inspeccionar, indagar y examinar, todo tipo de resultados e investigaciones para la

obtención de modelos innovadores que se justificarán en pruebas controladas y monitoreadas,

además de apoyarse en estudios empíricos. Este método, a través del análisis de las soluciones

obtenidas, nos permitió finalizar con una argumentación racional.

Modalidad de la investigación

El desarrollo del estado del arte se fundamenta en la adquisición de datos y referencias con

respecto a un tema en cuestión, con el propósito de realizar comparativas y originar estudios

inéditos. Por esta razón para la ejecución de la presente investigación, la modalidad seleccionada

fue 30% bibliográfica debido a que se consideraron artículos científicos, revistas, enciclopedias,

libros, además de la aplicación sistemática del método científico; y 70% experimental, por el

desarrollo de algoritmos de ML para evidenciar resultados a través de pruebas aplicadas.

37

Tipo de investigación

En el presente estudio se utilizó el siguiente tipo de investigación:

Investigación cuasi experimental

La investigación cuasiexperimental tiene como finalidad demostrar una hipótesis causal

empleando (por lo menos) una variable independiente donde por cuestiones logísticas o éticas no

es probable designar las unidades de investigación al azar a los grupos. A causa de que varias

determinaciones a nivel social se obtienen a partir del resultado de investigaciones con estas

características, es necesario que se tenga una planificación adecuada de la utilización del

tratamiento, de la inspección en el proceso de investigación y del estudio de los datos (Fernández

García et al., 2014).

“En un cuasiexperimento pueden plantearse más hipótesis alternativas que se ajusten a los datos.

No obstante, por otro lado, existe una mayor generalización de los resultados a otras situaciones

distintas a la de investigación” (Bono Cabré, 2012).

Diseño metodológico de la investigación

El método científico es un procedimiento de investigación utilizado para la obtención de

conocimiento en las ciencias. Para ser denominado científico, un método de investigación debe

fundamentarse en lo experimental y en la efectividad, y estar relacionado a las causas concretas de

los estudios de razonamiento. “El método es el modo en que se actúa para conseguir un propósito,

lleva implícito la aplicación de un sistema de principios y normas de razonamiento que permiten

establecer explicaciones de los problemas investigados sobre cierto objeto de estudio” (Horsford

& Bayarre, 2009).

38

Existen otras opciones para conseguir soluciones acerca de la realidad como la tenacidad o

inercia, la perspicacia y el poder, pero sólo la ciencia es una indagación ordenada, supervisada,

experimental y crítica sobre sugerencias o propuestas teóricas de las relaciones entre los

fenómenos analizados (Igartua & Humanes, 2004).

Metodología de investigación

En los estudios realizados sobre algoritmos para el reconocimiento del EA de las personas

a través de la voz, son importantes las siguientes cuestiones: la base de datos de discurso

emocional, la extracción y selección de características, y el entrenamiento de los datos. La base de

datos de discurso emocional debe estar conformada por la colección de muestras de audio que

serán utilizadas posteriormente para el entrenamiento de los algoritmos de aprendizaje supervisado

para clasificación; SVM, RF y ANN. Las características y variedad de las grabaciones de audio se

representarán en la precisión y sensibilidad de los algoritmos a estudiar.

Bases de datos

Para realizar el entrenamiento de los algoritmos de ML, se consultaron fuentes

bibliográficas de diversas bases de datos, las cuales están constituidas por una gran cantidad de

muestras de audio en idiomas determinados, clasificadas de acuerdo a emociones variadas, que

luego se agruparían y etiquetarían en dos clases; positivo y negativo. Una lista de las diferentes

bases de datos y sus características se puede visualizar en la Tabla 8.

39

Tabla 8

Bases de Datos de Discurso Emocional

Base de Datos Idioma Emociones Elicitación Tamaño

Drama corpus Mandarín Ira, asco, miedo,

felicidad,

tristeza,

sorpresa,

neutral.

Grabaciones de

imitadores

profesionales

en

diferentes esta

dos

emocionales.

2,100 oraciones en

440 diálogos por

dos hablantes (1

hombre y 1 mujer)

Acted speech

corpus

Mandarín Ira, miedo,

felicidad,

tristeza, neutral.

Una actriz

profesional que

lee textos de

una colección

de resúmenes

de lecturas.

1,500

declaraciones,

3,649 frases, un

hablante.

Danish

Emotional Speech

Database

Danés Ira, felicidad,

tristeza,

sorpresa,

neutral.

Grabaciones de

actores que

pronuncian

palabras,

oraciones y

pasajes de

habla fluida en

diferentes

estados

emocionales.

Aproximadamente

10 minutos de

discurso en total,

cuatro oradores en

total (dos mujeres,

dos hombres).

INTERFACE

Emotional Speech

Synthesis

Database

Inglés/Francés/

Esloveno/Espa

ñol

Ira, asco, miedo,

alegría, tristeza,

sorpresa,

neutral.

Seis tipos

diferentes de

oraciones,

habladas por

actores

profesionales

en cada idioma

y cada

emoción.

Dos actores (una

mujer, un

hombre), 150-190

enunciados para

cada uno de los

seis estilos

emocionales en

cuatro idiomas.

Berlin Database

of Emotional

Speech

Alemán Ira,

aburrimiento,

asco, miedo,

alegría, tristeza,

neutral.

Grabaciones de

actores no

profesionales

que pronuncian

oraciones aleat

orias en cada

emoción.

Más de 800

enunciados, 10

hablantes (5

mujeres, 5

hombres).

40

SES (Spanish

Emotional Speech

database)

Español Ira, felicidad,

tristeza,

sorpresa,

neutral.

Grabaciones de

un actor que lee

textos neutrales

en diferentes

estados

emocionales.

Tres pasajes y 15

oraciones

interpretadas por

un hablante en

cuatro emociones

más estilo neutral.

RAVDESS (The

Ryerson Audio-

Visual Database

of Emotional

Speech and Song)

Inglés Neutral, calma,

felicidad,

tristeza, enojo,

miedo, asco y

sorpresa.

Grabaciones de

actores que

entonan dos

declaraciones

léxicamente

combinadas.

Incluye 1440

archivos con la

participación de

24 actores

profesionales (12

mujeres, 12

hombres).

TESS (Toronto

emotional speech

set)

Inglés Miedo,

sorpresa,

tristeza, enojo,

disgusto,

felicidad y

neutral.

Grabaciones de

actrices

vocalizando un

conjunto de

200 palabras.

2800 archivos de

audio con la

participación

de dos actrices (de

26 y 64 años de

edad) Nota: Características de cada base de datos con su respectivo idioma. La elaboración es propia y la fuente datos


Entre las bases de datos de discurso emocional revisadas en el estado del arte, dos de ellas

se encuentran públicas en Internet; RAVDESS y TESS. Sin embargo, dichas bases de datos poseen

muestras de audio en idioma inglés y cada audio está etiquetado por la emoción presentada por el

intérprete.

La base de datos RAVDESS (The Ryerson Audio-Visual Database of Emotional Speech

and Song), contó con 1440 archivos en formato wav, con la participación de 24 actores

profesionales (12 mujeres, 12 hombres), que realizan dos declaraciones léxicamente mezcladas en

un acento neutral del idioma inglés. Las emociones que maneja son: neutral, calma, felicidad,

tristeza, enojo, miedo, asco y sorpresa. Por otro lado, la base de datos TESS (Toronto emotional

speech set) elaborada en la Universidad de Toronto está constituida por la participación de 2

actrices (de 26 y 64 años de edad) entonando un conjunto de 200 palabras en idioma inglés y

expresando siete emociones distintas; miedo, sorpresa, tristeza, enojo, disgusto, felicidad y neutral.

Proporcionando un total de 2800 archivos de audio en formato wav.

41

Durante el desarrollo de esta investigación se utilizaron las bases de datos mencionadas

previamente, pero cada audio que expresaba una emoción específica fue reagrupado a su

correspondiente EA (positivo y negativo). En la Tabla 9 se pueden visualizar los resultados del

etiquetado según el juicio de expertos en el área de psicología.

Tabla 9

Etiquetado según Expertos de las Emociones a EA

Emoción Estado de ánimo

Enojo Negativo

Asco Negativo

Miedo Negativo

Felicidad Positivo

Neutral Negativo

Sorpresa Positivo

Tristeza Negativo

Calma Positivo

Nota: La tabla muestra las emociones básicas de las personas etiquetadas por su correspondiente EA. La elaboración

es propia y la fuente datos propios de la investigación.

Extractores de características

En el procesamiento de los audios, se segmentó cada uno y se obtuvieron las características

específicas de cada señal de audio que fueron representadas como un vector. Para la realización

de extracción de características se crearon scripts en Python.

La extracción de características fue una etapa muy importante en la realización del presente

proyecto, debido a que influyó en el momento de brindar buenos resultados y de esta manera,

obtener datos de entrada para identificar los EA en los clasificadores.

42

MFCC

MFCC (coeficientes espectrales de las frecuencias en la escala Mel) es una de las técnicas

más importantes en el reconocimiento de la voz. En la Figura 7 se describe el esquema básico para

la extracción de un vector MFCC.

Figura 7

Pasos de un Vector MFCC

Nota: El gráfico representa los pasos a seguir para conseguir un vector MFCC. Tomado de Bhattarai et al., (2017)

1. Pre-énfasis: la señal pasa por un filtro que enfatice las frecuencias más altas, para

equilibrar el espectro de sonidos sonoros permitiendo obtener más información de la

señal. El filtro de pre-énfasis más utilizado esta dado por la siguiente función, donde b

controla la pendiente del filtro y el valor suele estar entre 0,4 y 1 (Rao & Vuppala,

2014):

𝐻(𝑧) = 1 − 𝑏𝑧−1

2. Entramado y ventaneo: la ventana de Hamming se aplica para obtener características

acústicas estables, para el análisis de la voz siempre debe examinarse en segmentos

Señal de Voz

Pre-énfasis

Entramado y

ventaneo

(Hamming)

Transformada

rápida de

Fourier (STFT)

Banco de filtros

de Mel

Logaritmo de la

señal

transformada

Transformada

Coseno Discreta

(DCT)

MFCC […]

43

cortos durante un periodo de tiempo, a corto plazo generalmente se aplica una ventana

de 20 ms siendo suficiente para que proporcione una buena resolución espectral y en

intervalos de 10 ms permitiendo rastrear las características temporales de los sonidos

del habla individuales.

La función Hamming está representada por la siguiente ecuación:

𝑊𝑛(𝑚) = 0.54 − 0.46 𝐶𝑜𝑠 ( 2𝜋𝑚

(𝑁𝑚 − 1)) , 0 < 𝑚 < 𝑁𝑚 − 1

siendo 𝑊𝑛(𝑚) = Hamming

𝑁𝑚 = número de nuestras en cada trama

La señal de salida se representa como 𝑌(𝑚) después de multiplicar la señal de entrada

𝑋(𝑚) y la función de la ventada Hamming 𝑊𝑛(𝑚).

𝑌(𝑚) = 𝑋(𝑚) ∗ 𝑊𝑛(𝑚)

3. Transformada de Fourier Discreta: cada cuadro de ventana se convierte en el espectro

de magnitud y se obtiene el resultado de cada trama.

𝐷𝑘 = ∑ 𝐷𝑚

𝑁𝑚−1

𝑚=0𝑒

−𝑗2𝜋𝑘𝑚𝑁𝑚

Donde 𝑁 es el número de puntos utilizados para calcular la transformada de Fourier

discreta.

4. Banco de filtros de Mel: la señal de la transformada de Fourier se pasa por un conjunto

de filtros conocidos como banco de filtros de Mel para adaptar la resolución de la

frecuencia a las propiedades auditivas humanas. La Figura 8 representa un banco de

filtros en la escala Mel. Es necesario que se realice un mapeo de escala entre las escalas

de frecuencias reales dadas (Hz) y la frecuencia de escala percibida (Mels), en el

transcurso del mapeo, cuando el valor de la frecuencia dado es hasta 1000 Hz, la escala

44

Mel es aproximadamente un espaciado de frecuencia lineal y un espaciado logarítmico

después de los 1000 Hz (Gupta et al., 2013).

Figura 8

Banco de filtros de Mel

Nota: Se muestran los bancos de filtros en forma triangular con deformación de la frecuencia de Mel. Tomado de Rao

& Vuppala ( 2014)

La siguiente ecuación permite convertir la frecuencia (𝑓) física en Mel que denota la

frecuencia percibida:

𝑓𝑚𝑒𝑙 = 2595 𝑙𝑜𝑔10 (1 + 𝑓

700)

5. Logaritmo de la señal transformada: es calcular el logaritmo de frecuencia en la escala

de Mel elevada al cuadrado para que las estimaciones de frecuencia sean menos

sensibles a posibles variaciones de la señal.

45

6. Transformada de Coseno Discreta: Produce un conjunto de coeficientes cepstrales dado

que las salidas pueden contener cantidades importantes de energía. La salida después

de aplicar el DCT se conoce como MFCC (Gupta et al., 2013).

El resultado esta dado por la siguiente ecuación:

𝐶𝑛 = ∑ (log 𝐷𝑘) cos [𝑚 (𝑘 − 1

2)

𝜋

𝑘]

𝑘

𝑘−1

Donde:

𝐶𝑛 = representa el MFCC

𝑚 = el número de coeficientes

Tasa de cruces por cero

Son los cambios de signo de una señal a lo largo del tiempo, es decir, si la tasa de la señal

que se cambia de positivo pasa a cero o a negativo, lo mismo con la tasa de la señal que se cambia

a negativo pasa a cero o a positivo, la ecuación para calcular el ZCR es la siguiente:

𝑍𝐶𝑅 = 1

𝑇 − 1∑ 𝑠𝑖𝑔 (𝑥𝑚 ∗ 𝑥𝑚+1)

𝑚= 𝑇−1

𝑚=0

Donde 𝑇 es la frecuencia de muestreo y:

𝑠𝑖𝑔(𝑥) = { 0 𝑖𝑓 𝑥 > 01 𝑖𝑓 𝑥 < 0

Es una función indicadora.

Transformada de Fourier de tiempo corto

Para el análisis espectral se divide la señal en el dominio del tiempo en señales de menor

duración y esta formulado por la siguiente ecuación:

46

𝑋(𝑚, 𝑘) = ∑ 𝑥 (𝑛 + 𝑚𝐻) 𝑤

𝑁−1

𝑛=0

(𝑛) exp(−2𝜋𝑖𝑘𝑛/𝑛)

Donde:

𝑥: ℤ → ℝ señal discreta de valor real.

𝑤: [0 ∶ 𝑁 − 1] → ℝ una ventana de tiempo discreta de longitud 𝑁 ∈ ℕ

𝐻 ∈ ℕ parámetro de tamaño de salto.

𝐾 = 𝑁/2 es el índice de frecuencia correspondiente a la frecuencia de Nyquist.

𝑋(𝑚, 𝑘) coeficiente de Fourier para el índice de frecuencia 𝐾 ∈ [0 ∶ 𝐾] y

marco de tiempo 𝑚 ∈ ℤ

Para la extracción de características de cada audio se implementaron scripts en Python que se

encuentran en el repositorio GitHub (Ponce, 2020), usando la librería librosa que se detalla a

continuación:

• librosa.feature.mfcc

• librosa.feature.zero_crossing_rate

• librosa.feature.chroma_stft

• librosa.feature.rms

• librosa.feature.melspectrogram

Entrenamiento

Para identificar el EA de las personas a través de la voz se realizó un modelo para cada uno

de los siguientes algoritmos de ML; SVM, RF y ANN. Estos modelos tomaron el 80% de las

muestras de audio de las bases de datos establecidas para su entrenamiento y el porcentaje restante

fue dirigido a las pruebas. El procedimiento de la clasificación empleó los vectores resultantes de

47

la fase de extracción de características, tanto para el entrenamiento como para las pruebas. En la

Figura 9 se puede visualizar el diagrama del proceso de clasificación.

Figura 9

Diagrama del Proceso de Clasificación

Nota: Se detallan los procesos que se llevarán a cabo para tener como resultado la identificación del EA, datos propios

de la investigación.

Para elegir él o los modelos óptimos al momento de identificar el EA se llevaron a cabo las

siguientes pruebas con el clasificador SVM, seleccionando un núcleo lineal. De la Figura 10 a la

Figura 12 se utilizó únicamente la base de datos RAVDESS combinando los diferentes extractores

de características con aumento de datos.

Entrada: Señal de audio

Extracción de características

Etiquetado

EntrenamientoClasificaciónSalida: Estado

de ánimo

48

Figura 10

Clasificador SVM de la Base de Datos RAVDESS

Nota: El gráfico representa las diferentes características extraídas del audio original de la Base de Datos RAVDESS

analizando un total de audios positivos = 576 y negativos = 864 con el clasificador SVM, datos propios de la

investigación.

MFCC=13MFCC=13,

ZCR

MFCC=13,

ZCR,

CHROMA

MFCC=13,

ZCR,

CHROMA,

RMSQ

MFCC=13,

ZCR,

CHROMA,

RMSQ,

MelSpectog

ram

MFCC=20MFCC=20,

ZCR

MFCC=20,

ZCR,

CHROMA

MFCC=20,

ZCR,

CHROMA,

RMSQ

MFCC=20,

ZCR,

CHROMA,

RMSQ,

MelSpectog

ram

Precisión Negativo 0,60 0,61 0,62 0,61 0,64 0,61 0,63 0,63 0,64 0,65

Recall Negativo 0,87 0,89 0,88 0,87 0,78 0,86 0,84 0,87 0,86 0,75

Precisión Positivo 0,55 0,62 0,63 0,60 0,59 0,59 0,61 0,65 0,65 0,58

Recall Positivo 0,21 0,24 0,28 0,27 0,41 0,27 0,33 0,33 0,35 0,46

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

1,00

49

Figura 11


Nota: El gráfico representa las diferentes características extraídas de la base de datos RAVDESS con aumento de

datos que incluyen el audio original y un efecto de ruido en cada uno, analizando un total de audios positivos = 1152

y negativos = 1728 con el clasificador SVM, datos propios de la investigación.

MFCC = 13MFCC=13,

ZCR

MFCC=13,

ZCR ,

CHROMA

MFCC=13,

ZCR ,

CHROMA,

RMSQ

MFCC=13,

ZCR,

CHROMA,

RMSQ,

MelSpectog

ram

MFCC = 20MFCC=20,

ZCR

MFCC=20,

ZCR,

CHROMA

MFCC=20,

ZCR,

CHROMA,

RMSQ

MFCC=20,

ZCR,

CHROMA,

RMSQ,

MelSpectog

ram


Recall Negativo 0,93 0,95 0,92 0,91 0,85 0,93 0,92 0,90 0,90 0,84


Recall Positivo 0,15 0,09 0,17 0,20 0,36 0,22 0,22 0,27 0,30 0,43

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

1,00

50

Figura 12


Nota: El gráfico representa las diferentes características extraídas de la base de datos RAVDESS con aumento de

datos que incluyen el audio original, efecto de ruido y estiramiento en el tono de cada uno, analizando un total de

audios positivos = 1728 y negativos = 2592 con el clasificador SVM, datos propios de la investigación.

De la Figura 13 a la Figura 15 se utilizaron las bases de datos RAVDESS y TESS combinando los

diferentes extractores de características con aumento de datos.

MFCC = 13MFCC=13,

ZCR

MFCC=13,

ZCR ,

CHROMA

MFCC=13,

ZCR ,

CHROMA,

RMSQ

MFCC=13,

ZCR ,

CHROMA,

RMSQ,

MelSpectog

ram

MFCC = 20MFCC=20,

ZCR

MFCC=20,

ZCR ,

CHROMA

MFCC=20,

ZCR ,

CHROMA,

RMSQ

MFCC=20,

ZCR ,

CHROMA,

RMSQ,

MelSpectog

ram


Recall Negativo 0,88 0,87 0,88 0,88 0,85 0,85 0,86 0,85 0,87 0,83


Recall Positivo 0,19 0,23 0,23 0,25 0,32 0,29 0,29 0,29 0,28 0,39

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

1,00

51

Figura 13

Clasificador SVM de la Base de Datos RAVDESS & TESS


& TESS analizando un total de audios positivos = 1376 y negativos = 2864 con el clasificador SVM, datos propios de

la investigación.

MFCC=13MFCC=13,

ZCR

MFCC=13,

ZCR,

CHROMA

MFCC=13,

ZCR,

CHROMA,

RMSQ

MFCC=13,

ZCR,

CHROMA,

RMSQ,

MelSpectog

ram

MFCC=20MFCC=20,

ZCR

MFCC=20,

ZCR,

CHROMA

MFCC=20,

ZCR,

CHROMA,

RMSQ

MFCC=20,

ZCR,

CHROMA,

RMSQ,

MelSpectog

ram


Recall Negativo 0,98 0,98 0,92 0,92 0,91 0,91 0,91 0,90 0,90 0,90


Recall Positivo 0,10 0,10 0,34 0,33 0,54 0,32 0,30 0,40 0,41 0,56

0,00

0,20

0,40

0,60

0,80

1,00

1,20

52

Figura 14


Nota: El gráfico representa las diferentes características extraídas de la base de datos RAVDESS & TESS con aumento

de datos que incluyen el audio original y un efecto de ruido en cada uno, analizando un total de audios positivos =

2752 y negativos = 5728 con el clasificador SVM, datos propios de la investigación.

MFCC=13MFCC=13,

ZCR

MFCC=13,

ZCR,

CHROMA

MFCC=13,

ZCR,

CHROMA,

RMSQ

MFCC=13,

ZCR,

CHROMA,

RMSQ,

MelSpectog

ram

MFCC = 20MFCC=20,

ZCR

MFCC=20,

ZCR,

CHROMA

MFCC=20,

ZCR,

CHROMA,

RMSQ

MFCC=20,

ZCR,

CHROMA,

RMSQ,

MelSpectog

ram


Recall Negativo 0,96 0,97 0,89 0,88 0,90 0,91 0,90 0,89 0,89 0,91


Recall Positivo 0,13 0,12 0,38 0,43 0,63 0,33 0,34 0,50 0,49 0,65

0,00

0,20

0,40

0,60

0,80

1,00

1,20

53

Figura 15


Nota: El gráfico representa las diferentes características extraídas de la base de datos RAVDESS & TESS con aumento

de datos que incluyen el audio original, efecto de ruido y estiramiento en el tono de cada uno, analizando un total de

audios positivos = 4128 y negativos = 8592 con el clasificador SVM, datos propios de la investigación.

A continuación, se combinan las bases de datos RAVDESS en su totalidad de audios y de

TESS sólo se escogieron los audios positivos como se muestra desde la Figura 16 hasta la Figura

18.

MFCC = 13MFCC=13,

ZCR

MFCC=13,

ZCR ,

CHROMA

MFCC=13,

ZCR ,

CHROMA,

RMSQ

MFCC=13,

ZCR ,

CHROMA,

RMSQ,

MelSpectog

ram

MFCC = 20MFCC=20,

ZCR

MFCC=20,

ZCR,

CHROMA

MFCC=20,

ZCR,

CHROMA,

RMSQ

MFCC=20,

ZCR,

CHROMA,

RMSQ,

MelSpectog

ram


Recall Negativo 0,96 0,96 0,91 0,92 0,91 0,92 0,93 0,92 0,91 0,92


Recall Positivo 0,11 0,11 0,35 0,34 0,54 0,28 0,27 0,40 0,40 0,59

0,00

0,20

0,40

0,60

0,80

1,00

1,20

Base de Datos RAVDESS & TESS

54

Figura 16

Clasificador SVM de la Base de Datos RAVDESS & TESS Audios Positivos


& TESS (audios positivos) analizando un total de audios positivos = 1376 y negativos = 864 con el clasificador SVM,

datos propios de la investigación.

MFCC=13MFCC=13,

ZCR

MFCC=13,

ZCR,

CHROMA

MFCC=13,

ZCR,

CHROMA,

RMSQ

MFCC=13,

ZCR,

CHROMA,

RMSQ,

MelSpectog

ram

MFCC=20MFCC=20,

ZCR

MFCC=20,

ZCR,

CHROMA

MFCC=20,

ZCR,

CHROMA,

RMSQ

MFCC=20,

ZCR,

CHROMA,

RMSQ,

MelSpectog

ram


Recall Negativo 0,87 0,88 0,88 0,86 0,88 0,86 0,85 0,86 0,86 0,78


Recall Positivo 0,68 0,68 0,68 0,68 0,73 0,71 0,71 0,73 0,72 0,76

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

1,00

55

Figura 17


Nota: El gráfico representa las diferentes características extraídas de la base de datos RAVDESS & TESS (audios

positivos) con aumento de datos que incluyen el audio original y un efecto de ruido en cada uno, analizando un total

de audios positivos = 2752 y negativos = 1728 con el clasificador SVM, datos propios de la investigación.

MFCC=13MFCC=13,

ZCR

MFCC=13,

ZCR,

CHROMA

MFCC=13,

ZCR,

CHROMA,

RMSQ

MFCC=13,

ZCR,

CHROMA,

RMSQ,

MelSpectog

ram

MFCC = 20MFCC=20,

ZCR

MFCC=20,

ZCR,

CHROMA

MFCC=20,

ZCR,

CHROMA,

RMSQ

MFCC=20,

ZCR,

CHROMA,

RMSQ,

MelSpectog

ram


Recall Negativo 0,80 0,82 0,84 0,83 0,83 0,82 0,83 0,85 0,85 0,81


Recall Positivo 0,72 0,71 0,71 0,70 0,76 0,72 0,70 0,71 0,70 0,77

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

1,00

56

Figura 18


Nota: El gráfico representa las diferentes características extraídas de la base de datos RAVDESS & TESS (audios

positivos) con aumento de datos que incluyen el audio original, efecto de ruido y estiramiento en el tono de cada uno,


investigación.

A continuación, desde la Figura 19 hasta la Figura 21 se visualizan las pruebas realizadas

con un MFCC de 13 y 20 pero manteniendo los demás extractores de características en cada audio,

se escogieron estas características por las pruebas anteriormente realizadas, debido a que, al

mostrar los resultados óptimos para los modelos, de la base de datos TESS sólo se escogieron 288

audios positivos para generar una igualdad con la base de datos RAVDESS entre audios positivos

y negativos.

MFCC = 13MFCC=13,

ZCR

MFCC=13,

ZCR ,

CHROMA

MFCC=13,

ZCR ,

CHROMA,

RMSQ

MFCC=13,

ZCR ,

CHROMA,

RMSQ,

MelSpectog

ram

MFCC = 20MFCC=20,

ZCR

MFCC=20,

ZCR,

CHROMA

MFCC=20,

ZCR,

CHROMA,

RMSQ

MFCC=20,

ZCR,

CHROMA,

RMSQ,

MelSpectog

ram


Recall Negativo 0,76 0,80 0,81 0,81 0,80 0,74 0,76 0,78 0,78 0,77


Recall Positivo 0,73 0,71 0,72 0,72 0,75 0,76 0,74 0,73 0,74 0,77

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

57

Figura 19

Clasificador SVM de la Base de Datos RAVDESS & TESS 288 Audios Positivos


& TESS (288 audios positivos) analizando un total de audios positivos = 864 y negativos = 864 con el clasificador

SVM, datos propios de la investigación.

MFCC = 13, ZCR, CHROMA,

RMSQ, MelSpectogram


RMSQ, MelSpectogram

Precisión Negativo 0,61 0,64

Recall Negativo 0,80 0,80

Precisión Positivo 0,74 0,76

Recall Positivo 0,53 0,59

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

58

Figura 20


Nota: El gráfico representa las diferentes características extraídas de la base de datos RAVDESS & TESS (288 audios

positivos) con aumento de datos que incluyen el audio original y un efecto de ruido en cada uno, analizando un total



RMSQ, MelSpectogram


RMSQ, MelSpectogram





0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

59

Figura 21



positivos) con aumento de datos que incluyen el audio original, efecto de ruido y estiramiento en el tono de cada uno,


investigación.

Para las últimas pruebas se trabajó con un MFCC de 20, por mostrar mejores resultados en

las pruebas anteriores, pero manteniendo los demás extractores de características en cada muestra

de audio, se trabajó con la base de datos RAVDESS con su total de audios tanto positivos y

negativos, en la base de datos TESS se eligieron todos los audios positivos y negativos solamente

512 para así generar una igualdad en cada categoría de positivos y negativos entre las dos bases de

datos, como se evidencia desde la Figura 22 hasta la Figura 24.


RMSQ, MelSpectogram


RMSQ, MelSpectogram





0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

60

Figura 22

Clasificador SVM de la Base de Datos RAVDESS & TESS 512 Audios Negativos


& TESS (512 audios negativos) analizando un total de audios positivos = 1376 y negativos = 1376 con el clasificador

SVM, datos propios de la investigación.

MFCC = 20,ZCR , CHROMA, RMSQ,

MelSpectogram

Precisión Negativo 0,70

Recall Negativo 0,82

Precisión Positivo 0,79

Recall Positivo 0,65

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

61

Figura 23



negativos) con aumento de datos que incluyen el audio original y un efecto de ruido en cada uno, analizando un total



MelSpectogram





0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

62

Figura 24



negativos) con aumento de datos que incluyen el audio original, efecto de ruido y estiramiento en el tono de cada uno,


investigación.

En el presente proyecto se eligieron 14 dataset, los criterios de elección fueron los

siguientes:

1. Para los dataset A, B, C, D y E; la precisión y el recall fueron valores mayores al 70%.

2. Para los siguientes dataset se consideraron todas las pruebas realizadas, de esta manera

se logró obtener una igualdad entre audios positivos y negativos, siendo factibles para

el análisis con los otros clasificadores.

A continuación, en la Tabla 10 se presentan los dataset seleccionados junto a sus

correspondientes características, para la columna cantidad se utilizó (+) para los audios positivos

y (-) para los audios negativos.


MelSpectogram





0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

63

Tabla 10

Dataset Seleccionados y sus Características

Dataset Base de datos Aumento de

Datos

Características Cantidad

A RAVDESS y

TESS

Audio original

y efecto de

ruido

MFCC = 20, ZCR,

CHROMA, RMSQ y

MelSpectogram.

(+) = 2752

(-) = 5728

B RAVDESS y

TESS (SOLO

AUDIOS

POSITIVOS)

Audio original

y efecto de

ruido

MFCC = 13, ZCR,

CHROMA, RMSQ y

MelSpectogram.

(+) = 2752

(-) = 1728

C RAVDESS y

TESS (SOLO

AUDIOS

POSITIVOS)

Audio original

y efecto de

ruido

MFCC = 20, ZCR,

CHROMA, RMSQ y

MelSpectogram.

(+) = 2752

(-) = 1728

D RAVDESS y

TESS (SOLO

AUDIOS

POSITIVOS)

Audio original

con efecto de

ruido y

estiramiento

en el tono

MFCC = 13, ZCR,

CHROMA, RMSQ y

MelSpectogram.

(+) = 4128

(-) = 2592

E RAVDESS y

TESS (SOLO

AUDIOS

POSITIVOS)

Audio original

con efecto de

ruido y

estiramiento

en el tono

MFCC = 20, ZCR,

CHROMA, RMSQ,

MelSpectogram

(+) = 4128

(-) = 2592

P RAVDESS y

TESS (288

AUDIOS

POSITIVOS)

Audio original MFCC = 13, ZCR,

CHROMA, RMSQ y

MelSpectogram.

(+) = 864

(-) = 864

Q RAVDESS y

TESS (288

AUDIOS

POSITIVOS)


CHROMA, RMSQ y

MelSpectogram.

(+) = 864

(-) = 864

R RAVDESS y

TESS (288

AUDIOS

POSITIVOS)

Audio original

y efecto de

ruido

MFCC = 13, ZCR,

CHROMA, RMSQ y

MelSpectogram.

(+) = 1728

(-) = 1728

S RAVDESS y

TESS (288

AUDIOS

POSITIVOS)

Audio original

y efecto de

ruido

MFCC = 20, ZCR,

CHROMA, RMSQ y

MelSpectogram.

(+) = 1728

(-) = 1728

64

T RAVDESS y

TESS (288

AUDIOS

POSITIVOS)

Audio original

con efecto de

ruido y

estiramiento

en el tono

MFCC = 13, ZCR,

CHROMA, RMSQ y

MelSpectogram.

(+) = 2592

(-) = 2592

U RAVDESS y

TESS (288

AUDIOS

POSITIVOS)

Audio original

con efecto de

ruido y

estiramiento

en el tono

MFCC = 20, ZCR,

CHROMA, RMSQ y

MelSpectogram.

(+) = 2592

(-) = 2592

W RAVDESS y

TESS (TODOS

LOS AUDIOS

POSITIVOS Y

512 AUDIOS

NEGATIVOS)


CHROMA, RMSQ y

MelSpectogram.

(+) = 1376

(-) = 1376

Y RAVDESS y

TESS (TODOS

LOS AUDIOS

POSITIVOS Y

512 AUDIOS

NEGATIVOS)

Audio original

y efecto de

ruido

MFCC = 20, ZCR,

CHROMA, RMSQ y

MelSpectogram.

(+) = 2752

(-) = 2752

Z RAVDESS y

TESS (TODOS

LOS AUDIOS

POSITIVOS Y

512 AUDIOS

NEGATIVOS)

Audio original

con efecto de

ruido y

estiramiento

en el tono

MFCC = 20, ZCR,

CHROMA, RMSQ y

MelSpectogram.

(+) = 4128

(-) = 4128

Nota: En la tabla se detallan los 14 dataset con las características acústicas extraídas y por cada dataset el total de

audios. La elaboración es propia y la fuente datos propios de la investigación.

Una vez definidos los dataset para identificar el EA se entrenaron los siguientes

clasificadores: ANN y RF.

Para el clasificador ANN se realizaron pruebas sobre cuantas neuronas y capas ocultas usar

en el entrenamiento de los modelos, dando los resultados que se muestran en la Tabla 11.

65

Tabla 11

Resultados de capas ocultas y neuronas en ANN

Pruebas Clase Negativo Clase Positivo

Precisión Recall Precisión Recall

Una capa oculta con 100

neuronas 0,93 0,97 0,94 0,85

Dos capas ocultas con

100 neuronas 0,94 0,97 0,94 0,86

Dos capas ocultas con

100 y 50 neuronas 0,95 0,96 0,91 0,89

Una capa oculta con la

mitad de los datos de

entrenamiento

0,95 0,94 0,88 0,9

Dos capas ocultas con la

mitad de los datos de

entrenamiento

0,96 0,95 0,9 0,91

Nota: En la tabla se detallan los resultados de la precisión y recall por cada clase definida en este estudio, con las

combinaciones entre capas ocultas con sus respectivas neuronas. La elaboración es propia y la fuente datos propios de

la investigación.

En el presente estudio para el clasificador ANN se usaron dos capas ocultas con la mitad

de los datos de entrenamiento. A continuación, en la Figura 25 se muestra el resultado del

clasificador ANN y en la Figura 26 el resultado del clasificador RF por cada dataset.

66

Figura 25

Resultados Clasificador Red Neuronal

Nota: La gráfica muestra los resultados de cada dataset seleccionado aplicando el clasificador ANN, datos propios de

la investigación.

A B C D E P Q R S T U W Y Z

Precisión Negativo 0,96 0,85 0,89 0,87 0,88 0,75 0,79 0,8 0,87 0,85 0,85 0,78 0,93 0,91

Recall Negativo 0,95 0,89 0,85 0,81 0,83 0,8 0,84 0,84 0,83 0,77 0,87 0,94 0,9 0,93

Precisión Positivo 0,9 0,92 0,9 0,88 0,89 0,8 0,84 0,83 0,83 0,79 0,87 0,93 0,9 0,93

Recall Positivo 0,91 0,89 0,92 0,92 0,93 0,75 0,79 0,79 0,87 0,87 0,85 0,75 0,94 0,9

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

67

Figura 26

Resultados Clasificador Bosques Aleatorios

Nota: La gráfica muestra los resultados de cada dataset seleccionado aplicando el clasificador RF, datos propios de la

investigación.

Población muestra

La población muestra que participó en este estudio corresponde a personas que se

encuentran dentro del rango de 26 a 64 años, de nacionalidad ecuatoriana y domiciliados

actualmente en el Ecuador. Se eligió ese rango debido a la edad de las participantes en los audios

de la Base de Datos TESS.

Para definir la población a trabajar se tomó como referencia la cantidad promedio de

personas que atienden en un consultorio de psicología siendo un total de 60 personas, luego se

procedió a contactarlas vía SMS, llamada telefónica, red de mensajería (Whatsapp y Telegram) y

correo electrónico, de las cuales 29 personas accedieron a realizar el test de psicología y

A B C D E P Q R S T U W Y Z

Precisión Negativo 0,94 0,86 0,88 0,79 0,82 0,67 0,7 0,82 0,81 0,78 0,78 0,79 0,86 0,84

Recall Negativo 0,99 0,9 0,93 0,86 0,87 0,89 0,9 0,93 0,93 0,9 0,9 0,92 0,96 0,95

Precisión Positivo 0,97 0,93 0,95 0,9 0,91 0,86 0,88 0,91 0,92 0,88 0,89 0,9 0,95 0,95

Recall Positivo 0,85 0,9 0,91 0,85 0,87 0,6 0,64 0,79 0,78 0,75 0,75 0,77 0,84 0,82

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

68

permitieron que su voz fuera grabada para el análisis correspondiente en los modelos

construidos/entrenados, como se presenta en la Tabla 12.

Tabla 12

Definición de la Población Muestra y Participantes

Población Muestra Participantes

60 29

Nota: Se detallan el total de participantes que aceptaron realizar el test de psicología. La elaboración es propia y la

fuente datos propios de la investigación.

Procesamiento y análisis

Para el procesamiento y análisis de los datos se elaboró una plantilla en una plataforma en

línea para que las personas pudieran responder el test de psicología planteado, de la manera más

natural posible, debido a que lo podían realizar desde cualquier locación.

Técnicas de recolección de datos.

Encuesta

La técnica de encuesta es notablemente aplicada como metodología de investigación,

debido a que permite conseguir y producir datos de una muestra de situaciones particulares de

características de una población o universo más extenso, del que se desea indagar, especificar,

predecir e interpretar un grupo de características de manera dinámica y eficaz (Casas Anguita et

al., 2003).

En este estudio se utilizó el test de frases incompletas de Sacks, este tiene como propósito

revelar pensamientos conscientes, preconscientes e inconscientes del participante haciendo que

responda al estímulo como mejor le parezca, sin condicionar su respuesta a un “SI” o un “NO”. El

enfoque de esta prueba queda oculto, debido a que la persona no conoce con exactitud si su

69

contestación es “correcta” o “incorrecta”, aunque suponga o incluso entienda con qué objetivo se

le aplica el test (Martínez & Ponce, 2018) .

Naturalmente, el test de frases incompletas de Sacks está compuesto por 60 preguntas que

abarcan áreas como; familia, relaciones interpersonales y conceptos de sí mismo (Sacks & Levy,

2007). Sin embargo, en este estudio se seleccionaron 18 preguntas en específico, recomendación

que fue planteada por los expertos, debido a la longitud del test original.

De esta forma se consiguió obtener información particular, emitida por los examinados,

para proceder a realizar pruebas con sus audios generados. Debido a que las respuestas de los

participantes fueron grabadas por audio, para mayor comodidad de los mismos, se utilizó la

herramienta web “JotForm” especializada en la creación de formularios en línea.

A continuación, en la Tabla 13 se enuncia la estructura que tuvo el test de frases

incompletas de Sacks.

70

Tabla 13

Estructura del Test Aplicado Sacks (18 preguntas en específico)

No. Bloque Preguntas Descripción

1 Introductorio 1. ¿Acepta que se grabe su voz para

la realización de pruebas internas?

2. Por favor ingrese un nombre y su

apellido paterno

Estas preguntas tienen el

objetivo de validar el

permiso que otorga el

participante para realizar

posteriores pruebas con

sus audios, además de

ambientarlo con el tema

del proyecto.

2 Demográfico 1. Edad

2. Elija su sexo

El propósito de las

preguntas demográficas

es segmentar y filtrar las

respuestas del público

objetivo para su

posterior análisis.

3 Psicológico 1. Siempre he querido ser…

2. Si es que yo fuera el jefe…

3. El futuro se me presenta…

4. Se que es una tontería, pero tengo

miedo de…

5. En comparación con la mayoría de

las familias la mía, es…

6. Creo que tengo capacidad para…

7. Sería muy feliz si…

8. No me gusta la gente que…

9. Hace años, yo era…

10. Mi familia me trata como…

11. Mi mayor debilidad es…

12. Mi anhelo oculto de mi vida es…

13. Algún día yo…

14. La gente que más me gusta…

15. Cuando tengo mala suerte es…

16. Mis temores me obligan a veces

a…

17. Lo que menos me gusta es…

18. Mi vida es…

La finalidad de las

preguntas seleccionadas

del test de Sacks es

evidenciar los intereses,

opiniones, miedos y

actitudes de los sujetos

que lo realizan.

Nota: La tabla presenta la estructura adaptada del test de frases incompletas de Sacks. La elaboración es propia y la

fuente datos propios de la investigación.

71

Criterios de validación de la propuesta

Análisis de datos

Para la verificación de los resultados obtenidos a través de los modelos y el criterio de

expertos, se utilizó una medida más robusta conocida como coeficiente kappa (κ) el cual establece

la relación de coincidencias examinadas sobre el total de observaciones, habiendo excluido las

coincidencias adquiridas al azar. Las clases definidas para el EA fueron: positivo (1) y negativo

(2). Al final del análisis de las pruebas de forma individual, se calculó el κ de Cohen para valorar

el acuerdo entre los expertos, en este caso profesionales en el área de psicología, y discutir los

desacuerdos. “El coeficiente kappa puede tomar valores entre -1 y +1. Mientras más cercano a +1,

mayor es el grado de concordancia inter-observador, por el contrario, mientras más cercano a -1,

mayor es el grado de discordancia inter-observador” (Landis & Koch, 1977). Se reiteró la

comparación hasta que el valor de k superó 0,6 y sea estimado con una fuerza de concordancia

considerable.

A continuación, en la Tabla 14 se puede visualizar los rangos de los coeficientes kappa y

su respectiva valoración.

Tabla 14

Rangos y Valoración del Coeficiente Kappa

Coeficiente kappa Fuerza de la concordancia

0,00 Pobre

0,01 – 0,20 Leve

0,21 – 0,40 Aceptable

0,41 – 0,60 Moderada

0,61 – 0,80 Considerable

0,81 – 1,00 Casi perfecta

Nota: Esta tabla evidencia los diferentes rangos al que puede pertenecer el coeficiente kappa además de su

ponderación. Recuperado de “The Measurement of Observer Agreement for Categorical Data” de Landis, J. Richard

y Koch, Gary G., 1977, Biometrics, Vol. 33, pp. 159-174.

72

Para la determinación del coeficiente kappa se seleccionaron 6 sujetos de forma aleatoria,

que habían realizado el test. En la

Tabla 15 se pueden visualizar los resultados obtenidos.

Tabla 15

Resultados de la Aplicación del Coeficiente Kappa

Sujeto Coeficiente kappa Fuerza de la concordancia

1 0,92 Casi perfecta

7 0,71 Considerable

17 0,78 Considerable




Nota: La tabla muestra los coeficientes kappa de cada uno de los sujetos elegidos aleatoriamente de las pruebas

realizadas con el test de Sacks, junto a su correspondiente fuerza de concordancia. La elaboración es propia y la fuente


Resultados

A continuación, desde la Figura 27 hasta la Figura 29 se presentan los resultados de los 6

sujetos valorados en el coeficiente de kappa por cada algoritmo de clasificación implementando

los 14 dataset, siendo el color amarillo positivo y el color verde negativo.

73

Figura 27

EA con el Clasificador Bosques Aleatorios

Nota: En la gráfica se visualiza el EA que identifico el clasificador RF de cada sujeto con los 14 dataset creados, datos


Figura 28

EA con el Clasificador Red Neuronal

Nota: En la gráfica se visualiza el EA que identifico el clasificador ANN de cada sujeto con los 14 dataset creados,


A A A A A A

B B B B B

B

C C C C C

C

D D D D D

D

P P P P P

P

Q Q Q Q Q

Q

R R R R R

R

S S S S S

S

T T T T T

T

U U U U U

UW

W

W W W WY

Y

Y Y

Y

YZ

Z

Z Z Z Z

0

0,5

1

1,5

2

2,5

Sujeto 1 Sujeto 7 Sujeto 17 Sujeto 22 Sujeto 23 Sujeto 28

A

A

A A

A

A

B B B

B

B BC C C C C

C

D D D D D DE E E E E

EP

P P P

P

P

Q Q Q

Q

Q

Q

R R R R R RS S S S S

S

T T T T T

T

U U U U U U

W

W

W W

W

WY

Y

Y Y

Y

YZ

Z

Z

Z

Z

Z

0

0,5

1

1,5

2

2,5


74

Figura 29

EA con el Clasificador SVM

Nota: En la gráfica se visualiza el EA que identifico el clasificador SVM de cada sujeto con los 14 dataset creados,


En la Tabla 16 se puede visualizar como representó cada algoritmo el EA de cada sujeto,

teniendo en cuenta que en ciertas ocasiones van a coincidir todos los clasificadores, para este

estudio se escogieron los dataset X – Y – Z debido que fueron los que más se asemejaron a los

resultados brindados por los expertos y son los que se escogieron para analizar a los 29 sujetos,

nos guiaremos con el clasificador de ANN como una técnica principal para identificar el EA y para

dar peso al resultado nos basaremos en los dos clasificadores restantes SVM y RF.

Los sujetos 4 y 28 se reconocieron como casos especiales, obtuvieron resultados

provenientes de los algoritmos de clasificación, diferentes a los determinados por los expertos. Por

esta razón, los expertos en el área de psicología concluyeron que hay personas que, al momento

de expresarse, no emiten o proyectan un EA en específico (positivo o negativo) y esto se debe a

que el tono de la señal de sus voces se encuentra en un estado completamente neutral. Haciendo

complicada la tarea de identificar su estado anímico.

A

A

A A

A AB B B B B BC C C C C CD D D D D DE E E E E EP P P P P PQ Q Q Q Q QR R R R R RS S S S S ST T T T T TU U U U U U

W

W

W W

W W

Y

Y

Y Y

Y Y

Z

Z

Z Z

Z Z

0

0,5

1

1,5

2

2,5


75

Tabla 16

Predicción del EA por Clasificador

Sujetos Bosques Aleatorios Red Neuronal SVM Opinión de

Expertos

Sujeto 1 Negativo Negativo Negativo Negativo

Sujeto 2 Negativo Negativo Positivo

Sujeto 3 Negativo Negativo Negativo

Sujeto 4 Negativo Igualdad Positivo



Sujeto 7 Positivo Positivo Positivo Positivo


Sujeto 9 Negativo Positivo Positivo











Sujeto 20 Positivo Negativo Negativo



Sujeto 23 Negativo Positivo Positivo Positivo





Sujeto 28 Negativo Negativo Positivo Positivo


Nota: En esta tabla se muestra el resultado de cada clasificador identificando el EA de cada sujeto con la valoración

de los expertos en sujetos escogidos al azar, datos propios de la investigación.

76

A continuación, desde la ¡Error! La autoreferencia al marcador no es válida. hasta la

Figura 35 se presentan los resultados de los 6 sujetos valorados en el coeficiente kappa, pero con

la aplicación de los tres algoritmos de clasificación tomando en cuenta los dataset seleccionados

para el análisis (W- Y- Z). La interpretación de los resultados obtenidos dependerá del criterio de

cada experto.

Figura 30

Estado de ánimo del Sujeto 1

Nota: La gráfica muestra el resultado del sujeto 1 analizado por los algoritmos de clasificación RF, ANN, SVM junto

a los dataset creados W, Y, Z, siendo identificado su EA negativo, datos propios de la investigación.

87,04%

12,96%

negativo

positivo

77

Figura 31



a los dataset creados W, Y, Z, siendo identificado su EA positivo, datos propios de la investigación.

Figura 32




36,42%

63,58%

negativo

positivo

73,46%

26,54%

negativo

positivo

78

Figura 33




Figura 34



a los dataset creados W, Y, Z, siendo identificado su EA positivo, datos propios de la investigación.

83,33%

16,67%

negativo

positivo

24,07%

75,93%

negativo

positivo

79

Figura 35




60,49%

39,51%negativo

positivo

80

CAPÍTULO IV

CONCLUSIONES Y RECOMENDACIONES

Conclusiones

• El reconocimiento de los EA de las personas a través de la voz es una tarea que presenta

dificultades en su desarrollo, por este motivo, no se puede afirmar la exactitud de los

modelos entrenados, ni asegurar al cien por ciento que reflejan el EA preciso de cada

persona.

• Para determinar el clasificador óptimo y los extractores de características más usados

se desarrolló una revisión de la literatura aplicado al reconocimiento de los EA de las

personas a través de la voz, donde se encontraron diferentes estudios en “Google

Scholar” enfocados en las emociones básicas del ser humano transmitidas mediante la

voz, en donde empleaban bases de datos de discurso emocional para su respectivo

análisis.

• Para la elección de las bases de datos adecuadas se realizó un listado de los resultados

obtenidos en la revisión literaria, encontrando colecciones de audio provenientes de

diferentes países en sus propios idiomas, las cuáles en su mayoría no eran de acceso

público o gratuitas. Por esta razón se eligieron las bases de datos: RAVDESS Y TESS

debido a que contaban con las emociones básicas que pueden presentar las personas.

81

La base de datos RAVDESS fue la más importante porque consta de audios realizados

por hombres y mujeres, característica importante para este tipo de análisis.

• Aplicar los cinco extractores de características posibilitó conseguir una notable

cantidad de datos por cada audio. En los resultados, se evidencia que utilizar estos

extractores con un mfcc de 20 da mejores resultados que utilizar un mfcc con 13

vectores acústicos.

• En la elaboración de los modelos, se corroboró que tener una cantidad equitativa en

audios con EA positivo como en audios con EA negativo genera resultados con mayor

precisión. En los dataset; P - Q - R - S - T - U, teniendo la cantidad de audios por cada

EA de forma equitativa, no se reflejaron los resultados esperados. Por esta razón se

consideró aumentar la cantidad de audios de forma proporcional por cada clase

(positivo y negativo), dando como resultado los dataset; W- Y- Z.

• El algoritmo ANN aplicado en los dataset W- Y- Z, demostró mayor exhaustividad,

precisión y exactitud durante los procesos de clasificación, etiquetado y entrenamiento

de las muestras para estructurar los modelos, en comparación a los demás algoritmos

tratados en este estudio: RF y SVM. Además, demostró mejores resultados al

compararse con los criterios de valoración expresados por los expertos en el área de

psicología.

82

Recomendaciones

• Incorporar en el proceso de reconocimiento de EA por la voz, datos adicionales como

señales fisiológicas, fotografías y tecnología biométrica. De esta forma, el análisis e

identificación de los EA podría ser más exacto y preciso con respecto a cada sujeto.

• Trabajar con la infraestructura adecuada para el tratamiento de gran cantidad de datos

y la utilización de las diferentes técnicas de aprendizaje supervisado.

• Utilizar en futuras investigaciones bases de datos de discurso emocional con audios en

español – latinoamericano aplicando los procesos de experimentación y evaluación.

Trabajos futuros

• Utilizar modelos de reconocimiento de los estados de ánimo similares a los generados

en el presente estudio para construir aplicaciones móviles o sistemas web que puedan

realizar el reconocimiento de los EA de las personas a través de la voz en tiempo real.

• Desarrollar pruebas implementando las técnicas y/o modelos utilizados en el presente

estudio con la finalidad de simular la prueba del polígrafo en personas, a través de la

voz.

83

REFERENCIAS BIBLIOGRÁFICAS

Alejandro, F. (2020). COMPARATIVO ENTRE SAS, R Y PYTHON ~ ARMILLARY.

http://armillary-geomatica.blogspot.com/2015/04/comparativo-entre-sas-r-y-python.html

Bello Ambario, V., Martínez Arroyo, M., Montero Valverde, J. A., & Hernández Bravo, J. M.

(2017). Reconocimiento de emociones a través del análisis de la voz. Memorias Del

Congreso Internacional de Investigación Academia Journals Celaya 2017.

http://www.itacapulco.net/depi/wp-content/uploads/2020/01/Memorias-Academia-Journals-

Celaya-2017-Ambario-1.pdf

Benítez, R., Escudero, G., Kanaan, S., & Rodó, D. M. (2014). Inteligencia artificial avanzada.

Editorial UOC.

https://books.google.com.ec/books?hl=es&lr=&id=eT7ABAAAQBAJ&oi=fnd&pg=PT4&d

q=inteligencia+artificial&ots=9whIh51GHo&sig=C6fHBkYQfu4HCMRlaIKHWrXbJws&r

edir_esc=y#v=onepage&q=inteligencia artificial&f=false

Betancourt, G. (2005). LAS MÁQUINAS DE SOPORTE VECTORIAL (SVMs).

https://www.researchgate.net/publication/49588125_LAS_MAQUINAS_DE_SOPORTE_V

ECTORIAL_SVMs

Bhattarai, K., Prasad, P. W. C., Alsadoon, A., Pham, L., & Elchouemi, A. (2017). Experiments

on the MFCC application in speaker recognition using Matlab. In 2017 Seventh

International Conference on Information Science and Technology (ICIST), 32–37.

https://d1wqtxts1xzle7.cloudfront.net/54068466/Experiments_on_MFCC_Application_in_S

peaker_Recognition_using_Matlab.pdf?1501989839=&response-content-

disposition=inline%3B+filename%3DExperiments_on_MFCC_Application_in_Speak.pdf&

Expires=1598285934&Signature=

84

Bisquerra Alzina, R. (2009). Psicopedagogía de las emociones. SINTESIS.

Bleda, S., Francés, J., Marini, S., & Martínez, J. J. (2012). Herramientas software para la

docencia de la señal de voz en Ingeniería Técnica de Telecomunicaciones.

https://web.ua.es/es/ice/jornadas-redes-2012/documentos/posters/246141.pdf

Bono Cabré, R. (2012). DISEÑOS CUASI-EXPERIMENTALES Y LONGITUDINALES.

Botto Tobar, M. (2014). SOA2Cloud: Un marco de trabajo para la migración de aplicaciones

SOA a Cloud siguiendo una aproximación dirigida por modelos. Universitat Politècnica de

València.

Casas Anguita, J., Repullo Labrador, J. R., & Donado Campos, J. (2003). La encuesta como

técnica de investigación. Elaboración de cuestionarios y tratamiento estadístico de los datos

(I). Atención Primaria.

http://www.unidaddocentemfyclaspalmas.org.es/resources/9+Aten+Primaria+2003.+La+En

cuesta+I.+Custionario+y+Estadistica.pdf

Cerda L, J., & Villarroel Del P., L. (2008). Evaluación de la concordancia inter-observador en

investigación pediátrica: Coeficiente de Kappa. Revista Chilena de Pediatría.

https://scielo.conicyt.cl/pdf/rcp/v79n1/art08.pdf

Corbin, J. A. (2017). Los 8 tipos de emociones (clasificación y descripción).

https://psicologiaymente.com/psicologia/tipos-de-emociones

Coryell, W. (2018, May). Introducción a los trastornos del estado de ánimo - Trastornos de la

salud mental - Manual MSD versión para público general.

https://www.msdmanuals.com/es/hogar/trastornos-de-la-salud-mental/trastornos-del-estado-

de-ánimo/introducción-a-los-trastornos-del-estado-de-ánimo

Dupuis, K., & Pichora-Fuller, M. K. (2010). Conjunto de discurso emocional de Toronto (TESS)

85

. University of Toronto. https://tspace.library.utoronto.ca/handle/1807/24487

Escolano Ruiz, F., Cazorla Quevedo, M. Á., Alfonso Galipienso, M. I., Colomina Pardo, O., &

Lozano Ortega, M. Á. (2003). Inteligencia artificial: modelos, técnicas y áreas de

aplicación. Paraninfo.

https://books.google.com.ec/books?hl=es&lr=&id=_spC6S7UfZgC&oi=fnd&pg=PP1&dq=

inteligencia+artificial&ots=sPnsNDLoCS&sig=1Alx4-

xFGkOJBxVrSC4iZJ4yyVs&redir_esc=y#v=onepage&q=inteligencia artificial&f=false

Esquivel, L. (2015). El libro de las emociones. Debolsillo.

Fernández García, P., Vallejo Seco, G., Livacic Rojas, P. E., & Tuero Herrero, E. (2014).

Validez Estructurada para una investigación cuasi-experimental de calidad. Se cumplen 50

años de la presentación en sociedad de los diseños cuasi-experimentales. Annals of

Psychology, 30(2), 756–771. https://doi.org/10.6018/analesps.30.2.166911

Flórez, E., Cardona, S., & Jordi, L. (2009). Selección de la ventana temporal en la transformada

de Fourier en tiempos cortos utilizada en el análisis de señales de vibración para determinar

planos en las ruedas de un tren. Revista Facultad de Ingeniería Universidad de Antioquia.

https://www.redalyc.org/pdf/430/43016338013.pdf

Franco Galván, C. (2017, May 4). Mel Cepstral Frequency Coefficients MFCC. Carlos, Siendo

Franco. https://francocarlos.com/2017/05/04/mel-cepstral-frequency-coefficients-mfcc/

García, M. A., Rosset, A. L., & Destéfanis, E. A. (2019). Extracción de Características en Audio

con Redes Neuronales Convolucionales. XXI Workshop de Investigadores En Ciencias de

La Computación (WICC 2019, Universidad Nacional de San Juan).

http://sedici.unlp.edu.ar/handle/10915/76982

Gass, S., & Fu, M. (2013). Machine Learning. In Encyclopedia of Operations Research and

86

Management Science (pp. 909–909). Springer US. https://doi.org/10.1007/978-1-4419-

1153-7_200425

Gorreta, D. (2015). Máquina de soporte Vectorial (SVM - Support Vector Machine).

https://dlegorreta.wordpress.com/2015/04/07/maquina-de-soporte-vectorial-svm-sopport-

vector-machine/

Gupta, S., Jaafar, J., Fatimah Wan Ahmad, W., & Bansal, A. (2013). Feature extraction using

MFCC. Signal & Image Processing: An International Journal (SIPIJ), 4(4), 101–108.

https://doi.org/10.5121/sipij.2013.4408

Haro Rivera, S., Zúñiga Lema, L., Meneses Freire, A., Vera Rojas, L., & Escudero Villa, A.

(2018). Métodos de Clasificación en Minería de Datos Meteorológicos.

http://dspace.espoch.edu.ec/bitstream/123456789/9395/1/per_n20_v2_13.pdf

Hernández, M. B., & Gómez, J. M. (2014). Análisis de Sentimientos Aplicado a Referencias

Bibliográficas. Revista Politécnica, 33(3), 1–7.

http://www.revistapolitecnica.epn.edu.ec/ojs2/index.php/revista_politecnica2/article/view/1

26

Hernández Tamayo, R., López Sánchez, M., Pérez Espinosa, H., González-Serna, G., & Patiño

Reyes, F. (2020). Caracterización De Voz Para Reconocimiento Automático De Estados

Emocionales Characterization of Voice for Automatic Recognition of Emotional States.

Informaticahabana.Cu, 2. http://www.informaticahabana.cu/sites/default/files/ponencia-

2020/CCI27.pdf

Horsford, R., & Bayarre, H. (2009). Parte II. Metodología de la Investigación Científica 1. In

Métodos y Técnicas aplicados a la Investigación en Atención Primaria de la Salud.

https://files.sld.cu/isss/files/2009/02/curso-metodologia.pdf

87

Igartua, J. J., & Humanes, M. L. (2004). El método científico aplicado a la investigación en

comunicación social. Journal of Health Communication.

https://d1wqtxts1xzle7.cloudfront.net/33548909/7.-El-metodo-

cientifico....pdf?1398351918=&response-content-

disposition=inline%3B+filename%3DEl_metodo_cientifico_aplicado_a_la_inves.pdf&Expi

res=1598165894&Signature=cHYVetShBiEmngFY9yHml7xd9svAIF91a7-

23zY1o09MaaT70jQt5pJt5-4uP~CY9~qiUebFC0xBJ90fcbVd9Iw1JoEWAagJlFhCtW-

Lw9jlJuRgrEgzkJxmsX7QZ5sCddzuFTFsLV3lawGj5DunrzbQqlDKSAb-

~q9lFMUaE7hHDLILnyu~B~3FT-

29AJ68tqsvwxpkK9VgElUDDTio0oGHQ470SighBEpGJA~Vs8v~4px7qcPnZ3Qqs2vesHr

Izqa~ifFKTuPD-

ZoKFnSkJHPrBZHRxZchdrBas24bVEZ~e8od4QuVU6EYbByI5pmfPAfAwtS6282DjVrB

B5gi4g__&Key-Pair-Id=APKAJLOHF5GGSLRBV4ZA

Jaramillo, L. V., & Antunes, A. F. (2018). Change detection in vegetation cover through

interpretation of Landsat images by artificial neural networks (ANN). case study:

Ecuadorian Amazon Region. Revista de Teledeteccion, 2018(51), 33–46.

https://doi.org/10.4995/raet.2018.8995

Kitchenham, B., Brereton, O. P., Budgen, D., Turner, M., Bailey, J., & Linkman, S. (2009).

Systematic literature reviews in software engineering – A systematic literature review.

Information and Software Technology, 51(1), 7–15.

https://doi.org/10.1016/j.infsof.2008.09.009

Lam, S. K., Pitrou, A., & Seibert, S. (2015). Numba: A LLVM-based Python JIT Compiler. In

Proceedings of the Second Workshop on the LLVM Compiler Infrastructure in HPC, 1–16.

88

https://doi.org/10.1145/2833157.2833162

Landis, J. R., & Koch, G. G. (1977). The Measurement of Observer Agreement for Categorical

Data. In Biometrics (Vol. 33, Issue 1). JSTOR. https://doi.org/10.2307/2529310

Liu, Q., & Wu, Y. (2012). Supervised Learning. In Encyclopedia of the Sciences of Learning

(pp. 3243–3245). Springer US. https://doi.org/10.1007/978-1-4419-1428-6_451

Livingstone, S. R., & Russo, F. A. (2018). The Ryerson Audio-Visual Database of Emotional

Speech and Song (RAVDESS): A dynamic, multimodal set of facial and vocal expressions

in North American English. PLOS ONE.

https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0196391

Marketing Directo. (2020). La voz, el instrumento de la emoción.

https://www.marketingdirecto.com/marketing-general/marketing/la-voz-el-instrumento-de-

la-emocion

Martinez, A. (2018, February 18). Qué es Estado de ánimo - Psicología en Positivo.

https://www.antonimartinezpsicologo.com/estado-de-animo

Martínez, A., & Ponce, J. (2018). Test De Frases Incompletas (FIS): Centro de Especialidades

Psicológicas. https://es.scribd.com/document/374694063/MANUAL-pdf

Martínez Mascorro, G. A., & Aguilar Torres, G. (2013). Reconocimiento de voz basado en

MFCC, SBC y Espectrogramas. INGENIUS, N.◦ 10, 12–20.

https://revistas.ups.edu.ec/index.php/ingenius/article/view/351

Marzal, A., & Gracia, I. (2002). Introducción a la programación con Python.

https://d1wqtxts1xzle7.cloudfront.net/54040231/Introduccion_a_la_Programacion_con_Pyt

hon.pdf?1501685376=&response-content-

disposition=inline%3B+filename%3DIntroduccion_a_la_programacion_con_Pytho.pdf&Ex

89

pires=1600920099&Signature=MRRDoLSYqTa2d2s1WbkwDPvf3t1kazumq4oW-

W6oaE0rOkx4PcNK1MI6yRCAYandcekyUh4JrkEvdTYaFf6Qnpha2-

cb5t0Bno50CbzxtIsQQ2V7BWMkO9wwr~NY115NbE9KnEhXPLgAfSUcLefbzM6BfhOF

t9FORQSXV-

TOrijnvAg6hDY0A7hSCNLeRw6Gye241IlwdLJMoxmyIeLiSCU2Dz3xVLo5FUKWqg52

ZjAxPIn8lIaqShIeI5F1BX6pCcaOKk4Z-

MhYigi2ToqDcmTXjShsHtzfWHlSpaq4ULU~TCGB5DrRH79imM2RLvEBUiIC1VVO~c

umA1y73SMGGw__&Key-Pair-Id=APKAJLOHF5GGSLRBV4ZA

Matich, D. J. (2001). Redes Neuronales: Conceptos Básicos y Aplicaciones. In Informática

Aplicada a la Ingeniería de Procesos – Orientación I.

Medina-Merino, R. F., & Ñique-Chacón, C. I. (2017). Bosques aleatorios como extensión de los

árboles de clasificación con los programas R y Python. Interfases.

http://revistas.ulima.edu.pe/index.php/Interfases/article/view/1775/1828

Miyara, F. (1999). La voz humana. Laboratorio de Acústica y Electroacústica, Escuela de

Ingeniería, Electrónica, Facultad de Ciencias Exactas, Ingeniería y Agrimensura,

Universidad Nacional de Rosario, 10. https://www.fceia.unr.edu.ar/prodivoz/fonatorio.pdf

Monroy, M. E., Arciniegas, J. L., & Rodríguez, J. C. (2016). Recuperación de Arquitecturas de

Software: Un Mapeo Sistemático de la Literatura Software Architecture Recovery: A

Systematic Mapping Study. Información Tecnológica, 27(5), 201–220.

https://doi.org/10.4067/S0718-07642016000500022

Montoro Montarroso, A. (2019). Análisis de Sentimientos para la prevención de mensajes de

odio en las Redes Sociales. Universidad de Castilla-La Mancha.

https://ruidera.uclm.es/xmlui/handle/10578/20208

90

Morán, N., Pérez, J., & Rodriguez, W. (2018). Reconocimiento de Estados Emocionales de

Personas Mediante la Voz Utilizando Algoritmos de Aprendizaje de Máquina. Sexta

Conferencia Nacional de Computación, Informática y Sistemas.

https://www.researchgate.net/publication/329311187_Reconocimiento_de_Estados_Emocio

nales_de_Personas_Mediante_la_Voz_Utilizando_Algoritmos_de_Aprendizaje_de_Maquin

a

Moreno, A., Armengol, E., Béjar, J., Belanche, L., Cortés, U., Gavaldá, R., Gimeno, J. M.,

López, B., Martín, M., & Sánchez, M. (1998). Aprendizaje automático.

www.edicionsupc.es

Moreno, B., Muñoz, M., Cuellar, J., Domancic, S., & Villanueva, J. (2018). Revisiones

Sistemáticas: definición y nociones básicas Systematic Reviews: definition and basic

notions. Revista Clínica de Periodoncia, Implantología y Rehabilitación Oral, 11(3), 184–

186. https://doi.org/10.4067/S0719-01072018000300184

Neipp López, M. del C. (2019, November 14). ¿Cómo influye el estado de ánimo en la salud?

https://theconversation.com/como-influye-el-estado-de-animo-en-la-salud-126788

Orellana Alvear, J. (2018). Árboles de decisión y Random Forest.

https://bookdown.org/content/2031/ensambladores-random-forest-parte-i.html

Páez, D., & Costa, S. Da. (2014). Regulación Afectiva (de Emociones y Estado de Ánimo) en el

Lugar de Trabajo1 Affective Regulation (of Emotions and Mood) in the Workplace. Revista

Psicologia: Organizações e Trabalho, 14(2), 190–203.

Pérez Ramírez, F. O., & Fernández Castaño, H. (2007). LAS REDES NEURONALES Y LA

EVALUACIÓN DEL RIESGO DE CRÉDITO. Revista Ingenierías Universidad de

Medellín. http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S1692-

91

33242007000100007

Petersen, K., Vakkalanka, S., & Kuzniarz, L. (2015). Guidelines for conducting systematic

mapping studies in software engineering: An update. Information and Software Technology,

64, 1–18. https://doi.org/10.1016/j.infsof.2015.03.007

Ponce, A. (2020). angeloponc/mood: modo. https://doi.org/10.5281/ZENODO.4074260

Ramm, A., Loáiciga, S., Friedrich, A., & Fraser, A. (2017). Annotating tense, mood and voice for

English, French and German. 1–6. https://doi.org/10.18653/v1/P17-4001

Rao, K. S., & Vuppala, A. K. (2014). Speech processing in mobile environments. Springer

International Publishing. https://doi.org/10.1007/978-3-319-03116-3

Sacks, J. M., & Levy, S. (2007). The Sentence Completion Test. In Projective psychology:

Clinical approaches to the total personality. (pp. 357–402). Alfred A. Knopf.

https://doi.org/10.1037/11452-011

Sáenz Bajo, N., & Álvaro Ballesteros, M. (2002). Redes neuronales: concepto, aplicaciones y

utilidad en medicina. In Atención primaria (Vol. 30). https://doi.org/10.1016/S0212-

6567(02)78981-6

Sandoval Serrano, L. J. (2018). Algoritmos de aprendizaje automático para análisis y predicción

de datos. Revista Tecnológica, 11, 36–40.

SAURA, J. R., Reyes-Menéndez, A., & Palos-Sanchez, P. (2018). Un Análisis de Sentimiento en

Twitter con Machine Learning: Identificando el sentimiento sobre las ofertas de

#BlackFriday. Revista Espacios, 39(42), 16.

Srinidhi, S. (2018). ¿Qué es la selección de funciones y por qué la necesitamos en el aprendizaje

automático? Medium. https://medium.com/@contactsunny/what-is-feature-selection-and-

why-do-we-need-it-in-machine-learning-28a28520607c

92

Victory, A., Letkiewicz, A., & Cochran, A. L. (2020). Digital solutions for shaping mood and

behavior among individuals with mood disorders. Current Opinion in Systems Biology.

https://doi.org/10.1016/j.coisb.2020.07.008

Waghmare, V., Deshmukh, R., & Shrishrimal, P. (2012). A Comparative Study of the Various

Emotional Speech Databases. International Journal on Computer Science and Engineering.

https://www.researchgate.net/publication/262791616_A_Comparative_Study_of_the_Vario

us_Emotional_Speech_Databases

Wang, S., Tang, J., & Liu, H. (2016). Feature Selection. In Encyclopedia of Machine Learning

and Data Mining (pp. 1–9). Springer US. https://doi.org/10.1007/978-1-4899-7502-7_101-1

93

Apéndice A: Bibliografía del Mapeo Sistemático

[M1] Braun, S., Annovazzi, C., Botella, C., Bridler, R., Camussi, E., Delfino, J. P., Mohr, C.,

Moragrega, I., Papagno, C., Pisoni, A., Soler, C., Seifritz, E., & Stassen, H. H. (2016).

Assessing Chronic Stress, Coping Skills, and Mood Disorders through Speech Analysis: A

Self-Assessment “Voice App” for Laptops, Tablets, and Smartphones Assessing Chronic

Stress, Coping Skills, and Mood Disorders through CSA. Psychopathology, 49(6), 406–419.

https://doi.org/10.1159/000450959

[M2] Khorram, S., Jaiswal, M., Gideon, J., Mcinnis, M., & Provost, E. M. (n.d.). The PRIORI

Emotion Dataset: Linking Mood to Emotion Detected In-the-Wild.

[M3] Ramm, A., Loáiciga, S., Friedrich, A., & Fraser, A. (2017). Annotating tense, mood and

voice for English, French and German. 1–6. https://doi.org/10.18653/v1/P17-4001

[M4] Victory, A., Letkiewicz, A., & Cochran, A. L. (2020). Digital solutions for shaping mood

and behavior among individuals with mood disorders. Current Opinion in Systems Biology.

https://doi.org/10.1016/j.coisb.2020.07.008

94

ANEXOS

Anexo 1. Planificación de actividades del proyecto

Elaboración: María Andrea Alvarado Guerrero y Angelo Joel Ponce Figueroa

Fuente: Propia.

95

Anexo 2. Fundamentación Legal

Las Normas Legales en un Proyecto de Titulación

El presente trabajo de titulación se centra en analizar técnicas de aprendizaje automático para

identificar el estado de ánimo de las personas a través de la voz, el mismo que a futuro podría dar

soporte a profesionales del área de psicología, el presente proyecto no pretende quebrantar las

leyes de la constitución, debido a que se encuentra fundamenta en la constitución, leyes y normas

como se detalla posteriormente.

ARTÍCULO DE LA

LOES CONTEXTO

ART. 1 ÁMBITO

Esta Ley regula el sistema de educación superior en el país, a los organismos e

instituciones que lo integran; determina derechos, deberes y obligaciones de las personas

naturales y jurídicas, y establece las respectivas sanciones por el incumplimiento de las

disposiciones contenidas en la Constitución y la presente Ley ARTICULO 1

ART. 2 OBJETO

Esta Ley tiene como objeto definir sus principios, garantizar el derecho a la educación

superior de calidad que propenda a la excelencia, al acceso universal, permanencia,

movilidad y egreso sin discriminación alguna.

ART. 4 DERECHO A

LA EDUCACION

SUPERIOR

a) Garantizar el derecho a la educación superior mediante la docencia, la investigación y

su vinculación con la sociedad, y asegurar crecientes niveles de calidad, excelencia

académica y pertinencia; n) Garantizar la producción de pensamiento y conocimiento

articulado con el pensamiento universal; y, ñ) Brindar niveles óptimos de calidad en la

formación

ART. 87

Como requisito previo a la obtención del título, los y las estudiantes deberán acreditar

servicios a la comunidad mediante prácticas o pasantías pre profesionales. debidamente

monitoreadas. en los campos de su especialidad, de conformidad con los lineamientos

generales definidos por el Consejo de Educación Superior.

ARTÍCULO 19.- DEL

REGLAMENTO. -

NÓMINA DE

GRADUADOS Y

NOTIFICACIÓN A

LA SENESCYT

Las instituciones de educación superior notificarán obligatoriamente a la SENESCYT la

nómina de los graduados y las especificaciones de los títulos que expida, en un plazo no

mayor de treinta días contados a partir de la fecha de graduación. (…) este será el único

medio oficial a través del cual se verificará el reconocimiento y validez del título en el

Ecuador.

ARTÍCULO 144

PRINCIPIOS

Art. 144.- Tesis Digitalizadas. - Todas las instituciones de educación superior estarán

obligadas a entregar las tesis que se elaboren para la obtención de títulos académicos de

grado y posgrado en formato digital para ser integradas al Sistema Nacional de

Información de la Educación Superior del Ecuador para su difusión pública respetando

los derechos de autor.

Elaboración: Alvarado Guerrero María Andrea y Ponce Figueroa Angelo Joel.

Fuente: Ley Orgánica de Educación Superior.

ARTÍCULO DE LA

CONSTITUCIÓN CONTEXTO

ARTÍCULO 22

Establece: las personas tienen derecho a desarrollar su capacidad creativa, al

ejercicio digno y sostenido de las actividades culturales y artísticas, y a beneficiarse

de la protección de los derechos morales y patrimoniales que les correspondan por

las producciones científicas, literarias o artísticas de su autoría.

96

ARTÍCULO 26

La educación es un derecho de las personas a lo largo de su vida y un deber

ineludible e inexcusable del Estado. Constituye un área prioritaria de la política

pública y de la inversión estatal, garantía de la igualdad e inclusión social y

condición indispensable para el buen vivir.

ARTÍCULO 28

La educación responderá al interés público y no estará al servicio de intereses

individuales y corporativos. Se garantizará el acceso universal, permanencia,

movilidad y egreso sin discriminación alguna

ARTÍCULO 350

El sistema de educación superior tiene como finalidad la formación académica y

profesional con visión científica y humanista; la investigación científica y

tecnológica; la innovación, promoción, desarrollo y difusión de los saberes y las

culturas; la construcción de soluciones para los problemas del país, en relación con

los objetivos del régimen de desarrollo

ARTÍCULO 351

El sistema de educación superior estará articulado al sistema nacional de educación

y al Plan Nacional de Desarrollo; la ley establecerá los mecanismos de coordinación

del sistema de educación superior con la Función Ejecutiva. Este sistema se regirá

por los principios de autonomía responsable, cogobierno, igualdad de

oportunidades, calidad, pertinencia, integralidad, autodeterminación para la

producción del pensamiento y conocimiento, en el marco del diálogo de saberes,

pensamiento universal y producción científica tecnológica global.

ARTÍCULO 355 primer y

segundo inciso

El Estado reconocerá a las universidades y escuelas politécnicas autonomía

académica, administrativa, financiera y orgánica, acorde con los objetivos del

régimen de desarrollo y los principios establecidos en la Constitución

ARTÍCULO 385

El sistema nacional de ciencia, tecnología, Innovación y saberes ancestrales, en el

marco del respeto al ambiente, la naturaleza, la vida, las culturas y la soberanía,

tendrá como finalidad: a) Generar, adaptar y difundir conocimientos científicos y

tecnológicos. b) Recuperar, fortalecer y potenciar los saberes ancestrales. c)

Desarrollar tecnologías e innovaciones que impulsen la producción nacional, eleven

la eficiencia y productividad, mejoren la calidad de vida y contribuyan a la

realización del buen vivir.

ARTÍCULO 386

El sistema comprenderá programas, políticas, recursos, acciones, e incorporará a

instituciones del Estado, universidades y escuelas politécnicas, institutos de

investigación públicos y privados, empresas públicas y privadas, organismos no

gubernamentales y personas naturales o jurídicas, en tanto realizan actividades de

investigación, desarrollo tecnológico, innovación y aquellas ligadas a los saberes

ancestrales. El Estado, a través del organismo competente, coordinará el sistema,

establecerá los objetivos y políticas, de conformidad con el Plan Nacional de

Desarrollo, con la participación de los actores que lo conforman.

ARTÍCULO 387

Será responsabilidad del Estado: a) Facilitar e impulsar la incorporación a la

sociedad del conocimiento para alcanzar los objetivos del régimen de desarrollo.

b) Promover la generación y producción de conocimiento, fomentar la investigación

científica y tecnológica, y potenciar los saberes ancestrales, para así contribuir a la

realización del buen vivir, al sumak kawsay. c) Asegurar la difusión y el acceso a

los conocimientos científicos y tecnológicos, el usufructo de sus descubrimientos y

hallazgos en el marco de lo establecido en la Constitución y la Ley. d) Garantizar la

libertad de creación e investigación en el marco del respeto a la ética, la naturaleza,

el ambiente, y el rescate de los conocimientos ancestrales. e) Reconocer la condición

de investigador de acuerdo con la Ley.

Elaboración: Alvarado Guerrero María Andrea y Ponce Figueroa Angelo Joel. Fuente: Ley Orgánica de Educación Superior.

97

Anexo 3. Modelo de la Encuesta




BIENVENIDA

INTRODUCTORIO

98

DEMOGRÁFICO

99

PSICOLÓGICO

100

101

102

103

104

105

106

Anexo 4. Validación de expertos.

Juicios de expertos




CATEGORIZACIÓN DE LAS EMOCIONES A ESTADO DE ÁNIMO

Para identificar el estado de ánimo marque con una (X):

TÍTULO DEL PROYECTO

RECONOCIMIENTO DE LOS ESTADOS DE

ÁNIMO DE LAS PERSONAS EMPLEANDO

TÉCNICAS DE APRENDIZAJE

AUTOMÁTICO

N° Emoción Estado de Ánimo

Positivo Negativo

1 Enojo X

2 Asco X

3 Miedo X

4 Felicidad X

5 Neutral X

6 Sorpresa X

7 Tristeza X

8 Calma X

Firmado por:

____________________________

Psic. Marcela Guerrero

C.I. N° 0953740099

107










AUTOMÁTICO


Positivo Negativo

1 Enojo X

2 Asco X

3 Miedo X

4 Felicidad X

5 Neutral X

6 Sorpresa X

7 Tristeza X

8 Calma X

Firmado por:

__________________________________

Psic. Andrea García

C.I. N° 0953661766

108










AUTOMÁTICO


Positivo Negativo

1 Enojo X

2 Asco X

3 Miedo X

4 Felicidad X

5 Neutral X

6 Sorpresa X

7 Tristeza X

8 Calma X

Firmado por:

______________________________

Psic. Hellen María Cárdenas

C.I. N° 0922317219

109




ESTADO DE ÁNIMO DEL SUJETO 1






Pregunta Estado de Ánimo

Positivo Negativo

1. ¿Siempre he querido ser? X

2. Si es que yo fuera el jefe X

3. El futuro se me presenta X

4. Se que es una tontería, pero tengo miedo de X

5. En comparación con la mayoría de las

familias la mía, es

X

6. Creo que tengo capacidad para X

7. Sería muy feliz si X

8. No me gusta la gente que X

9. Hace años, yo era X

10. Mi familia me trata como X

11. Mi mayor debilidad es X

12. Mi anhelo oculto de mi vida es X

13. Algún día yo X

14. La gente que más me gusta X

15. Cuando tengo mala suerte es X

16. Mis temores me obligan, a veces a X

17. Lo que menos me gusta es X

18. Mi vida es X

Estado de Ánimo Detectado X

Firmado por:

______________________________


C.I. N° 0953740099

110











Positivo Negativo







X













18. Mi vida es X


Firmado por:

______________________________


C.I. N° 0953740099

111











Positivo Negativo







X













18. Mi vida es X


Firmado por:

_____________________________


C.I. N° 0953740099

112











Positivo Negativo







X













18. Mi vida es X


Firmado por:

______________________________


C.I. N° 0953740099

113











Positivo Negativo







X













18. Mi vida es X


Firmado por:

______________________________


C.I. N° 0953740099

114











Positivo Negativo







X













18. Mi vida es X


Firmado por:

______________________________


C.I. N° 0953740099

115











Positivo Negativo







X













18. Mi vida es X


Firmado por:


C.I. N° 0953661766

116











Positivo Negativo







X













18. Mi vida es X


Firmado por:

______________________________


C.I. N° 0953661766

117











Positivo Negativo







X













18. Mi vida es X


Firmado por:

______________________________


C.I. N° 0953661766

118











Positivo Negativo







X













18. Mi vida es X


Firmado por:

______________________________


C.I. N° 0953661766

119











Positivo Negativo







X













18. Mi vida es X


Firmado por:

______________________________


C.I. N° 0953661766

120











Positivo Negativo







X













18. Mi vida es X


Firmado por:

______________________________


C.I. N° 0953661766

121











Positivo Negativo







X













18. Mi vida es X


Firmado por:

______________________________


C.I. N° 0922317219

122











Positivo Negativo







X













18. Mi vida es X


Firmado por:

______________________________


C.I. N° 0922317219

123











Positivo Negativo







X













18. Mi vida es X


Firmado por:

______________________________


C.I. N° 0922317219

124











Positivo Negativo







X













18. Mi vida es X


Firmado por:

______________________________


C.I. N° 0922317219

125











Positivo Negativo







X













18. Mi vida es X


Firmado por:

______________________________


C.I. N° 0922317219

126











Positivo Negativo







X













18. Mi vida es X


Firmado por:

______________________________


C.I. N° 0922317219

127

Anexo 5. Artículo científico

¿Es posible reconocer los estados de ánimo de las personas a través de

la voz?

Angelo Ponce Figueroa Andrea Alvarado Guerrero Miguel Botto-Tobar

Universidad de Guayaquil Universidad de Guayaquil Universidad de Guayaquil

Resumen

En este estudio se presenta el proceso para

identificar el estado de ánimo de las

personas a través de la voz. Se utilizaron

dos bases de datos de discurso emocional,

estas estaban constituidas por las

emociones básicas del ser humano y por

esta razón fueron reagrupadas por estado de

ánimo. Se utilizó una colección de

extractores de características acústicas a

partir de la revisión del estado del arte

generando buenos resultados en el estudio

de la voz. Para la selección de

características fueron analizados cada uno

de los conjuntos de extractores acústicos

definidos y de esta forma se generaron los

diferentes dataset. En la fase de resultados

se emplearon diversas técnicas de

aprendizaje automático para cada dataset.

Se eligieron varios dataset cuyos resultados

estuvieron más cercanos a la opinión

emitida por los expertos y de esta manera se

consiguió identificar el estado de ánimo de

las personas con mayor precisión y

exhaustividad.

I. INTRODUCCIÓN

A través del tiempo, las personas se han

adecuado a las diversas maneras de

comunicación y relación que ofrecen los

medios electrónicos en general. Estudios

recientes se enfocan en establecer una

comunicación más realista y comprensiva

entre estos medios y el ser humano. Para

lograr esto, la idea fundamental es

identificar los estados de ánimo que pueden

presentar las personas para obtener una

respuesta y reacción más acertada por parte

de los ordenadores. El reconocimiento de

los estados de ánimo de las personas es

realizado a través de características, tales

como: la voz, señales fisiológicas,

biometría, etc. Debido a que las señales de

la voz son más inmediatas y sencillas de

recibir, se reconocen como un medio

notable de adquisición de información.

Existen estudios que se basan en el análisis

de la voz para identificar las emociones de

las personas con diferentes técnicas, entre

ellas aplicando aprendizaje automático. El

análisis de la voz ha generado que se

realicen muchas investigaciones de

distintas organizaciones y/o instituciones

alrededor del mundo. Las diversas fuentes

de investigación apoyan su trabajo en el

empleo de algoritmos de aprendizaje

automático para el análisis de emociones

por la capacidad que poseen para clasificar

los audios a partir del tono de la voz y el

énfasis al pronunciar ciertas palabras

(Hernández Tamayo et al., 2020).

Los recientes estudios mencionan que por

medio de las señales de audio se pueden

obtener características representativas para

el análisis de sentimientos, tales como: los

Coeficientes Cepstrales en la Escala de Mel

(MFCC), la Tasa de cruce por cero (ZRC)

y la Transformada de Fourier de tiempo

corto (STFT).

No obstante, los diferentes estudios

emplean las técnicas mencionadas

anteriormente para el reconocimiento de

emociones por la voz, y para el

reconocimiento de los estados de ánimo

aplican test psicológicos o juegos

interactivos. Al ser un campo que continúa

en exploración no se han aplicado técnicas

específicas para el reconocimiento del

estado de ánimo en la voz.

El propósito de este estudio consiste en

identificar las técnicas de aprendizaje

automático que se usan en la actualidad

para el reconocimiento de los estados de

ánimo de las personas. Debido a que el

objetivo de esta investigación es extenso se

define la siguiente pregunta de

investigación:

RQ: ¿Los modelos de aprendizaje

automático pueden identificar el estado de

ánimo de las personas? Para contestar RQ

se ha descompuesto en sub-preguntas de

investigación más detalladas con el

objetivo de ser abordada.

SQR1: ¿Cuáles son las bases de datos que

deberían considerarse para realizar este

estudio?

SRQ2: ¿Qué características se consideran

para identificar el estado de ánimo?

SRQ3: ¿Las técnicas de aprendizaje

automático permiten identificar el estado de

ánimo?

Estas preguntas posibilitarán identificar las

técnicas de aprendizaje automático y que

artefactos son empleados para reconocer el

estado de ánimo de las personas, facilitando

el trabajo a futuras investigaciones.

II. TRABAJOS RELACIONADOS

El presente estudio se fundamenta en

consultar artículos de revistas científicas,

investigaciones de instituciones

académicas; nacionales y extranjeras,

permitiendo efectuar la revisión del estado

del arte para así obtener información de la

utilización de técnicas de aprendizaje

automático en el reconocimiento de los

estados de ánimo de las personas a través de

la voz.

Páez & Costa (2014) menciona que los EA

pueden durar horas o días “la síntesis de

meta-análisis torna posible concluir que las

estrategias que permiten mejorar el estado

de ánimo, aumentar emociones positivas y

disminuir negativas”.

Montoro Montarraso implemento técnicas

de AS, procesamiento del lenguaje natural

y lógica borrosa para definir la intensidad

del discurso de odio en las redes sociales

(Montoro Montarroso, 2019).

En la investigación de Bello Ambario et al.

(2017) la metodología que emplearon se

apoyó en la transformada rápida de Fourier

(FFT) y coeficientes de correlación de

Pearson, para el reconocimiento de

emociones estudiando fragmentos de voz,

usaron la base de datos Berlín, sin embargo

no emplearon algoritmos de clasificación.

Morán et al. (2018) basaron su estudio en el

entrenamiento de modelos de aprendizaje

automático: Máquinas de Vectores de

Soporte, Bosques Aleatorios y Aumento de

Gradiente, construyeron una base de datos

de seis emociones (ira, sorpresa, felicidad,

miedo, tristeza y asco) en condiciones

controladas y actuadas. Posteriormente,

para probar los modelos construyeron dos

bases de datos (una en condiciones

controladas y semi-naturales, y otra en

condiciones no controladas y naturales).

En el estudio de Hernández Tamayo et al. (

2020) utilizaron dos base de datos de

lenguaje emocional, una de las bases de

datos fue producida por la inducción de

emociones y la otra por emociones

actuantes. Para la extracción de

características acústicas usaron: MFCCs,

Tasa de Cruce 0 (ZCR), energía, spectral

centroid, spectral spread, entre otras. Para

los experimentos de clasificación

automática emplearon: Naïve Bayes,

Multilayer Perceptron, Máquinas de

Vectores de Soporte (SVM) y Random

Forest (RF), siendo SVM el mejor método

de clasificación por mostrar los mejores

resultados.

En la tabla I se muestran diversas bases de

datos, constituidas por muestras de audios

en idiomas determinados.

Después de realizar el estudio del arte se

concluye que para identificar el estado de

ánimo de las personas por la voz se debe

identificar las emociones que presentan

para etiquetarlas como positivas o

negativas.

III. MÉTODO DE INVESTIGACIÓN

Para realizar el análisis sobre algoritmos

para el reconocimiento del estado de ánimo

de las personas a través de la voz, son

primordiales las siguientes fases:

A. Bases de datos

Se revisaron fuentes bibliográficas sobre el

uso de bases de datos que contienen

discursos emocionales, las cuales están

conformadas por un gran volumen de

muestras de audio en idiomas específicos,

ordenadas de acuerdo a diversas

emociones, que luego se asociaron y

ordenaron en dos clases; (positivo y

negativo). A continuación, se muestran las

diferentes bases de datos obtenidas del

estudio del arte.

Tabla I

Bases de datos de discurso emocional

Base de datos Idioma Emociones

Drama corpus Mandarín Ira, asco, miedo,

felicidad, tristeza,

sorpresa, neutral.

Acted speech

corpus

Mandarín Ira, miedo,


neutral.

Danish

Emotional

Speech

Database

Danés Ira, felicidad,

tristeza, sorpresa,

neutral.

INTERFACE

Emotional

Speech

Synthesis

Database

Inglés,

Francés,

Esloveno,

Español

Ira, asco, miedo,

alegría, tristeza,

sorpresa, neutral.

Berlin

Database of

Emotional

Speech

Alemán Ira, aburrimiento,

asco, miedo,

alegría, tristeza,

neutral.

SES (Spanish

Emotional

Speech

database)

Español Ira, felicidad,

tristeza, sorpresa,

neutral.

RAVDESS

(The Ryerson

Audio-Visual

Database of

Emotional

Speech and

Song)

Inglés Neutral, calma,


enojo, miedo, asco

y sorpresa.

TESS

(Toronto

emotional

speech set)

Inglés Miedo, sorpresa,

tristeza, enojo,

disgusto, felicidad

y neutral.

Para responder la pregunta SQR1 se

consideraron las siguientes bases de datos:

la base de datos RAVDESS (The Ryerson

Audio-Visual Database of Emotional

Speech and Song), incluye 1440 archivos

de audio en formato wav, con la

intervención de 24 actores profesionales

(12 mujeres, 12 hombres), que manifiestan

dos declaraciones léxicamente

incorporadas en un acento neutral del

idioma inglés. Las emociones que

comprende son: neutral, calma, felicidad,

tristeza, enojo, miedo, asco y sorpresa. Por

otra parte, la base de datos TESS (Toronto

emotional speech set) está compuesta por la

participación de 2 actrices (de 26 y 64 años

de edad) emitiendo un conjunto de 200

palabras en idioma inglés y expresando

siete diferentes emociones; miedo,

sorpresa, tristeza, enojo, disgusto, felicidad

y neutral. Formando un total de 2800

archivos de audio en formato wav.

Sin embargo, estas bases de datos contienen

muestras de audio en idioma inglés y cada

audio está clasificado por la emoción

interpretada por el actor, por tal motivo se

clasificaron nuevamente estas bases de

datos fundamentadas en el juicio de

expertos del área de psicología según su

correspondiente estado de ánimo (positivo

y negativo). En la tabla II se presentan los

resultados de esta recategorización.

Tabla II

Categorización según expertos de las

emociones a estado de ánimo

Emoción Estado de ánimo

Enojo Negativo

Asco Negativo

Miedo Negativo

Felicidad Positivo

Neutral Negativo

Sorpresa Positivo

Tristeza Negativo

Calma Positivo

B. Extractores de características

Para esta investigación se siguieron las

recomendaciones de (Bello Ambario et al.,

2017), (Hernández Tamayo et al., 2020) y

(Morán et al., 2018).

1. MFCC

Coeficientes Cepstrales en la Escala

de Mel (MFCC), es la técnica de

extracción de características más

utilizada para el reconocimiento de

la voz (Martínez Mascorro &

Aguilar Torres, 2013).

En la figura X, se muestra el

proceso para la extracción de

características de un vector MFCC

Figura I: Extractor de características MFCC

Para la extracción de los MFCC en cada

audio se siguieron los pasos que se detallan

a continuación:

a) Pre-énfasis: se usa para que la señal

pase por un filtro que enfatiza las

frecuencias altas, lo que permite

obtener un equilibrio en el espectro

del sonido para obtener más

información en la señal, se usa la

siguiente función:

𝐻(𝑧) = 1 − 𝑏𝑧−1

Donde b controla la pendiente del

filtro y los valores pueden estar

entre 0,4 y 1 (Rao & Vuppala, 2014)

b) Hamming: se debe examinar en

segmentos cortos de tiempo la

ventana de Hamming para así

obtener características acústicas

más estables, la siguiente ecuación

representa la función Hamming:

𝑊𝑛(𝑚) = 0.54 − 0.46 𝐶𝑜𝑠 ( 2𝜋𝑚

(𝑁𝑚 − 1)) , 0 < 𝑚 < 𝑁𝑚 − 1

Donde 𝑊𝑛(𝑚) = Hamming

𝑁𝑚 = número de nuestras en cada trama

La señal de entrada (Xm) se

multiplica con la función de la

ventada Hamming Wn (M) para

obtener la señal de salida Y(m).

𝑌(𝑚) = 𝑋(𝑚) ∗ 𝑊𝑛(𝑚)

c) Transformada de Fourier Discreta

(DFT): se obtiene el DFT de cada

trama con la siguiente ecuación

donde N representa el número de

puntos que se utilizan para calcular

el DFT:

𝐷𝑘 = ∑ 𝐷𝑚

𝑁𝑚−1

𝑚=0𝑒

−𝑗2𝜋𝑘𝑚𝑁𝑚

d) Banco de filtros de Mel: la señal

DFT pasa por un conjunto de filtros

que es conocido como banco de

filtros de Mel para que se adapte a

las frecuencias de las propiedades

auditivas humanas. Se debe

convertir la frecuencia (f) física en

frecuencia Mel con la siguiente

ecuación:

𝑓𝑚𝑒𝑙 = 2595 𝑙𝑜𝑔10 (1 + 𝑓

700)

e) Logaritmo de la señal transformada:

se calcula el logaritmo de

frecuencia en la escala de Mel

elevada al cuadrado, para que la

frecuencia sea menos sensible ante

posibles variaciones.

f) Transformada de Coseno Discreta

(DCT): la salida que se genera se

conoce como MFCC (Gupta et al.,

2013).

𝐶𝑛 = ∑ (log 𝐷𝑘) cos [𝑚 (𝑘 − 1

2)

𝜋

𝑘]

𝑘

𝑘−1

Donde m = el número de

coeficientes

2. Zero Cross Rate (ZRC)

Son cambios de signo de la señal a

lo largo del tiempo, es decir, calcula

la frecuencia cuando la señal de voz

pasa por el nivel cero durante el

segmento que se esté analizando

(Bleda et al., 2012). La siguiente

ecuación es para calcular el ZRC:

𝑍𝐶𝑅 = 1

𝑇−1∑ 𝑠𝑖𝑔 (𝑥𝑚 ∗ 𝑥𝑚+1)𝑚= 𝑇−1

𝑚=0

Donde T es la frecuencia de

muestreo y:

𝑠𝑖𝑔(𝑥) = { 0 𝑖𝑓 𝑥 > 01 𝑖𝑓 𝑥 < 0

es la función

indicadora.

3. Transformada de Fourier de tiempo

corto (STFT)

Se divide la señal en el dominio del

tiempo con señales de menor

duración, para calcular el STFT se

usa la siguiente ecuación:

𝑋(𝑚, 𝑘) = ∑ 𝑥 (𝑛 + 𝑚𝐻) 𝑤

𝑁−1

𝑛=0

(𝑛) exp(−2𝜋𝑖𝑘𝑛/𝑛)

Donde:

x: ℤ → ℝ señal discreta de valor real.

𝑤: [0 ∶ 𝑁 − 1] → ℝ una ventana

de tiempo discreta de longitud 𝑁 ∈ ℕ

𝐻 ∈ ℕ parámetro de tamaño de salto.

𝐾 = 𝑁/2 es el índice de frecuencia

correspondiente a la frecuencia de

Nyquist.

S 𝑋(𝑚, 𝑘) coeficiente de Fourier para el

índice de frecuencia 𝐾 ∈ [0 ∶ 𝐾] y marco

de tiempo 𝑚 ∈ ℤ

Para la extracción de características en cada

audio se crearon scripts en Python usando

la librería librosa:

a) librosa.feature.mfcc

b) librosa.feature.zero_crossing_rate

c) librosa.feature.chroma_stft

d) librosa.feature.rms

e) librosa.feature.melspectrogram

C. Entrenamiento

Se crearon modelos para identificar el

estado de ánimo de las personas a través de

la voz, usando las técnicas de aprendizaje

automático: SVM, bosques aleatorios, red

neuronal. Estos modelos fueron entrenados

con el 80% de los datos de audios y el 20%

restante fue dirigido para los test. En la

figura II se detalla el proceso de

clasificación para obtener el estado de

ánimo de las personas:

Figura II: Proceso de Clasificación.

Para las pruebas de entrenamiento se

consideró lo siguiente por cada base de

datos y por cada extractor de

características:

a) Se creó un dataset por cada

extractor de características,

aplicando las siguientes

combinaciones: mfcc, mfcc con

zcr, mfcc con zcr y stft, mfcc con

zcr con stft y rms, mfcc con zcr con

stft con rms y melspectrogram,

b) Se hicieron pruebas con MFCC de

13 y 20 vectores acústicos aplicado

en el punto anterior.

c) Se combinaron las bases de Datos

RAVDESS y TESS con el total de

los audios de ambas bases para

generar más volumen en la

extracción de características, sin

embargo, con esta combinación se

obtuvieron más audios negativos

que positivos.

d) Se combino la base de datos

RAVDESS con el total de sus

audios, y de TESS solo se

escogieron los audios positivos

para así contar con más audios

positivos y notar alguna diferencia

con el punto anterior.

e) En la siguiente combinación solo se

escogieron 288 audios positivos de

la base de datos TESS para generar

una igualdad con todos los audios

de la base de datos RAVDESS, y se

escogieron los cinco extractores de

características utilizando MFCC de

13 y de 20 vectores acústicos.

f) Para las siguientes pruebas se

trabajó con los cinco extractores de

características, pero solo se utilizó

el extractor MFCC de 20 vectores

acústicos, de la base de datos

RAVDESS se consideraron todos

los audios y de la base de datos

TESS se eligieron todos los audios

positivos, y negativos solo se

consideraron 512 audios, con el

objetivo de generar una igualdad

entre las dos bases de datos.

g) Para las pruebas realizadas en los

puntos anteriores se implementó

aumento en los datos, siendo: el

audio original, el audio original con

un efecto de ruido, audio original

con efecto de ruido y estiramiento

en el tono de cada audio.

La tabla III muestra los dataset

seleccionados con las características que se

aplicaron, para la columna cantidad se

utilizó (+) para audios positivos y (-) para

audios negativos. y en la columna

características se incluyó aumentos de

datos siendo: audio original (1), efecto de

ruido (2), estiramiento en el tono (3) y los

extractores acústicos.

Tabla III

Resultados de combinaciones de las

características acústicas

DataSet Base de

datos Características

Cantidad

A RAVDESS y

TESS

MFCC = 20, ZCR,

CHROMA, RMSQ y

MelSpectogram.

(+) = 2752

(-) = 5728

B RAVDESS y

TESS (SOLO

AUDIOS

POSITIVOS)

MFCC = 13, ZCR,

CHROMA, RMSQ Y

MELSPECTOGRAM

(+) = 2752

(-) = 1728

C RAVDESS y

TESS (SOLO

AUDIOS

POSITIVOS)

MFCC = 20, ZCR,

CHROMA, RMSQ y

MELSPECTOGRAM

(+) = 2752

(-) = 1728

D RAVDESS y

TESS (SOLO

AUDIOS

POSITIVOS)

MFCC = 13, ZCR,

CHROMA, RMSQ y

MELSPECTOGRAM

(+) = 4128

(-) = 2592

E RAVDESS y

TESS (SOLO

AUDIOS

POSITIVOS)

MFCC = 20, ZCR,

CHROMA, RMSQ,

MELSPECTOGRAM

(+) = 4128

(-) = 2592

P RAVDESS y

TESS (288

AUDIOS

POSITIVOS)

MFCC = 13, ZCR,

CHROMA, RMSQ y

MELSPECTOGRAM

(+) = 864

(-) = 864

Q RAVDESS y

TESS (288

AUDIOS

POSITIVOS)

MFCC = 20, ZCR,

CHROMA, RMSQ y

MELSPECTOGRAM.

(+) = 864

(-) = 864

R RAVDESS y

TESS (288

AUDIOS

POSITIVOS)

MFCC = 13, ZCR,

CHROMA, RMSQ y

MELSPECTOGRAM.

(+) = 1728

(-) = 1728

S RAVDESS y

TESS (288

AUDIOS

POSITIVOS)

MFCC = 20, ZCR,

CHROMA, RMSQ y

MELSPECTOGRAM.

(+) = 1728

(-) = 1728

T RAVDESS y

TESS (288

AUDIOS

POSITIVOS)

MFCC = 13, ZCR,

CHROMA, RMSQ y

MELSPECTOGRAM

(+) = 2592

(-) = 2592

U RAVDESS y

TESS (288

AUDIOS

POSITIVOS)

MFCC = 20, ZCR,

CHROMA, RMSQ y

MELSPECTOGRAM.

(+) = 2592

(-) = 2592

W RAVDESS y

TESS

(TODOS LOS

AUDIOS

POSITIVOS Y

512 AUDIOS

NEGATIVOS)

MFCC = 20, ZCR,

CHROMA, RMSQ y

MELSPECTOGRAM.

(+) = 1376

(-) = 1376

Y RAVDESS y

TESS

(TODOS LOS

AUDIOS

POSITIVOS Y

512 AUDIOS

NEGATIVOS)

MFCC = 20, ZCR,

CHROMA, RMSQ y

MELSPECTOGRAM.

(+) = 2752

(-) = 2752

Z RAVDESS y

TESS

(TODOS LOS

MFCC = 20, ZCR,

CHROMA, RMSQ y

MELSPECTOGRAM.

(+) = 4128

(-) = 4128

AUDIOS

POSITIVOS Y

512 AUDIOS

NEGATIVOS)

Para evaluar cada dataset se tomó como

referencia la cantidad promedio de

personas que asisten a un consultorio de

psicología dando como resultado 60

personas, luego se procedió a contactarlos

via correo electrónico y aplicaciones de

mensajería como Telegram, Whatsapp, de

las cuales 29 personas accedieron a realizar

un test de psicología y permitieron que se

voz fuera grabada.

Encuesta

La técnica de encuesta es aplicada como

metodología de investigación, por lo que

permite conseguir y producir datos con

características particulares de una

población o universo, del que se desea

indagar (Casas Anguita et al., 2003).

Se elaboro un formulario web en

“JotFrom”, con el test de frases incompletas

de Sacks, que tiene el propósito de revelar

pensamientos conscientes, preconscientes e

inconscientes del participante, sin

condicionar su respuesta a un “SI” o un

“NO”, donde las personas pudieran

responder a través de audios de voz, siendo

así las respuestas lo más natural, debido que

podían ser respondidas desde cualquier

localidad.

El test de frases incompletas está

compuesto por 60 preguntas que abarcan

áreas como: familia, relaciones

interpersonales y conceptos de si mismo

(Sacks & Levy, 2007). Para este estudio se

escogieron 18 preguntas en específico,

recomendación que fue planteada por los

expertos en el área de psicología, debido a

la longitud del test original.

En la tabla se encuentra la estructura que

tuvo el test de frases incompletas.

A continuación, se encuentra la estructura

que tuvo el test de frases incompletas.

Introductorio. - Estas preguntas tienen el

objetivo de validar el permiso que otorga el

participante para realizar posteriores

pruebas con sus audios, además de

ambientarlo con el tema del proyecto.

1. ¿Acepta que se grabe su voz para la

realización de pruebas internas?


apellido paterno

Demográfico. - El propósito de estas

preguntas demográficas es segmentar y

filtrar las respuestas del público objetivo

para su posterior análisis.


apellido paterno

2. Elija su sexo

Psicológico. - La finalidad de las preguntas

seleccionadas del test de Sacks es

evidenciar los intereses, opiniones, miedos

y actitudes de los sujetos que lo realizan.

1. Siempre he querido ser…

2. Si es que yo fuera el jefe…

3. El futuro se me presenta…

4. Se que es una tontería, pero tengo

miedo de…

5. En comparación con la mayoría de

las familias la mía, es…

6. Creo que tengo capacidad para…

7. Sería muy feliz si…

8. No me gusta la gente que…

9. Hace años, yo era…

10. Mi familia me trata como…

11. Mi mayor debilidad es…

12. Mi anhelo oculto de mi vida es…

13. Algún día yo…

14. La gente que más me gusta…

15. Cuando tengo mala suerte es…

16. Mis temores me obligan a veces a…

17. Lo que menos me gusta es…

18. Mi vida es…

IV. RESULTADOS

Para la verificación de los resultados

obtenidos en cada modelo y el criterio de

los expertos, se utilizó una medida robusta

conocida como coeficiente kappa (k) donde

establece la relación de las coincidencias

examinadas sobre el total de observaciones,

las clases definidas para el EA fueron:

positivo (1) y negativo (2).

“El coeficiente kappa puede tomar valores

entre -1 y +1. Mientras más cercano a +1,

mayor es el grado de concordancia inter-

observador, por el contrario, mientras más

cercano a -1, mayor es el grado de

discordancia inter-observador” (Landis &

Koch, 1977).

En la tabla IV se detallan el rango de los

coeficientes kappa con su respectiva

valoración.

Tabla IV

Rangos y Valoración del Coeficiente

Kappa

Coeficiente

kappa

Fuerza de la

concordancia

0,00 Pobre

0,01 – 0,20 Leve

0,21 – 0,40 Aceptable

0,41 – 0,60 Moderada

0,61 – 0,80 Considerable

0,81 – 1,00 Casi perfecta

Se seleccionaron 6 sujetos de forma

aleatoria, que habían realizado el test,

dando los siguientes resultados.

Tabla V

Resultados de la Aplicación del Coeficiente

Kappa

Sujeto Coeficiente

kappa

Fuerza de la

concordancia

1 1 Casi perfecta

7 0,72 Considerable




28 1 Casi perfecta

Para poder responder las preguntas de

investigación propuestas se consideraron el

análisis y los resultados obtenidos en

nuestro estudio.

RQ: ¿Los modelos de aprendizaje

automático pueden identificar el estado

de ánimo de las personas?

Recuerde que para responder RQ, lo

dividimos en SQR1 – SQR3, habiendo ya

respondido SQR1.

Para responder estas preguntas se

consideraron los 6 sujetos valorados con el

coeficiente kappa siendo clasificado por los

algoritmos RF, ANN, SVM con los 14

modelos creados. A continuación, se

muestran los resultados obtenidos siendo el

color verde un estado de ánimo negativo y

el amarillo un estado de ánimo positivo.

Figura 1 Resultados RF

Figura 2 Resultado Red Neuronal

Figura 3 Resultados SVM

Con los resultados obtenidos en los

clasificadores por cada dataset se puede

concluir que W – Y – Z, se asemejaron en

mayor cantidad a la opinión de los expertos.

De esta forma, para responder la SQR2 se

considera usar los cinco extractores de

características con un MFCC de 20 vectores

acústicos, por los resultados obtenidos.

En la tabla X se puede visualizar el

resultado de cada algoritmo identificando el

EA de los 29 sujetos, escogiendo los dataset

X – Y – Z, teniendo el clasificador ANN

como técnica principal para identificar el

EA y los clasificadores SVM y RF como

técnicas de apoyo para realizar una

comparativa y otorgar un EA más cercano

a la realidad siendo (N) negativo y (P)

positivo.

Sujetos RF ANN SVM Opinión

Expertos

1 N N N N

2 N N P

3 N N N

4 N Igualdad P

5 N N N

6 N N P

7 P P P P

8 N N N

9 N P P

10 N N P

11 N N N

12 N N N

13 N P P

14 N P P

15 N P P

16 N N N

17 N N N N

18 N N N

19 N N N

20 P P P

21 N N N

22 N N N N

23 N P P P

24 N P P

25 N N P

26 N N P

27 N P P

28 N N P P

29 N P P

Las técnicas de aprendizaje automático

usadas son: ANN, RF y SVM las cuales

permitieron identificar el estado de ánimo

de los 29 sujetos evaluados en el presente

estudio dando así respuesta a la SQR3

A continuación, se presentan el resultado de

los 6 sujetos valorados por los expertos en

el coeficiente kappa, agrupando los dataset

(W-Y-Z) con la implementación de los tres

clasificadores

Sujetos Positivo Negativo

1 12,96% 87,04%

7 63,58% 36,42%

17 26,54% 73,46%

22 16,67% 83,33%

23 75,93% 24,07%

28 39,51% 60,49%

V. CONCLUSIONES

Para establecer el clasificador más

adecuado y los extractores de

características más utilizados se realizó un

estudio de la literatura dirigido al

reconocimiento de los estados de ánimo de

las personas a través de la voz, donde se

encontraron diferentes investigaciones en el

gestor de búsquedas académicas “Google

Scholar” orientadas a las emociones

generales del ser humano emitidas por

medio de la voz, en las cuales manejaban

bases de datos de discurso emocional para

su respectivo examen.

Para la selección de las bases de datos

apropiadas se listaron los resultados

conseguidos en la revisión literaria,

encontrando conjuntos de audio

procedentes de diferentes países en sus

respectivos idiomas, las cuales en su

mayoría no eran de acceso público o

gratuitas. Por este motivo se seleccionaron

las bases de datos: RAVDESS Y TESS

debido a que estaban constituidas por las

emociones básicas que pueden expresar las

personas. La base de datos RAVDESS fue

la más notable porque contiene audios

realizados por hombres y mujeres,

característica importante para este tipo de

estudios.

Trabajar con los cinco extractores de

características permitió adquirir una gran

cantidad de datos por cada audio. En los

resultados, se demuestra que aplicar estos

extractores con un mfcc de 20 da resultados

más óptimos que utilizar un mfcc con 13

vectores acústicos.

El algoritmo Redes Neuronales

implementado en los modelos W- Y- Z,

demostró mayor exhaustividad, precisión y

exactitud en los procesos de clasificación,

etiquetado y entrenamiento de las muestras

para constituir los modelos, en

comparación a los demás algoritmos

aplicados en esta investigación: Bosques

aleatorios y Máquinas de vectores de

soporte (SVM). Además, presentó

resultados destacados al compararse con los

juicios de evaluación manifestados por los

expertos en el área de psicología.

El reconocimiento de los estados de ánimo

de las personas a través de la voz es un

trabajo que presenta inconvenientes en su

ejecución, por esta razón, no se puede

certificar la exactitud de los modelos

entrenados, ni avalar al cien por ciento que

evidencian el estado de ánimo preciso de

cada persona.

VI. REFERENCIAS

Bello Ambario, V., Martínez Arroyo, M.,

Montero Valverde, J. A., &

Hernández Bravo, J. M. (2017).

Reconocimiento de emociones a

través del análisis de la voz.

Memorias Del Congreso

Internacional de Investigación

Academia Journals Celaya 2017.

http://www.itacapulco.net/depi/wp-

content/uploads/2020/01/Memorias-

Academia-Journals-Celaya-2017-

Ambario-1.pdf

Bleda, S., Francés, J., Marini, S., &

Martínez, J. J. (2012). Herramientas

software para la docencia de la señal

de voz en Ingeniería Técnica de

Telecomunicaciones.

https://web.ua.es/es/ice/jornadas-

redes-

2012/documentos/posters/246141.pdf

Casas Anguita, J., Repullo Labrador, J. R.,

& Donado Campos, J. (2003). La

encuesta como técnica de

investigación. Elaboración de

cuestionarios y tratamiento estadístico

de los datos (I). Atención Primaria.

http://www.unidaddocentemfyclaspal

mas.org.es/resources/9+Aten+Primari

a+2003.+La+Encuesta+I.+Custionari

o+y+Estadistica.pdf

Gupta, S., Jaafar, J., Fatimah Wan Ahmad,

W., & Bansal, A. (2013). Feature

extraction using MFCC. Signal &

Image Processing: An International

Journal (SIPIJ), 4(4), 101–108.

https://doi.org/10.5121/sipij.2013.440

8

Hernández Tamayo, R., López Sánchez,

M., Pérez Espinosa, H., González-

Serna, G., & Patiño Reyes, F. (2020).

Caracterización De Voz Para

Reconocimiento Automático De

Estados Emocionales

Characterization of Voice for

Automatic Recognition of Emotional

States. Informaticahabana.Cu, 2.

http://www.informaticahabana.cu/site

s/default/files/ponencia-

2020/CCI27.pdf

Landis, J. R., & Koch, G. G. (1977). The

Measurement of Observer Agreement

for Categorical Data. In Biometrics

(Vol. 33, Issue 1). JSTOR.

https://doi.org/10.2307/2529310

Martínez Mascorro, G. A., & Aguilar

Torres, G. (2013). Reconocimiento de

voz basado en MFCC, SBC y

Espectrogramas. INGENIUS, N.◦ 10,

12–20.

https://revistas.ups.edu.ec/index.php/i

ngenius/article/view/351

Montoro Montarroso, A. (2019). Análisis

de Sentimientos para la prevención

de mensajes de odio en las Redes

Sociales. Universidad de Castilla-La

Mancha.

https://ruidera.uclm.es/xmlui/handle/1

0578/20208

Morán, N., Pérez, J., & Rodriguez, W.

(2018). Reconocimiento de Estados

Emocionales de Personas Mediante la

Voz Utilizando Algoritmos de

Aprendizaje de Máquina. Sexta

Conferencia Nacional de

Computación, Informática y

Sistemas.

https://www.researchgate.net/publicat

ion/329311187_Reconocimiento_de_

Estados_Emocionales_de_Personas_

Mediante_la_Voz_Utilizando_Algorit

mos_de_Aprendizaje_de_Maquina

Páez, D., & Costa, S. Da. (2014).

Regulación Afectiva (de Emociones y

Estado de Ánimo) en el Lugar de

Trabajo1 Affective Regulation (of

Emotions and Mood) in the

Workplace. Revista Psicologia:

Organizações e Trabalho, 14(2),

190–203.

Rao, K. S., & Vuppala, A. K. (2014).

Speech processing in mobile

environments. Springer International

Publishing.

https://doi.org/10.1007/978-3-319-

03116-3

Sacks, J. M., & Levy, S. (2007). The

Sentence Completion Test. In

Projective psychology: Clinical

approaches to the total personality.

(pp. 357–402). Alfred A. Knopf.

https://doi.org/10.1037/11452-011

Documents

UNIVERSIDAD DE GUAYAQUILrepositorio.ug.edu.ec/bitstream/redug/49491/1/B-CISC-PTG... · 2020. 11. 5. · Físicas de la Universidad de Guayaquil, previo a la obtención del Título