universidad de guayaquilrepositorio.ug.edu.ec/bitstream/redug/49491/1/b-cisc-ptg... · 2020. 11....
Post on 16-Aug-2021
2 Views
Preview:
TRANSCRIPT
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS
COMPUTACIONALES
RECONOCIMIENTO DE LOS ESTADOS DE ÁNIMO DE LAS
PERSONAS EMPLEANDO TÉCNICAS DE APRENDIZAJE
AUTOMÁTICO
PROYECTO DE TITULACIÓN
Previa a la obtención del Título de:
INGENIERO EN SISTEMAS COMPUTACIONALES
AUTORES:
ALVARADO GUERRERO MARÍA ANDREA
PONCE FIGUEROA ANGELO JOEL
TUTOR:
ING. MIGUEL BOTTO TOBAR, M.SC.
GUAYAQUIL – ECUADOR
2020
II
REPOSITORIO NACIONAL EN CIENCIAS Y TECNOLOGÍAS
FICHA DE REGISTRO DE TRABAJO DE TITULACIÓN
TÍTULO: “RECONOCIMIENTO DE LOS ESTADOS DE ÁNIMO DE LAS PERSONAS
EMPLEANDO TÉCNICAS DE APRENDIZAJE”
AUTOR(ES):
María Andrea Alvarado Guerrero
Angelo Joel Ponce Figueroa
REVISOR:
Angel Cuenca Ortega, M. Sc.
INSTITUCIÓN: Universidad de
Guayaquil
FACULTAD: Ciencias Matemáticas y Físicas
CARRERA: Ingeniería en Sistemas Computacionales
FECHA DE PUBLICACIÓN: N° DE PAGS: 151
AREA TEMÁTICA: Investigación
PALABRAS CLAVES: estado de ánimo, voz, redes neuronales, máquinas de vectores de
soporte, bosques aleatorios, personas, modelos, análisis.
RESUMEN: La existencia de plataformas digitales que identifiquen el estado de ánimo de las
personas es muy limitada, en cuanto al estudio de la voz. El propósito de este estudio es
determinar algoritmos de aprendizaje automático que faciliten identificar el estado anímico de
las personas a través de la voz. La metodología está fundamentada en el método científico
debido a que posibilitó inspeccionar, indagar y examinar, todo tipo de resultados e
investigaciones para la obtención de modelos innovadores que se justificarán en pruebas
controladas y monitoreadas. Se utilizaron dos bases de datos de discurso emocional, que estaban
constituidas por las emociones básicas del ser humano y por esta razón fueron etiquetadas por
estados de ánimo. Además, se utilizaron extractores de características acústicas para identificar
la intensidad en el tono de la voz, generando14 dataset. Se evaluaron a 29 personas, haciendo
uso del test de Sacks que es aplicado en el área de psicología en donde se eligieron 6 sujetos
aleatoriamente para interpretar su estado anímico por parte de los expertos en el área de
psicología, siendo validados por medio de los coeficientes kappa y permitieron reducir la
cantidad de dataset. Para la clasificación, se implementaron las técnicas de aprendizaje
automático: ANN, RF y SVM, obteniendo mejores resultados con el clasificador ANN.
N° DE REGISTRO: N° DE CLASIFICACIÓN:
DIRECCIÓN URL: (PROYECTO DE TITULACION EN LA WEB)
ADJUNTO PDF SI X NO
CONTACTO CON AUTORES:
María Andrea Alvarado Guerrero
Angelo Joel Ponce Figueroa
Teléfono:
0983326570
0967861317
Email:
maria.alvaradogu@ug.edu.ec
angelo.poncef@ug.edu.ec
CONTACTO DE LA INSTITUCIÓN Nombre: Ab. Juan Chávez Atocha
Teléfono: 2307729
Email: juan.chaveza@ug.edu.ec
III
APROBACIÓN DEL TUTOR
En mi calidad de Tutor del Trabajo de Titulación, “RECONOCIMIENTO DE LOS ESTADOS
DE ÁNIMO DE LAS PERSONAS EMPLEANDO TÉCNICAS DE APRENDIZAJE
AUTOMÁTICO” elaborado por los Srs.
Alvarado Guerrero María Andrea y Ponce Figueroa Angelo Joel, estudiantes no titulados de
la Carrera de Ingeniería en Sistemas Computacionales, Facultad de Ciencias Matemáticas y
Físicas de la Universidad de Guayaquil, previo a la obtención del Título de Ingeniero(a) en
Sistemas Computacionales, me permito declarar que luego de haber orientado, estudiado y
revisado, la apruebo en todas sus partes.
Atentamente
Ing. Miguel Botto Tobar, M.Sc.
TUTOR
IV
DEDICATORIA
Con todo cariño dedico el presente trabajo
de titulación a Dios, gracias a él he logrado
concluir con perseverancia mi carrera. A
mi familia, en especial a mis padres Xavier
y Mónica, a mi hermana María de los
Ángeles, y mis tías Marcela y Gabriela,
porque siempre estuvieron a mi lado
brindándome su apoyo y consejos para
hacer de mí una mejor persona y son la
motivación de mi vida.
En memoria a mis amados abuelitos
Manuel, Jorge, Leticia y Rosa, por ser
ejemplo en vida de lealtad, sabiduría,
humildad, sacrificio y amor.
María Andrea Alvarado Guerrero
V
DEDICATORIA
El presente trabajo de titulación se lo
dedico a Dios, por guiarme con
inteligencia y sabiduría a lo largo de mi
carrera. A mi mamá Sebastiana por
siempre estar a mi lado brindándome su
apoyo incondicional y alentarme en
alcanzar mis objetivos.
Angelo Joel Ponce Figueroa
VI
AGRADECIMIENTO
Al concluir una etapa maravillosa de mi
vida quiero extender un profundo
agradecimiento a quienes hicieron
posible este sueño, aquellos que siempre
fueron inspiración, apoyo y fortaleza para
seguir adelante día a día; Dios, mis
padres, mi hermana, mis amigos, mis
docentes y mi tutor de tesis.
Cada uno de los momentos vividos
durante todos estos años, son
simplemente únicos e inolvidables.
María Andrea Alvarado Guerrero
VII
AGRADECIMIENTO
Agradezco principalmente a Dios por
permitirme alcanzar una nueva meta en
mi carrera profesional, a mi familia por
ser mi pilar fundamental, con sus
consejos que día a día permitían que
mejore como persona.
De igual manera agradezco a mis
profesores y tutor de tesis que me
brindaron sus conocimientos y consejos
para aplicarlos tanto en mi vida
universitaria como profesional y por
guiarme para culminar este trabajo.
Angelo Joel Ponce Figueroa
VIII
TRIBUNAL PROYECTO DE TITULACIÓN
Ing. Fausto Cabrera Montes, M.Sc.
DECANO DE LA FACULTAD
CIENCIAS MATEMÁTICAS Y FÍSICAS
Ing. Gary Reyes Zambrano, Mgs.
DIRECTOR DE LA CARRERA DE
INGENIERÍA EN SISTEMAS
COMPUTACIONALES
Ing. Miguel Botto Tobar, M.Sc.
PROFESOR TUTOR DEL PROYECTO
DE TITULACIÓN
Ing. Angel Cuenca Ortega, M.Sc.
PROFESOR REVISOR DEL PROYECTO
DE TITULACIÓN
Ab. Juan Chávez Atocha, Esp.
SECRETARIO
IX
DECLARACIÓN EXPRESA
“La responsabilidad del contenido de este Proyecto de
Titulación, me corresponden exclusivamente; y el patrimonio
intelectual de la misma a la UNIVERSIDAD DE
GUAYAQUIL”.
MARÍA ANDREA ALVARADO GUERRERO
ANGELO JOEL PONCE FIGUEROA
X
CESIÓN DE DERECHOS DE AUTOR
Ingeniero
Fausto Cabrera Montes, M.Sc.
DECANO DE LA FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
Presente.
A través de este medio indico a usted que procedo a realizar la entrega de la cesión de derechos de
autor en forma libre y voluntaria del trabajo de titulación “RECONOCIMIENTO DE LOS
ESTADOS DE ÁNIMO DE LAS PERSONAS EMPLEANDO TÉCNICAS DE
APRENDIZAJE AUTOMÁTICO”, realizado como requisito previo para la obtención del Título
de Ingeniero(a) en Sistemas Computacionales de la Universidad de Guayaquil.
Guayaquil, octubre de 2020.
______________________________________
María Andrea Alvarado Guerrero
C.I. N° 0953321106
______________________________________
Angelo Joel Ponce Figueroa
C.I. N° 0931019210
XI
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
RECONOCIMIENTO DE LOS ESTADOS DE ÁNIMO DE LAS PERSONAS EMPLEANDO
TÉCNICAS DE APRENDIZAJE AUTOMÁTICO
Proyecto de Titulación que se presenta como requisito para optar por el título de
INGENIERO(A) EN SISTEMAS COMPUTACIONALES
Autores: Alvarado Guerrero María Andrea
C.I: 0953321106
Ponce Figueroa Angelo Joel
C.I: 0931019210
Tutor: Ing. Miguel Botto Tobar, M.Sc.
Guayaquil, octubre del 2020
XII
CERTIFICADO DE ACEPTACIÓN DEL TUTOR
En mi calidad de Tutor del Proyecto de Titulación, nombrado por el Consejo Directivo de la
Facultad de Ciencias Matemáticas y Físicas de la Universidad de Guayaquil.
CERTIFICO:
Que he analizado el Proyecto de Titulación presentado por los estudiantes MARÍA ANDREA
ALVARADO GUERRERO, ANGELO JOEL PONCE FIGUEROA, como requisito previo
para optar por el Título de Ingeniero(a) en Sistemas Computacionales cuyo proyecto es:
RECONOCIMIENTO DE LOS ESTADOS DE ÁNIMO DE LAS PERSONAS
EMPLEANDO TÉCNICAS DE APRENDIZAJE AUTOMÁTICO
Considero aprobado el trabajo en su totalidad.
Presentado por:
Alvarado Guerrero María Andrea C.I: 0953321106
Ponce Figueroa Angelo Joel C.I: 0931019210
Tutor: Ing. Miguel Botto Tobar, M.Sc.
Firma
Guayaquil, octubre del 2020
XIII
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
AUTORIZACIÓN PARA PUBLICACIÓN DE PROYECTO DE TITULACIÓN EN FORMATO DIGITAL
1. Identificación del Proyecto de Titulación
Nombre del Estudiante: María Andrea Alvarado Guerrero
Dirección: Mucho lote 2, Paraíso del río 2 mz. 3080 villa 15
Teléfono: 0983326570 Email: maria.alvaradogu@ug.edu.ec
Nombre del Estudiante: Angelo Joel Ponce Figueroa
Dirección: Suburbio 24 y 1er Callejón P
Teléfono: 0967861317 Email: angelo.poncef@ug.edu.ec
Facultad: Ciencias Matemáticas y Físicas
Carrera: Ingeniería en Sistemas Computacionales
Proyecto de Titulación al que opta: Ingeniero en Sistemas Computacionales
Profesor Tutor: Ing. Miguel Botto Tobar, M.Sc.
Título del Proyecto de Titulación: RECONOCIMIENTO DE LOS ESTADOS DE ÁNIMO DE LAS
PERSONAS EMPLEANDO TÉCNICAS DE APRENDIZAJE AUTOMÁTICO
Palabras Claves: estado de ánimo, voz, redes neuronales, máquinas de vectores de soporte, bosques
aleatorios, personas, modelos, análisis.
2. Autorización de Publicación de Versión Electrónica del Proyecto de Titulación
A través de este medio autorizo a la Biblioteca de la Universidad de Guayaquil y a la Facultad de Ciencias
Matemáticas y Físicas a publicar la versión electrónica de este Proyecto de Titulación.
Publicación Electrónica:
Inmediata Después de 1 año
Firma Estudiante:
Alvarado Guerrero María Andrea Ponce Figueroa Angelo Joel
3. Forma de envío:
El texto del Proyecto de Titulación debe ser enviado en formato Word, como archivo .docx, .RTF o. Puf para
PC. Las imágenes que la acompañen pueden ser: .gif, .jpg o .TIFF.
DVDROM CDROM
X
XIV
ÍNDICE GENERAL
FICHA DE REGISTRO DE TRABAJO DE TITULACIÓN .................................................. II
APROBACIÓN DEL TUTOR ................................................................................................... III
DEDICATORIA .......................................................................................................................... IV
DEDICATORIA ........................................................................................................................... V
AGRADECIMIENTO ................................................................................................................ VI
AGRADECIMIENTO .............................................................................................................. VII
TRIBUNAL PROYECTO DE TITULACIÓN ..................................................................... VIII
DECLARACIÓN EXPRESA ..................................................................................................... IX
CESIÓN DE DERECHOS DE AUTOR .................................................................................... X
CERTIFICADO DE ACEPTACIÓN DEL TUTOR ............................................................. XII
AUTORIZACIÓN PARA PUBLICACIÓN DE PROYECTO DE TITULACIÓN EN
FORMATO DIGITAL ............................................................................................................ XIII
ÍNDICE GENERAL ................................................................................................................ XIV
ÍNDICE DE TABLAS.............................................................................................................. XIX
ÍNDICE DE FIGURAS.............................................................................................................. XX
ABREVIATURAS.................................................................................................................. XXII
RESUMEN............................................................................................................................. XXIII
ABSTRACT ........................................................................................................................... XXIV
INTRODUCCIÓN ........................................................................................................................ 1
XV
CAPÍTULO I ................................................................................................................................. 3
PLANTEAMIENTO DEL PROBLEMA ................................................................................... 3
Descripción de la situación problemática ................................................................................... 3
Ubicación del problema en un contexto...................................................................................... 3
Situación conflicto nudos críticos ............................................................................................... 4
Delimitación del problema .......................................................................................................... 4
Evaluación del Problema ............................................................................................................ 5
Causas y consecuencias del problema ......................................................................................... 6
Formulación del problema ........................................................................................................... 6
Objetivos del proyecto .................................................................................................................. 6
Objetivo general .......................................................................................................................... 6
Objetivos específicos .................................................................................................................. 7
Alcance del proyecto ..................................................................................................................... 7
Justificación e importancia .......................................................................................................... 8
Limitaciones del estudio ............................................................................................................... 8
CAPÍTULO II ............................................................................................................................. 10
MARCO TEÓRICO ................................................................................................................... 10
Antecedentes del estudio............................................................................................................. 10
Fundamentación teórica ............................................................................................................. 12
Voz ............................................................................................................................................ 12
XVI
Emoción .................................................................................................................................... 13
Estado de ánimo ........................................................................................................................ 15
Diferencia entre emoción y estado de ánimo ........................................................................ 15
Trastornos del estado de ánimo............................................................................................. 15
Base de datos de emociones ...................................................................................................... 17
Extractores de características .................................................................................................... 18
Coeficientes Cepstrales en las Frecuencias de Mel .............................................................. 18
Tasa de cruces por cero ......................................................................................................... 19
Transformada de Fourier de tiempo corto ............................................................................ 20
Selector de características ......................................................................................................... 20
Inteligencia artificial ................................................................................................................. 21
Aprendizaje automático ............................................................................................................ 22
Máquinas de Vectores de Soporte......................................................................................... 23
Redes Neuronales Artificiales ............................................................................................... 24
Bosques Aleatorios ............................................................................................................... 25
Coeficiente kappa de Cohen ..................................................................................................... 27
Python ....................................................................................................................................... 27
Revisiones sistemáticas ............................................................................................................... 28
Mapeo Sistemático sobre los estados de ánimo de las personas empleando técnicas de
aprendizaje automático ............................................................................................................. 29
XVII
Planteamiento de la pregunta de investigación ..................................................................... 29
Búsqueda de estudios primarios............................................................................................ 29
Criterios de Inclusión y Exclusión ........................................................................................ 30
Extracción de Datos .............................................................................................................. 31
Fase de Resultados ................................................................................................................ 33
Hipótesis ....................................................................................................................................... 35
Variables de la investigación ...................................................................................................... 35
CAPÍTULO III ............................................................................................................................ 36
METODOLOGÍA DE LA INVESTIGACIÓN ........................................................................ 36
Tipo de investigación .................................................................................................................. 37
Diseño metodológico de la investigación ................................................................................... 37
Metodología de investigación ................................................................................................... 38
Bases de datos ....................................................................................................................... 38
Extractores de características ................................................................................................ 41
MFCC ............................................................................................................................... 42
Tasa de cruces por cero ..................................................................................................... 45
Transformada de Fourier de tiempo corto ........................................................................ 45
Entrenamiento ....................................................................................................................... 46
RAVDESS y TESS ................................................................................................................... 63
Población muestra ................................................................................................................. 67
XVIII
Procesamiento y análisis ....................................................................................................... 68
Técnicas de recolección de datos. ..................................................................................... 68
Introductorio ............................................................................................................................. 70
Demográfico ............................................................................................................................. 70
Psicológico ................................................................................................................................ 70
Criterios de validación de la propuesta .................................................................................... 71
Resultados .................................................................................................................................... 72
CAPÍTULO IV ............................................................................................................................ 80
CONCLUSIONES Y RECOMENDACIONES ........................................................................ 80
Conclusiones ................................................................................................................................ 80
Recomendaciones ........................................................................................................................ 82
Trabajos futuros.......................................................................................................................... 82
REFERENCIAS BIBLIOGRÁFICAS ...................................................................................... 83
Apéndice A: Bibliografía del Mapeo Sistemático .................................................................... 93
ANEXOS ...................................................................................................................................... 94
Anexo 1. Planificación de actividades del proyecto ................................................................ 94
Anexo 2. Fundamentación Legal ............................................................................................. 95
Anexo 3. Modelo de la Encuesta ............................................................................................. 97
Anexo 4. Validación de expertos. .......................................................................................... 106
Anexo 5. Artículo científico ................................................................................................... 127
XIX
ÍNDICE DE TABLAS
Tabla 1 Delimitación del Problema .............................................................................................. 5
Tabla 2 Matriz de Causas y Consecuencias del Problema ............................................................ 6
Tabla 3 Clasificación Psicopedagógica de las Emociones .......................................................... 14
Tabla 4 Comparativo entre SAS, R y Python ............................................................................. 28
Tabla 5 Cantidad de Artículos Seleccionados............................................................................. 31
Tabla 6 Criterios de Extracción .................................................................................................. 32
Tabla 7 Porcentaje de los Criterios de Extracción ...................................................................... 33
Tabla 8 Bases de Datos de Discurso Emocional ......................................................................... 39
Tabla 9 Etiquetado según Expertos de las Emociones a EA....................................................... 41
Tabla 10 Dataset Seleccionados y sus Características ................................................................ 63
Tabla 11 Resultados de capas ocultas y neuronas en ANN ........................................................ 65
Tabla 12 Definición de la Población Muestra y Participantes .................................................... 68
Tabla 13 Estructura del Test Aplicado Sacks (18 preguntas en específico) ............................... 70
Tabla 14 Rangos y Valoración del Coeficiente Kappa ............................................................... 71
Tabla 15 Resultados de la Aplicación del Coeficiente Kappa .................................................... 72
Tabla 16 Predicción del EA por Clasificador ............................................................................. 75
XX
ÍNDICE DE FIGURAS
Figura 1 La voz, el instrumento de la emoción........................................................................... 13
Figura 2 Mel Cepstral Frequency Coefficients MFCC ............................................................... 19
Figura 3 ¿Qué es la selección de funciones y por qué la necesitamos en el ML? ...................... 21
Figura 4 Máquinas de Vectores de Soporte ................................................................................ 24
Figura 5 Esquema de una Red Neuronal Artificial (RNA) ......................................................... 25
Figura 6 Esquema de un modelo de Bosques aleatorios ............................................................. 26
Figura 7 Pasos de un Vector MFCC ........................................................................................... 42
Figura 8 Banco de filtros de Mel ................................................................................................ 44
Figura 9 Diagrama del Proceso de Clasificación ........................................................................ 47
Figura 10 Clasificador SVM de la Base de Datos RAVDESS ................................................... 48
Figura 11 Clasificador SVM de la Base de Datos RAVDESS ................................................... 49
Figura 12 Clasificador SVM de la Base de Datos RAVDESS ................................................... 50
Figura 13 Clasificador SVM de la Base de Datos RAVDESS & TESS .................................... 51
Figura 14 Clasificador SVM de la Base de Datos RAVDESS & TESS .................................... 52
Figura 15 Clasificador SVM de la Base de Datos RAVDESS & TESS .................................... 53
Figura 16 Clasificador SVM de la Base de Datos RAVDESS & TESS Audios Positivos ........ 54
Figura 17 Clasificador SVM de la Base de Datos RAVDESS & TESS Audios Positivos ........ 55
Figura 18 Clasificador SVM de la Base de Datos RAVDESS & TESS Audios Positivos ........ 56
Figura 19 Clasificador SVM de la Base de Datos RAVDESS & TESS 288 Audios Positivos . 57
Figura 20 Clasificador SVM de la Base de Datos RAVDESS & TESS 288 Audios Positivos . 58
Figura 21 Clasificador SVM de la Base de Datos RAVDESS & TESS 288 Audios Positivos . 59
Figura 22 Clasificador SVM de la Base de Datos RAVDESS & TESS 512 Audios Negativos 60
XXI
Figura 23 Clasificador SVM de la Base de Datos RAVDESS & TESS 512 Audios Negativos 61
Figura 24 Clasificador SVM de la Base de Datos RAVDESS & TESS 512 Audios Negativos 62
Figura 25 Resultados Clasificador Red Neuronal ....................................................................... 66
Figura 26 Resultados Clasificador Bosques Aleatorios .............................................................. 67
Figura 27 EA con el Clasificador Bosques Aleatorios ............................................................... 73
Figura 28 EA con el Clasificador Red Neuronal ........................................................................ 73
Figura 29 EA con el Clasificador SVM ...................................................................................... 74
Figura 30 Estado de ánimo del Sujeto 1 ..................................................................................... 76
Figura 31 Estado de ánimo del Sujeto 7 ..................................................................................... 77
Figura 32 Estado de ánimo del Sujeto 17 ................................................................................... 77
Figura 33 Estado de ánimo del Sujeto 22 ................................................................................... 78
Figura 34 Estado de ánimo del Sujeto 23 ................................................................................... 78
Figura 35 Estado de ánimo del Sujeto 28 ................................................................................... 79
XXII
ABREVIATURAS
ANN Redes Neuronales Artificiales
AS Análisis de Sentimientos
CC.MM.FF Facultad de Ciencias Matemáticas y Físicas
EA Estados de Ánimo
IA Inteligencia Artificial
Ing. Ingeniero
MFCC Coeficientes Cepstrales en las Frecuencias de Mel
ML Aprendizaje Automático
M.Sc. Máster
RF Bosques Aleatorios
STFT Transformada de Fourier de Tiempo Corto
SVM Máquinas de Vectores de Soporte
UG Universidad de Guayaquil
ZCR Tasa de Cruces por Cero
XXIII
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
RECONOCIMIENTO DE LOS ESTADOS DE ÁNIMO DE LAS
PERSONAS EMPLEANDO TÉCNICAS DE APRENDIZAJE
AUTOMÁTICO
Autores: María Andrea Alvarado Guerrero
C.I. N° 0953321106
Angelo Joel Ponce Figueroa
C.I. N° 0931019210
Tutor: Ing. Miguel Botto Tobar, M.Sc.
RESUMEN
La existencia de plataformas digitales que identifiquen el estado de ánimo de las personas es muy
limitada, en cuanto al estudio de la voz. El propósito de este estudio es determinar algoritmos de
aprendizaje automático que faciliten identificar el estado anímico de las personas a través de la
voz. La metodología está fundamentada en el método científico debido a que posibilitó
inspeccionar, indagar y examinar, todo tipo de resultados e investigaciones para la obtención de
modelos innovadores que se justificarán en pruebas controladas y monitoreadas. Se utilizaron dos
bases de datos de discurso emocional, que estaban constituidas por las emociones básicas del ser
humano y por esta razón fueron etiquetadas por estados de ánimo. Además, se utilizaron
extractores de características acústicas para identificar la intensidad en el tono de la voz,
generando14 dataset. Se evaluaron a 29 personas, haciendo uso del test de Sacks que es aplicado
en el área de psicología en donde se eligieron 6 sujetos aleatoriamente para interpretar su estado
anímico por parte de los expertos en el área de psicología, siendo validados por medio de los
coeficientes kappa y permitieron reducir la cantidad de dataset. Para la clasificación, se
implementaron las técnicas de aprendizaje automático: ANN, RF y SVM, obteniendo mejores
resultados con el clasificador ANN.
Palabras clave: estado de ánimo, voz, redes neuronales artificiales, máquinas de vectores de
soporte, bosques aleatorios, personas, modelos, análisis.
XXIV
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
RECOGNITION OF THE MOODS OF PEOPLE USING SELF-
LEARNING TECHNIQUES
Authors: María Andrea Alvarado Guerrero
C.I. N° 0953321106
Angelo Joel Ponce Figueroa
C.I. N° 0931019210
Tutor: Ing. Miguel Botto Tobar, M.Sc.
ABSTRACT
The existence of digital platforms that identify the mood of people is very limited, in terms of the
study of the voice. The purpose of this study is to determine machine learning algorithms that
make it easier to identify people's moods through voice. The methodology is based on the scientific
method because it made it possible to inspect, inquire and examine all kinds of results and
investigations to obtain innovative models that will be justified in controlled and monitored tests.
Two databases of emotional discourse were used, which were made up of the basic emotions of
the human being and for this reason they were labeled by mood states. Besides, acoustic
characteristic extractors were used to identify the intensity in the tone of the voice, generating 14
dataset. 29 people were evaluated, making use of the Sacks test that is applied in the area of
psychology where 6 subjects were randomly chosen to interpret their mood by experts in the area
of psychology, being validated using the coefficients kappa and allowed to reduce the amount of
dataset. For the classification, the automatic learning techniques were implemented: ANN, RF and
SVM, obtaining better results with the ANN classifier.
Key words: mood, voice, artificial neural networks, support vector machines, random forests,
people, models, analysis.
1
INTRODUCCIÓN
A través del tiempo, las personas se han adecuado a las diversas formas de comunicación,
siendo hoy en día los medios digitales aptos para este proceso, con solo tener acceso a internet se
consigue simular una comunicación presencial, mediante el uso de un micrófono y una cámara es
posible la comunicación entre el emisor y el receptor, no obstante, si se usa sólo el micrófono es
posible que se pierda el interés en identificar características o estados anímicos que las personas
emitimos por naturaleza.
Esta investigación tiene como objetivo presentar un análisis del reconocimiento de los
estados de ánimo de las personas a través de la voz, siendo esta un medio notable de adquisición
de información por las señales acústicas emitidas, es posible la extracción de características y así
generar los dataset.
Para lograr este objetivo se plantean las siguientes fases: 1) adquisición de datos; 2)
extracción de características; 3) entrenamiento. Estas tres fases pueden cambiar de acuerdo con
varios factores, por ejemplo, datos de acceso no públicos, ruido en las grabaciones, diversidad de
oradores, emociones sin identificar. Así mismo, se buscarían métodos para alcanzar el objetivo
que se propone.
En la fase de resultados se implementarán técnicas de aprendizaje automático permitiendo
identificar el estado de ánimo de las personas a través de la voz, usando test psicológicos que serán
supervisados por profesionales en el área de psicología.
El presente trabajo de titulación está conformado por 4 capítulos que se especifican a
continuación:
Capítulo I: El capítulo está constituido por el planteamiento del problema, su descripción,
situación conflicto nudos críticos, delimitaciones, evaluaciones, causas y consecuencias y la
2
formulación del problema. Además, plantea un objetivo general con sus objetivos específicos, el
alcance del proyecto, justificación e importancia, y las limitaciones del estudio.
Capítulo II: Se define el marco teórico, antecedentes del estudio, la fundamentación
teórica, un mapeo sistemático, la hipótesis a formularse y las variables de la investigación.
Capítulo III: Se presenta la metodología de la investigación y se describen las etapas del
diseño metodológico del proyecto, los criterios de validación de la propuesta aplicados a un
experimento controlado en el campo de psicología, concluyendo con sus resultados.
Capítulo IV: Se presentan las conclusiones, recomendaciones del proyecto y trabajos
futuros.
3
CAPÍTULO I
PLANTEAMIENTO DEL PROBLEMA
Descripción de la situación problemática
Ubicación del problema en un contexto
El análisis de sentimientos es un tema que se está trabajando a profundidad debido a ser un
campo muy amplio en diferentes disciplinas como marketing, ciencias políticas y economía
(Hernández & Gómez, 2014).
Las expresiones que se pueden detectar en el análisis de sentimientos son: positivas,
negativas o neutrales, sobre algún tema en específico, producto o servicio, persona física, entidad,
etc. (SAURA et al., 2018). Para el análisis de sentimientos existen diversos enfoques que al final
terminan siendo una categorización de palabras en donde emplean técnicas basadas en el
reconocimiento de patrones, o usando técnicas de aprendizaje supervisado, no supervisado o
aprendizajes híbridos (Hernández & Gómez, 2014).
Existen estudios que se basan en el análisis de la voz para detectar las emociones de las
personas con diferentes técnicas, entre ellas aplicando aprendizaje automático. El análisis de la
voz ha generado que se realicen muchas investigaciones de distintas organizaciones y/o
instituciones alrededor del mundo. Las diversas fuentes de investigación apoyan su trabajo en el
empleo de algoritmos de aprendizaje automático para el análisis de emociones por la capacidad
4
que poseen para clasificar los audios a partir del tono de la voz y el énfasis al pronunciar ciertas
palabras (Hernández Tamayo et al., 2020).
No obstante, los diferentes estudios emplean las técnicas mencionadas anteriormente para
el reconocimiento de emociones por la voz, y para el reconocimiento de los estados de ánimo
aplican test psicológicos o juegos interactivos. Al ser un campo que continúa en exploración no se
han aplicado técnicas específicas para el reconocimiento de los estados de ánimo en la voz.
La aplicación de este proyecto se centrará en la validación de respuestas de los test
psicológicos realizados por expertos en el área de psicología/psiquiatría a sus pacientes, y de esta
forma, medir sus rasgos de personalidad y particularidades psicológicas.
Situación conflicto nudos críticos
Actualmente, los investigadores han mostrado un creciente interés por desarrollar técnicas
o metodologías que permitan reconocer las emociones que presentan las personas en un momento
determinado.
En el área de psicología existen técnicas que detectan los estados de ánimo mediante test
psicológicos o juegos interactivos, sin embargo, no se ha tratado de analizar con mayor
profundidad los estados de ánimo a través de la voz.
Delimitación del problema
En la
Tabla 1 se detalla la delimitación del problema que abarca el presente proyecto.
5
Tabla 1
Delimitación del Problema
Delimitador Descripción
Campo Investigación
Área Sistemas e inteligencia artificial
Aspecto Reconocimiento y análisis de estados de ánimo
Tema Reconocimiento de los estados de ánimo de las personas empleando
técnicas de aprendizaje automático Nota: En esta tabla se presentan los términos para la delimitación del problema conforme al contexto de la
problemática, datos propios de la investigación.
Evaluación del Problema
A continuación, se describen 6 aspectos relevantes en la evaluación del problema:
• Delimitado: El desarrollo de test psicológico, las pruebas y fundamentación científica
dentro del lapso de 9 semanas, beneficiará a las personas que deseen desarrollar un
sistema basado en nuestro enfoque investigativo.
• Claro: La investigación de las metodologías óptimas a emplear en el reconocimiento
de los estados de ánimo a través de la voz será muy explícito y poseerá un análisis
comparativo.
• Evidente: Se desarrollarán pruebas con grabaciones de audio para el análisis y
reconocimiento de los estados de ánimo de los usuarios participantes.
• Original: Desarrollo de un modelo que implemente algoritmos de aprendizaje
automático para realizar el procesamiento de grabaciones de audio y evidenciar los
resultados.
• Contextual: Fomentar el desarrollo de sistemas que permitan reconocer los estados de
ánimo de las personas a través de su voz, para validar respuestas y conocer su real
disposición anímica.
6
• Factible: No solicita gran cantidad de recursos financieros y su fundamentación será
realizada en un corto plazo de tiempo.
Causas y consecuencias del problema
En la Tabla 2 se presenta la matriz que determina las causas y consecuencias del
proyecto.
Tabla 2
Matriz de Causas y Consecuencias del Problema
Causas Consecuencias
C1. Inexistencia de técnicas y algoritmos para
el reconocimiento de los estados de ánimo a
través de la voz.
E1. Incertidumbre sobre nuevas técnicas que
pueden emplearse en esta área.
C2. Ausencia de sistemas que implementen
herramientas para la detección de los estados
de ánimo por la voz.
E2. Desconocimiento de procesos que
simplifiquen un análisis previo de la voz.
C3. Inexistencia de una aplicación o sistema
con algoritmos de aprendizaje automático para
validar test psicológicos del reconocimiento de
los estados de ánimo.
E3. Mantener la evaluación de los estados de
ánimo con procesos que se han realizado
hasta la actualidad.
C4. Ausencia de plataformas digitales para
grabar la voz a través de formularios en línea.
E4. Realizar las grabaciones de la voz de
manera presencial. Nota: Esta tabla refleja el análisis que se realizó en la situación problemática, datos propios de la investigación.
Formulación del problema
¿Cuáles son los algoritmos de aprendizaje automático que identifican los estados de ánimo
de las personas a través de la voz?
Objetivos del proyecto
Objetivo general
Determinar algoritmos de aprendizaje automático mediante el análisis de la voz que
identifiquen los estados de ánimo de las personas.
7
Objetivos específicos
1. Analizar el estado del arte realizando una revisión de la literatura para identificar las
técnicas de reconocimiento de los estados de ánimo por la voz.
2. Combinar bases de datos de discurso emocional identificando características relevantes
de los estados de ánimo de las personas a través de su tono de voz para su
correspondiente clasificación.
3. Construir un modelo de reconocimiento de los estados de ánimo a través de la
implementación de técnicas especializadas en la extracción de características de la voz
del registro de las bases de datos para su correspondiente identificación.
4. Evaluar el modelo de reconocimiento de los estados de ánimo por la voz obtenidos
mediante la realización de test psicológicos para la validación de los resultados en el
análisis de la voz.
Alcance del proyecto
Los siguientes ítems describen el alcance del proyecto:
1. Se realizará un análisis en diferentes fuentes bibliográficas y artículos científicos.
2. Cada grabación se realizará en español latino.
3. Se procederá con la entrevista a expertos en el área de psicología para identificar
adecuadamente los estados de ánimo de cada persona en base a las grabaciones de
audio.
4. Las grabaciones serán etiquetadas en dos clases (estados de ánimo); positivas y
negativas.
5. Se realizarán las pruebas con los scripts implementados o desarrollados.
8
Justificación e importancia
La voz es el canal de comunicación fundamental en los seres humanos. Se considera que
posee información muy relevante sobre el estado emocional de la persona que la emite.
El análisis de sentimientos pretende identificar y extraer información subjetiva del
lenguaje natural y de esta forma identificar los diferentes estados de ánimo que pueden tener las
personas al hablar, en un momento determinado.
Las iniciativas del análisis de voz a través del uso de técnicas de aprendizaje automático
facilitarían a las organizaciones e instituciones a detectar los estados de ánimo de las personas
ante situaciones totalmente exageradas; positivas y/o negativas. De esta forma se podría
identificar en tiempo real los estados de ánimo que posea una persona para tener una mejor
interacción, sin necesidad de encontrarse físicamente en el mismo lugar, sólo haciendo uso de un
medio para receptar la señal de voz.
Los expertos en el área de psicología, al notar situaciones anímicas excesivas, podrían
identificar las posibles causas del exceso y encontrar soluciones adecuadas que generen un
equilibrio en su personalidad.
Limitaciones del estudio
Durante el desarrollo del proyecto de titulación se encontraron las siguientes limitantes:
• El período de tiempo de realización del proyecto tuvo una duración de nueve semanas.
• Se utilizaron bases de datos de discurso emocional en idioma inglés para la extracción de
características de cada grabación de audio.
• No se encontraron bases de datos de discurso emocional en idioma español de libre acceso.
• Escasa información accesible sobre los algoritmos de aprendizaje automático utilizados
para el análisis de la voz.
9
• En el análisis de las características extraídas en las grabaciones de audio, para su posterior
clasificación, se realizó a través de las siguientes técnicas de aprendizaje supervisado:
Máquinas de vectores de soporte, Bosques aleatorios y Redes Neuronales.
• Bajos recursos tecnológicos para la utilización de las diferentes técnicas de aprendizaje
supervisado.
10
CAPÍTULO II
MARCO TEÓRICO
Antecedentes del estudio
El desarrollo del presente trabajo de titulación se fundamenta en diferentes investigaciones
de instituciones académicas nacionales y extranjeras, también de artículos de revistas científicas
que nos van a posibilitar efectuar la revisión del estado del arte, consultar en fuentes bibliográficas
y obtener información relacionada a la utilización de técnicas de aprendizaje automático para el
reconocimiento de los estados de ánimo de las personas a través de la voz, aplicado al área de
piscología/psiquiatría mediante el empleo de test psicológicos.
Los estados de ánimo son más prolongados, de horas o días, según el estudio de Páez &
Costa (2014) “la síntesis de meta-análisis torna posible concluir que las estrategias que permiten
mejorar el estado de ánimo, aumentar emociones positivas y disminuir negativas”.
Existen algoritmos que identifican y evidencian las emociones de las personas por medio de
las redes sociales. Montoro Montarroso desarrolló un mecanismo computacional calificado en
identificar y clasificar según su nivel de frecuencia, mensajes de odio en las redes sociales
aplicando técnicas de AS, procesamiento del lenguaje natural y lógica borrosa para definir la
intensidad del discurso de odio (Montoro Montarroso, 2019).
Bello Ambario et al. plantearon una metodología para el reconocimiento de emociones
estudiando fragmentos de voz. La metodología se apoyó primordialmente en la transformada
11
rápida de Fourier y coeficientes de correlación de Pearson. Posteriormente, se presentaron los
efectos parciales adquiridos en las períodos iniciales de este proceso, manejando la base de datos
Berlín, la cual es la referencia de estos trabajos (Bello Ambario et al., 2017).
Morán et al. propusieron el entrenamiento de los siguientes modelos de ML: SVM, RF y
Aumento del Gradiente aplicados en una base de datos en condiciones controladas y actuadas de
seis emociones determinadas, tales como ira, sorpresa, felicidad, miedo, tristeza y asco. Después,
construyeron dos bases de datos de forma complementaria (una en condiciones controladas y semi-
naturales, y otra en condiciones no controladas y naturales) para realizar las pruebas con mayor
rigurosidad de los modelos previamente entrenados (Morán et al., 2018).
En la investigación de Hernández Tamayo et al., utilizaron varios métodos de clasificación
como Naïve Bayes, Multilayer Perceptron, Máquinas Vectores de Soporte y Random Forest para
el reconocimiento de emociones por la voz en el español hablado en México. Para este estudio se
emplearon dos bases de datos, o también llamado corpus, de lenguaje emocional: Emo_voz.mx1 y
EmoWisconsin, de las cuáles, una de ellas fue producida por la inducción de emociones, y la otra
por emociones actuadas. El corpus Emo_voz.mx1 contiene tres conjuntos de datos de voz, cada
conjunto presenta 40 palabras seleccionadas de la lista Swadesh para español, 40 oraciones,
párrafos que contienen un promedio de 450 palabras y un poema con 94 palabras. Las emociones
obtenidas fueron: enojo, disgusto, miedo, alegría, tristeza, sorpresa y neutral. En el corpus
EmoWisconsin se trabajaron con siete emociones: molesto, seguro, inseguro, motivado, nervioso,
neutral e indeterminado, y utilizaron un grupo de 28 niños, 11 niñas y 17 niños con intervalo de
edades entre 7 y 13 años. Las características acústicas utilizadas fueron: MFCCs, Tasa de Cruce 0
(ZCR), energía, spectral centroid, spectral spread, entre otras. Los mejores resultados se alcanzaron
mediante un algoritmo basado en máquinas vectores de soporte, en comparacion a los otros
12
clasificadores que implemetaron: Naïve Bayes, Multilayer Perceptron y Random Forest
(Hernández Tamayo et al., 2020).
Después de haber realizado el correspondiente estudio del arte se concluye que para
identificar los EA de las personas por medio de la voz se deberían identificar las emociones que
presentan para así etiquetarlas como positivas y negativas.
Fundamentación teórica
Voz
La voz ha sido el medio de comunicación entre las personas a lo largo del tiempo con lo
cual podemos mantener conversaciones cortas o largas, intercambio de ideas o pensamientos,
compartir anécdotas o vivencias entre dos personas o un grupo de audiencia. La Figura 1 muestra
la representación de las emociones que se transmiten a través de la voz.
La voz humana se genera espontáneamente mediante el aparato fonatorio. Éste está
constituido por los pulmones como fuente de energía en el proceder de una corriente de aire, la
laringe, que comprende las cuerdas vocales, la faringe, las cavidades oral (o bucal) y nasal y un
grupo de componentes articulatorios: los labios, los dientes, el alvéolo, el paladar, el velo del
paladar y la lengua (Miyara, 1999).
13
Figura 1
La voz, el instrumento de la emoción
Nota: La voz humana es quizá el instrumento musical con mayor capacidad para generar emociones, provocar
sentimientos y, en definitiva, para construir vínculos entre las personas. Tomado de Marketing Directo (2020).
Emoción
Las emociones se pueden sentir, vivir, reconocer, pero una sola parte de ellas son las que
se pueden expresar en palabras o conceptos, el ser humano no puede vivir un solo día sin que pueda
experimentar alguna emoción a partir de algún acontecimiento externo o interno; actual, pasado o
futuro; real o imaginario (Bisquerra Alzina, 2009; Esquivel, 2015).
Con lo mencionado anteriormente el ser humano es gobernado por sus propias emociones,
ya que son las que pueden influir en las decisiones, percepciones y acciones de las personas, debido
a que son las que sentimos día a día dependiendo de nuestro entorno o de las que podamos
experimentar en las circunstancias que se presenten, por ejemplo, los pintores pueden demostrar
las emociones a través de sus propias pinturas.
Según el psicólogo Paul Ekman las emociones básicas son: tristeza, felicidad, miedo,
sorpresa, asco e ira, que en teoría existen en cada ser humano independientemente de la cultura
que se hayan desarrollado (Corbin, 2017).
14
Bisquerra (2009) menciona que las emociones positivas son consideradas como el
resultado favorable de los objetivos personales, las emociones negativas son consideradas a los
resultados como desfavorables, dificultades que pueden surgir en la vida. En la Tabla 3 se detalla
la clasificación psicopedagógica de cada emoción.
Tabla 3
Clasificación Psicopedagógica de las Emociones
Emociones Negativas
Miedo Temor, horror, pánico, terror, pavor, desasosiego, susto, fobia.
Ira
Rabia, cólera, rencor, odio, furia, indignación, resentimiento, aversión,
exasperación, tensión, excitación, agitación, acritud, animadversión,
animosidad,
irritabilidad, hostilidad, violencia, enojo, celos, envidia, impotencia,
desprecio, acritud, antipatía, resentimiento, rechazo, recelo.
Tristeza
Depresión, frustración, decepción, aflicción, pena, dolor, pesar,
desconsuelo,
pesimismo, melancolía, autocompasión, soledad, desaliento, desgana,
morriña, abatimiento, disgusto, preocupación.
Asco Aversión, repugnancia, rechazo, desprecio.
Ansiedad Angustia, desesperación, inquietud, inseguridad, estrés, preocupación,
anhelo, desazón, consternación, nerviosismo.
Emociones Positivas
Alegría
Entusiasmo, euforia, excitación, contento, deleite, diversión, placer,
estremecimiento, gratificación, satisfacción, capricho, éxtasis, alivio,
regocijo, humor.
Amor
Aceptación, afecto, cariño, ternura, simpatía, empatía, interés, cordialidad,
confianza, amabilidad, afinidad, respeto, devoción, adoración, veneración,
enamoramiento, ágape, gratitud, interés, compasión.
Felicidad Bienestar, gozo, tranquilidad, paz interior, dicha, placidez, satisfacción,
serenidad.
Emociones Sociales
Vergüenza Culpabilidad, timidez, vergüenza ajena, bochorno, pudor, recato, rubor,
sonrojo, verecundia.
Emociones Ambiguas
Sorpresa La sorpresa puede ser positiva o negativa: sobresalto, asombro,
desconcierto, confusión, perplejidad, admiración, inquietud, impaciencia Nota: En esta tabla se detallan los diferentes tipos de emociones. La elaboración es propia y la fuente corresponde a
Bisquerra Alzina (2009).
15
Estado de ánimo
El estado de ánimo (EA) prevalece en los individuos que habitualmente se asocia con el
humor de la persona en un momento dado y se mantiene por algún tiempo este puede ser agradable
o desagradable, expansivo o introspectivo (Martinez, 2018).
Desde la psicología positiva, mencionan que el ánimo positivo no solo es la ausencia de un
ánimo negativo, si no se pueden estar relacionados con la presencia de emociones positivas y con
conceptos del florecimiento (Martinez, 2018).
Diferencia entre emoción y estado de ánimo
Una de las más notables diferencias es que el EA dura más tiempo, también es menos
intenso y no necesita un estímulo para que aparezca, el EA no tiene expresiones faciales propias,
mientras que las emociones básicas si cuentan con expresiones faciales propias, siendo así
universales y siguen un patrón único en los seres humanos (Neipp López, 2019).
Trastornos del estado de ánimo
Los trastornos del EA son trastornos de la salud mental que se caracteriza por alteraciones
emocionales, persistente en periodos prolongados de tristeza excesiva (depresión), exaltación o
euforia excesiva (manía) también pueden presentarse ambos, los extremos o los dos polos de los
trastornos del EA son representados por la depresión y la manía (Coryell, 2018).
La psicóloga Neipp (2019) menciona que “cuando un EA perdura mucho en el tiempo,
genera un malestar significativo e interfiere en diferentes áreas de la vida de una persona” y
normalmente se los denomina trastornos afectivos o del EA.
Mayo Clinic (2018) menciona algunos ejemplos de trastornos del EA:
1. Trastorno depresivo mayor: tiempos prolongados y constantes de tristeza.
16
2. Trastorno bipolar: es una depresión que alterna entre momentos de depresión o manía
también denominado “depresión maníaca” o “trastorno afectivo bipolar”.
3. Trastorno afectivo estacional: depresión que muy a menudo, está relacionada con
tener menos horas de luz solar en las latitudes que se encuentran más al norte y al sur,
desde finales de la estación de otoño hasta principios de la primavera.
4. Trastorno ciclotímico: provoca altibajos emocionales, menos extremos que el
trastorno bipolar.
5. Trastorno disfórico premenstrual: se producen durante la fase premenstrual del ciclo
de la mujer y se disipan en el comienzo de la menstruación produciendo cambios en el
EA e irritabilidad.
6. Trastorno depresivo persistente (distimia): depresión a largo plazo(crónica).
7. Trastorno de desregulación disruptiva del EA: berrinches frecuentes que no son
acorde a la edad del desarrollo del niño provocando trastorno de irritabilidad, crónica,
grave y persistente en los niños.
8. Depresión relacionada con una enfermedad física: tiene relación directa con efectos
físicos de otra enfermedad provocando EA deprimido persistente y perdida del placer
en todas o gran parte de las actividades.
9. Depresión inducida por el consumo de drogas o medicamentos: son síntomas de la
depresión que pueden presentar durante el consumo de sustancias, de la abstinencia o
después de la exposición a algún medicamento.
Las personas que sufren algún tipo de trastorno del EA, que implique depresión, podrían presentar
incapacidad de realizar actividades diarias y mantener relaciones, ansiedad extrema, alcoholismo
17
y perdida del apetito, las personas con depresión que no reciban tratamiento un 15% pueden
aumentar el riesgo de acabar con su vida suicidándose (Coryell, 2018).
Base de datos de emociones
La base de datos del habla emocional es necesaria para el reconocimiento automático del
habla (ASR) y para la robótica, posibilita la síntesis fundamentada en el corpus emocional y la
determinación de los modelos prosódicos de emociones para la detección adecuada. La base de
datos puede ser apropiada para desafiar la solidez de una variedad de aplicaciones de voz en
sistemas de reconocimiento automático del habla. Contienen emociones básicas como: felicidad,
tristeza, enojo, sorpresa, miedo, neutral, etc. en diversos idiomas hablados (Waghmare et al.,
2012).
Para el presente estudio, hemos analizado las siguientes bases de datos de emociones.
• RAVDESS (The Ryerson Audio-Visual Database of Emotional Speech and Song),
incluye 1440 archivos con la participación de 24 actores profesionales (12 mujeres,
12 hombres), que entonan dos declaraciones léxicamente combinadas en un acento
neutral del idioma inglés proveniente de América del Norte. Contiene expresiones
habladas en las emociones: neutral, calma, felicidad, tristeza, enojo, miedo, asco y
sorpresa (Livingstone & Russo, 2018).
• TESS (Toronto emotional speech set), una base de datos elaborada en la
Universidad de Toronto en la que participaron dos actrices (de 26 y 64 años de
edad) vocalizando un conjunto de 200 palabras en idioma inglés y expresando siete
emociones distintas (miedo, sorpresa, tristeza, enojo, disgusto, felicidad y neutral),
generando un total de 2800 archivos de audio (Dupuis & Pichora-Fuller, 2010).
18
Extractores de características
La extracción de características es una de las fases más significativas del ML. “Esta tiene
como objetivo la obtención de atributos del objeto a clasificar, de forma tal que un método de
clasificación pueda encontrar regiones de decisión para cada una de las clases en el espacio
formado por dichos atributos o características” (García et al., 2019).
Coeficientes Cepstrales en las Frecuencias de Mel
Para realizar la extracción de características o features, las grabaciones de audio fueron
empleadas para definir los Coeficientes Cepstrales en las Frecuencias de Mel (MFCC, por sus
siglas en inglés Mel Frequency Cepstral Coefficients).
Los MFCC hacen referencia a la amplitud del espectro del habla de forma compacta, esto
los ha convertido en la técnica de extracción de características más utilizada en reconocimiento de
voz. La Figura 2 muestra el proceso para la obtención del MFCC a partir de un filtro de pre-énfasis
a la señal, luego se fracciona la misma en segmentos y se utiliza una función de ventaneo, en este
caso una ventana de Hamming. El ventaneo tiene como función, suprimir los bordes de la señal y
darle un énfasis a la parte central del segmento para su estudio. Al conseguir la Transformada
Discreta de Fourier de cada segmento se analiza la amplitud del espectro, y estos datos son
dirigidos al dominio de Mel a través del Banco de Filtros. La escala Mel se fundamenta en mapear
entre la frecuencia actual al pitch que distingue, un escucha humano simulado o representado, esta
escala es lineal por debajo de 1 kHz y logarítmica por encima de este umbral. Después se adquiere
el logaritmo de la señal y por último se emplea la Transformada de Coseno Discreta, de este vector
se obtiene el número de coeficientes deseados por segmentos (Martínez Mascorro & Aguilar
Torres, 2013).
19
Figura 2
Mel Cepstral Frequency Coefficients MFCC
Nota: El rango de frecuencias Mel está fundamentado en la reducción de frecuencias de la señal de voz teniendo como
referencia aquellas frecuencias que se pueden percibir más fácilmente a través del oído humano. Tomado de Franco
Galván (2017).
Tasa de cruces por cero
La tasa de cruces por cero (ZCR, por sus siglas en inglés zero-crossing rate) calcula la
frecuencia en que la señal de voz pasa por el nivel cero durante el segmento bajo análisis. Esta
medida otorga una representación general de la asignación en frecuencia de la señal. Una ZCR alta
señala que el segmento de voz posee un contenido espectral en frecuencia elevada notable,
mientras que una tasa inferior representa que casi toda la señal está en baja frecuencia. Esta
diferencia del espectro posibilita conseguir otra forma de dispersar los segmentos de voz sonoros
de los sordos. Una sección sonora tiene un espectro centrado en baja frecuencia y uno opaco tiene
un elemento en alta frecuencia superior. “El mayor inconveniente de la tasa de cruces por cero es
20
que se ve muy influenciada por el ruido de fondo, ya que este suele tener un espectro amplio,
elevando la tasa de cruces por cero cuando en realidad no hay señal de interés” (Bleda et al., 2012).
Transformada de Fourier de tiempo corto
La Transformada de Fourier (STFT, por sus siglas en inglés Short-time Fourier transform)
posibilita comprender todos los elementos de frecuencia de una señal y su correspondiente
aportación energética. Esto define que la STFT posee una considerable resolución en el dominio
frecuencial pero una resolución en el dominio temporal anulada, debido a que la STFT necesita,
para su deducción, el empleo de todos los antecedentes de la señal o del tramo de señal analizado,
por lo que no es posible definir en qué momento de la señal hace presencia un elemento de
frecuencia precisa. Por consiguiente, la STFT es una herramienta demasiado útil en el estudio de
señales estacionarias. No obstante, ésta no puede ser utilizada con el propósito de conseguir
información exacta de cuando los diversos elementos de frecuencia realizan su intervención en la
señal, como por ejemplo, las señales no estacionarias cuyo contenido espectral difiere con el
tiempo (Flórez et al., 2009).
Selector de características
La selección de características es la tarea de elegir un pequeño subconjunto de
características que sea suficiente para predecir bien las etiquetas de destino.
Se ha declarado que la selección de características es un modo eficiente y apto para preparar
datos de alta dimensión en la minería de datos y el aprendizaje automático, en la Figura 3 se
presenta el proceso de selección de características para un conjunto de datos. La actual aparición
de técnicas novedosas, nuevos tipos de datos y características no solo continúa el desarrollo de la
investigación existente, sino que también hace que esta evolucione continuamente, llegando a ser
21
adaptable a una gama más amplia de implementaciones. La selección de características tiene como
propósito escoger un limitado subconjunto de las características más importantes de las iniciales
excluyendo características intrascendentales, redundantes o ruidosas. La selección de
características habitualmente proporciona un mejor rendimiento de aprendizaje, es decir, una
mayor exactitud de aprendizaje, menor costo computacional y mejor análisis del modelo (Wang et
al., 2016).
Figura 3
¿Qué es la selección de funciones y por qué la necesitamos en el ML?
Nota: La gráfica muestra el proceso de selección de características de un conjunto de datos de entrenamiento que son
clasificados de forma interna, para poder filtrar y determinar las características más relevantes. Tomado de Srinidhi,
S. (2018).
Inteligencia artificial
La inteligencia artificial (IA) es una especialidad académica vinculada con la teoría de la
computación cuya finalidad es imitar algunas de las capacidades y habilidades intelectuales
humanas en sistemas artificiales, las cuáles hacen referencia a procedimientos de percepción
sensorial, como por ejemplo la visión, audición, etc., y a procesos relacionados con el
reconocimiento de patrones, por lo que las aplicaciones más comunes de la IA son el manejo de
los datos y la determinación de sistemas (Escolano Ruiz et al., 2003).
22
El planteamiento de un sistema de IA habitualmente necesita del manejo de materiales de
especialidades muy distintas como el cálculo numérico, la estadística, la informática, el procesado
de señales, el control automático, la robótica o la neurociencia. Por esta razón, a pesar de que la
IA es conocida como un campo de la informática teórica, es una especialidad en la que aportan de
forma continua un gran número de investigadores, técnicos y matemáticos. En algunas ocasiones,
también se fundamenta de estudios en campos tan diversos como la psicología, la sociología o la
filosofía (Benítez et al., 2014).
Aprendizaje automático
El aprendizaje automático (ML, por sus siglas en inglés Machine Learning) es un término
aplicado en la comunidad de IA para referirse a una mejora automatizada fundamentada en la
experiencia o los datos empíricos en el cumplimiento de una tarea determinada, como la
optimización de una función objetivo (Gass & Fu, 2013).
En este marco de referencia, los sistemas que aprenden de manera automatizada deben ser
aptos para trabajar con un rango muy extenso de modelos de datos de entrada, que pueden
incorporar datos inconclusos, inciertos, ruido, inconsistencias, entre otros. El ML consta de dos
etapas en su proceso; en la primera, el sistema elige las características más importantes de un
objeto y luego realiza su comparación con otras existentes, cuando las diferencias son
significativas inicia la segunda fase, la cual consiste en la adaptación del modelo del objeto a partir
del resultado del cotejamiento (Moreno et al., 1998).
Para poder ordenar las características obtenidas de las grabaciones de audio, es importante
determinar el tipo de algoritmo de ML más adecuado para realizar el respectivo entrenamiento de
los datos y posteriormente las pruebas, entre estos constan: aprendizaje supervisado y aprendizaje
no supervisado
23
Los tipos de ML son los siguientes: aprendizaje supervisado, aprendizaje no supervisado y
aprendizaje por refuerzo.
Enfocándonos en el aprendizaje supervisado, podemos determinar que es un paradigma de
ML para obtener la información de vínculo entrada-salida de un sistema fundamentado en una
colección dada de muestras de entrenamiento de entrada-salida emparejadas. Como la salida se
representa como la etiqueta de los datos de entrada o la inspección, una muestra de entrenamiento
de entrada-salida también se nombra datos de entrenamiento etiquetados o datos supervisados (Liu
& Wu, 2012).
Máquinas de Vectores de Soporte
Una Máquina de Soporte Vectorial (SVM, por sus siglas en inglés Support Vector
Machines) aprende la superficie decisión de dos clases diferentes de los puntos de entrada. Como
un clasificador de una sola clase, la descripción dada por los datos de los vectores de soporte es
apta para formar una frontera de decisión alrededor del dominio de los datos de aprendizaje con
muy poco o ningún conocimiento de los datos fuera de esta frontera. Los datos son mapeados por
medio de un kernel Gaussiano u otro tipo de kernel a un espacio de características en un espacio
dimensional más alto, donde se busca la máxima separación entre clases, en la Figura 4 se
evidencia la división entre dos clases a través de la técnica del SVM. Esta función de frontera,
cuando es traída de regreso al espacio de entrada, puede separar los datos en todas las clases
distintas, cada una formando un agrupamiento (Betancourt, 2005).
24
Figura 4
Máquinas de Vectores de Soporte
Nota: La gráfica presenta la clasificación del conjunto de puntos en dos grupos, especificando el tipo de kernel lineal
para fijar una recta o frontera entre las clases. Tomado de Gorreta, D. (2015).
Redes Neuronales Artificiales
Una red neuronal artificial (ANN, por sus siglas en inglés Artificial neural network) es “un
nuevo sistema para el tratamiento de la información, cuya unidad básica de procesamiento está
inspirada en la célula fundamental del sistema nervioso humano: la neurona” (Matich, 2001).
Las ANN son competentes en actividades tales como el reconocimiento de patrones,
problemas de optimización o clasificación, y se pueden incorporar en un sistema de apoyo a la
toma de decisiones, pero no son una alternativa capaz de solucionar todas las preguntas o
cuestiones: todo lo contrario, son modelos muy específicos que pueden aplicarse en dominios muy
precisos (Pérez Ramírez & Fernández Castaño, 2007).
Existen diversos modelos en base a su arquitectura y forma de aprendizaje. Una de las más
usadas es la red fundamentada en varias capas de neuronas de tipo perceptrón, entrenadas a través
de la técnica de retropropagación (backpropagation) como se muestra en la Figura 5. Las uniones
25
o enlaces de la red comienzan aleatoriamente y de forma creciente se adaptan a medida que se
realiza el entrenamiento con los datos utilizables, de manera que ésta se instruye en reconocer
sucesivamente todos los procesos del conjunto de datos empleados para su entrenamiento. El
aprendizaje concluye cuando, después de un número cambiante de iteraciones, se logra agrupar
apropiadamente el total de los procesos, o bien se consigue un valor notable de coincidencias, que
no aumenta con más iteraciones. De esta forma, la red aprende a identificar patrones con todo tipo
de figuras o formatos optimizando su desempeño como clasificador (Sáenz Bajo & Álvaro
Ballesteros, 2002).
Figura 5
Esquema de una Red Neuronal Artificial (RNA)
Nota: La gráfica muestra el esquema de una Red Neuronal Artificial (RNA) de tres capas interconectadas, cada
relación entre las neuronas interviene como un canal de comunicación a través del cual se traslada la información.
Tomado de Jaramillo & Antunes (2018).
Bosques Aleatorios
Medina-Merino & Ñique-Chacón (2017), afirman que uno de los algoritmos que se
encuentran dentro de la clasificación de aprendizaje supervisado es “el modelo no paramétrico
Random Forest, el cual es una técnica de clasificación que se basa en un conjunto de árboles de
26
decisiones, ideal para trabajar con una gran cantidad de datos y múltiples variables, ya que
selecciona submuestras para elaborar cada árbol”.
Los bosques aleatorios (RF, por sus siglas en inglés Random forest) son una composición
de árboles predictivos, el cual está constituido por un conjunto de árboles incorrelacionados para
luego determinar su promedio; de manera que cada árbol necesita de las cifras de un vector
aleatorio de la muestra de forma independiente y con la distribución igual que todos los árboles en
el bosque como se muestra en la Figura 6. “Random Forest o Selvas Aleatorias es una técnica
predictiva en la cual todos los clasificadores del método del consenso (Bagging) son árboles de
decisión. Cada modelo genera una predicción y se selecciona por la mayor cantidad de votos”
(Haro Rivera et al., 2018).
Figura 6
Esquema de un modelo de Bosques aleatorios
Nota: En la gráfica se muestran los datos de entrenamiento que representarían la entrada, pasando a la siguiente etapa
en la cual se generan múltiples árboles. Cada árbol genera una clasificación y el resultado o salida es la clase con
mayor cantidad de votos en todo el bosque. Tomado de (Orellana Alvear, 2018)
27
Coeficiente kappa de Cohen
El coeficiente kappa (κ) constituye la relación de coincidencias observadas sobre el total
de observaciones, habiendo descartado las coincidencias obtenidas al azar. El coeficiente kappa
(κ) ocupa cifras entre -1 y +1; entretanto más aproximado a +1, mayor es el nivel de coincidencia
inter-observador. Cuando una cifra de κ = 0 demuestra que la coincidencia examinada es la que se
supone a razón únicamente del azar. El análisis del coeficiente kappa se desarrolla correlacionando
la cifra obtenida con una gradación cualitativa que incorpora seis niveles de fuerza de concordancia
(“pobre”, “leve”, “aceptable”, “moderada”, “considerable” y “casi perfecta”), sintetizando la
interpretación del mismo (Cerda L & Villarroel Del P., 2008).
Python
Es un lenguaje de programación interpretado dinámico, siendo considerado un lenguaje de
alta productividad por la sintaxis simple que se usa además contiene gran cantidad de bibliotecas
y se ha ganado la popularidad en la comunidad científica informática (Lam et al., 2015).
Python es un lenguaje muy expresivo y sus programas son muy conciso: un programa
Python suele ser bastante más reducido que su semejante en lenguajes como C, en la Tabla 4 se
presenta un análisis comparativo entre Python y otros lenguajes de programación. Python llega a
ser valorado por muchos un lenguaje de programación de muy alto nivel. Python fue diseñado por
Guido van Rossum y se encuentra en un ciclo continuo de optimización por un gran grupo de
desarrolladores por esta razón se debe la gratuidad de su intérprete. El ambiente de desarrollo de
Python localiza varios de los errores de programación que escapan a la inspección de los
compiladores y otorga información relevante para descubrirlos y modificarlos. Este lenguaje de
programación “puede utilizarse como lenguaje imperativo procedimental o como lenguaje
orientado a objetos” (Marzal & Gracia, 2002).
28
Tabla 4
Comparativo entre SAS, R y Python
Parámetro SAS R Python
Disponibilidad / Costo 2 5 5
Facilidad de aprendizaje 4.5 2.5 3.5
Capacidades de manejo de datos 4 4 4
Capacidades gráficas 3 4.5 4
Avances en la herramienta 4 4.5 4
Perspectivas laborales 4.5 3.5 2.5
Soporte de servicio al cliente y
comunidad
4 3.5 3
Nota: Para cada parámetro de cada uno de los lenguajes mencionados se proporción su valoración específica (1 - Baja,
5 - Alta). La elaboración es propia y la fuente corresponde a Alejandro, F. (2020).
Revisiones sistemáticas
Las revisiones sistemáticas forman parte de resúmenes claros y cuidadosamente
estructurados para proporcionar la mejor evidencia científica orientada a responder una pregunta
de investigación especifica (B. Moreno et al., 2018).
Kitchenham (2009) menciona que el objetivo de una revisión sistemática de la literatura no
solamente es agregar toda la evidencia existente sobre una pregunta de investigación sino también
es destinado al apoyo del desarrollo de directrices que se basan en la evidencia para profesionales.
El mapeo sistemático es una metodología que se centra en dar una visión general en busca
de la literatura de un área de investigación para así clasificar los temas que se relacionan con las
categorías de la clasificación o que se han cubierto en la literatura (Petersen et al., 2015).
29
Mapeo Sistemático sobre los estados de ánimo de las personas empleando técnicas de
aprendizaje automático
Para la siguiente investigación se consideran las recomendaciones provistas en los trabajos
de (Botto Tobar, 2014; Monroy et al., 2016).
Planteamiento de la pregunta de investigación
El propósito de la investigación consiste en identificar las técnicas de ML que se usan hasta
el momento para el reconocimiento del EA de las personas. Para el mapeo sistemático se define la
siguiente pregunta de investigación:
RQ: ¿Cuáles son las técnicas o metodologías que se aplican en los estudios existentes para
identificar el EA de las personas a través de la voz?
Esto permitirá contar con un inventario de los trabajos existentes para la identificación de
los EA en las personas. Dado que nuestra de investigación es demasiado amplia, esta se ha
descompuesto en sub-preguntas de investigación más detalladas con el objetivo de ser abordada.
SRQ1: ¿Cómo se clasifican las técnicas utilizadas en los estudios existentes?
SRQ2: ¿Qué artefactos se utilizan en cada estudio para identificar el EA de las personas?
Estas dos preguntas permitirán clasificar las técnicas que empleen ML y que artefactos son
utilizados para identificar el EA de las personas, facilitando el trabajo a futuras investigaciones.
Búsqueda de estudios primarios
La búsqueda de estudios primarios se realizó en el gestor de búsquedas bibliográficas
académica – científica: Google Scholar.
La expresión de la cadena de búsqueda para obtener los estudios se formuló de la siguiente
manera: (techniques OR method*) AND (identif* OR recogni*) AND “mood” AND “voice”
30
La búsqueda se realizó con la implementación de la cadena de búsqueda en los siguientes
campos: titulo, resumen y palabras claves, los estudios que se revisaron son solamente los
publicados desde el año 2015 hasta la elaboración de este documento siendo incluidos en los
criterios.
Criterios de Inclusión y Exclusión
Los estudios que se incluyeron y excluyeron fue evaluado por la decisión de los autores
tomando en consideración el título, resumen y palabras claves.
Se incluyeron los siguientes estudios que cumplían al menos uno de los criterios de
inclusión:
• Artículos de revistas, capítulos de libros que presenten resultados de estudios
empíricos.
• Estudios en el idioma inglés.
• Estudios que se basen en técnicas o métodos para identificar el EA a través de la voz
humana.
Se excluyeron los siguientes estudios que cumplían al menos uno de los criterios de
exclusión:
• Estudios cuyo tema no se relacionan a los EA de las personas.
• Artículos introductorios para ediciones de talleres o libros.
• Documentos duplicados.
• Documentos de opinión.
• Publicaciones en revistas o actas de conferencias no arbitradas.
• Artículos de extensión menor a 5 páginas.
• Estudios no escritos en inglés.
31
En la Tabla 5 se presenta la cantidad de artículos encontrados y seleccionados para realizar
el presente proyecto.
Tabla 5
Cantidad de Artículos Seleccionados
Base de Datos Encontrados Seleccionados
Google Scholar 433 4
Nota: En esta tabla se detallan los artículos encontrados y seleccionados en la base de datos. La elaboración es propia
y la fuente corresponde al mapeo sistemático.
Aseguramiento de calidad
Se consideró fundamental la evaluación de calidad para otorgar una evaluación de
rigurosidad a los estudios primarios seleccionados y así detectar lo más representativos para
realizar el mapeo sistemático, respondiendo las siguientes preguntas:
• ¿El estudio utiliza técnicas o métodos para identificar el EA de las personas?
• ¿El estudio ha sido publicado en una conferencia o revista relevante?
• ¿Otros autores han citado el estudio?
Extracción de Datos
La estrategia para la extracción de datos se definió con posibles respuestas a cada sub-
pregunta que se había definido en la investigación para facilitar la clasificación y asegurar la
extracción de datos en todos los trabajos seleccionados, como se evidencia en la Tabla 6.
32
Tabla 6
Criterios de Extracción
Pregunta de
Investigación
Criterio Opciones
SRQ1: ¿Cómo se
clasifican las técnicas
utilizadas en los
estudios existentes?
C1: Clasificación de
técnicas
Con ML
Sin ML
Supervisado
No Supervisado
SRQ2: ¿Qué
artefactos se utilizan
en cada estudio para
identificar el EA de
las personas?
C2: Artefactos Utilizados DataSet
Agrupación de Datos
Patrones de Voz
Nota: La tabla detalla las preguntas con sus criterios de extracción que se usarán en el mapeo sistemático. La
elaboración es propia y la fuente datos propios de la investigación.
Para SRQ1 ¿Cómo se clasifican las técnicas utilizadas en los estudios existentes?, un
artículo puede ser categorizado en una de las siguientes respuestas:
C1: Clasificación de técnicas: Se empleó este término para lograr clasificar los
estudios que aplican ML y que son utilizadas por investigadores de acuerdo a Sandoval
Serrano (2018), además de los que implementaron otro tipo de técnicas no relacionadas al
ML para comprobar cómo se identificaría el EA utilizando otros tipos de técnicas.
a) Supervisado: para esta clasificación es cuando se parametriza las preguntas
(características) y las respuestas(etiquetas).
b) No supervisado: solo se parametriza las características.
SRQ2: ¿Qué artefactos se utilizan en cada estudio para identificar el EA de las personas?,
Se plantea la pregunta para identificar qué artefactos son utilizados para identificar el EA
de las personas.
33
Fase de Resultados
Los resultados que responden a las preguntas se encuentran detallados en la Tabla 7.
Tabla 7
Porcentaje de los Criterios de Extracción
Pregunta de
Investigación
Criterio Opciones Porcentaje Absoluto
SRQ1: ¿Cómo
se clasifican las
técnicas
utilizadas en
los estudios
existentes?
C1: Clasificación
de técnicas
Con ML
Sin ML
Supervisado
No
Supervisado
75% 3
SRQ2: ¿Qué
artefactos se
utilizan en
cada estudio
para
identificar el
EA de las
personas?
C2: Artefactos
Utilizados
DataSet
Agrupación de
Datos
Patrones de
Voz
50%
25%
2
1
Nota: Se detallan los resultados obtenidos por cada criterio de extracción. La elaboración es propia y la fuente datos
propios de la investigación.
Braun et al., [M1] en su estudio aplicó ML con la técnica de ANN como artefacto de guía
para la identificación del EA realizaron grabaciones en salas acústicas blindadas con equipos de
alta gama para obtener un dataset de 5 idiomas diferentes siendo los siguientes: inglés, francés,
alemán, italiano, español. Cada idioma constaba de 120 sujetos donde los clasificaban según su
género, edad y educación. El objetivo del trabajo es extender el método CSA y así encontrar un
esquema de grabaciones para detectar de manera óptima la transición de “normal” a “afectado” y
sea aceptable para todo tipo de personas de pruebas y pacientes.
Ramm et al., [M3] presentan en su investigación el primer artefacto de código abierto para
anotar el tiempo morfosintáctico, el EA y la voz aplicado en complejos verbales en inglés, francés
34
y alemán. La anotación se fundamenta en un grupo de reglas propias del lenguaje, que se emplean
en los árboles de dependencia y aprovechan la información sobre lemas, propiedades morfológicas
y etiquetas gramaticales de los verbos. Este artefacto tiene una precisión promedio de
aproximadamente 76%. Las propiedades de tiempo EA y voz son convenientes tanto como
propiedades en el modelado computacional como para la investigación corpuslingüística. El
artefacto está implementado en Python. Toma como entrada el archivo de texto analizado en el
formato CoNLL (Ramm et al., 2017).
Khorram et al., [M2] propone su estudio en el uso de un conjunto de datos de emociones
salvaje, PRIORI EMOTION dataset que contiene grabaciones de conversaciones cotidianas en
telefonos inteligentes de paciente con transtorno bipolar, para la prediccion del EA usaron 2
sistemas que son parte del ML la primera fue red neuronal de avance profundo (FFNN) que opera
en el conjunto de caracteristicas eGeMAPS y la segunda aplico una red neuronal convolucional
(CNN) que funciona con las caracteristicas del banco de frencuencias Mel (log-MFB).
Victory et al., [M4] desarrollan en su investigación la propuesta de aumentar la
participación del campo médico en el monitoreo del EA a personas que padecen trastornos del
mismo y de esta forma, descubrir su dinámica para llegar a predecir su estado anímico y
proporcionar micro intervenciones digitales. Los datos que se analizaron fueron conseguidos
mediante grabaciones de voz, GPS, rastreador de sueño, rastreador de actividad, rastreador de
frecuencia cardíaca, metadatos del teléfono, pulsaciones de teclas y autoinformes, de los pacientes
involucrados. Durante la realización de este estudio, se utilizó un algoritmo aplicando RF y se
obtuvieron exitosos resultados, aportando a la gran cantidad de herramientas potenciales que los
médicos pueden usar para prevenir episodios de trastornos relacionados al EA (Victory et al.,
2020).
35
Hipótesis
En esta investigación, se enuncia la siguiente hipótesis:
El algoritmo SVM es el más utilizado para la clasificación, etiquetado y entrenamiento de
las muestras para estructurar un modelo que identifique correctamente las clases definidas
(positivo y negativo) en el reconocimiento del EA de las personas por la voz.
Variables de la investigación
Las siguientes variables a enunciar contribuyen en la realización del proyecto:
Variable dependiente:
Reconocimiento del EA de las personas por la voz.
Variable independiente:
Algoritmos de ML.
La variable dependiente es el punto evidenciado y de mejorías en la presente investigación,
se describe como el reconocimiento del EA de las personas por la voz. Los algoritmos de ML;
SVM, RF y ANN, representarían la variable independiente.
En resumen, el desarrollo de esta investigación ayuda a optimizar el reconocimiento del
EA de las personas por la voz e identificar cuál es el algoritmo de ML más adecuado para clasificar
los datos obtenidos. Las variables establecidas previamente tienen el propósito de orientar al
investigador hacia la resolución, volviéndose útiles al momento de plantear un tema investigativo
o realizar posteriores implementaciones. Por lo consiguiente, a través de estas variables se
determinan la problemática del proyecto y el curso por el que debe enfocarse el investigador para
la solución de este caso de estudio.
36
CAPÍTULO III
METODOLOGÍA DE LA INVESTIGACIÓN
Para la realización del presente proyecto se consideró el método científico debido a que
posibilitó inspeccionar, indagar y examinar, todo tipo de resultados e investigaciones para la
obtención de modelos innovadores que se justificarán en pruebas controladas y monitoreadas,
además de apoyarse en estudios empíricos. Este método, a través del análisis de las soluciones
obtenidas, nos permitió finalizar con una argumentación racional.
Modalidad de la investigación
El desarrollo del estado del arte se fundamenta en la adquisición de datos y referencias con
respecto a un tema en cuestión, con el propósito de realizar comparativas y originar estudios
inéditos. Por esta razón para la ejecución de la presente investigación, la modalidad seleccionada
fue 30% bibliográfica debido a que se consideraron artículos científicos, revistas, enciclopedias,
libros, además de la aplicación sistemática del método científico; y 70% experimental, por el
desarrollo de algoritmos de ML para evidenciar resultados a través de pruebas aplicadas.
37
Tipo de investigación
En el presente estudio se utilizó el siguiente tipo de investigación:
Investigación cuasi experimental
La investigación cuasiexperimental tiene como finalidad demostrar una hipótesis causal
empleando (por lo menos) una variable independiente donde por cuestiones logísticas o éticas no
es probable designar las unidades de investigación al azar a los grupos. A causa de que varias
determinaciones a nivel social se obtienen a partir del resultado de investigaciones con estas
características, es necesario que se tenga una planificación adecuada de la utilización del
tratamiento, de la inspección en el proceso de investigación y del estudio de los datos (Fernández
García et al., 2014).
“En un cuasiexperimento pueden plantearse más hipótesis alternativas que se ajusten a los datos.
No obstante, por otro lado, existe una mayor generalización de los resultados a otras situaciones
distintas a la de investigación” (Bono Cabré, 2012).
Diseño metodológico de la investigación
El método científico es un procedimiento de investigación utilizado para la obtención de
conocimiento en las ciencias. Para ser denominado científico, un método de investigación debe
fundamentarse en lo experimental y en la efectividad, y estar relacionado a las causas concretas de
los estudios de razonamiento. “El método es el modo en que se actúa para conseguir un propósito,
lleva implícito la aplicación de un sistema de principios y normas de razonamiento que permiten
establecer explicaciones de los problemas investigados sobre cierto objeto de estudio” (Horsford
& Bayarre, 2009).
38
Existen otras opciones para conseguir soluciones acerca de la realidad como la tenacidad o
inercia, la perspicacia y el poder, pero sólo la ciencia es una indagación ordenada, supervisada,
experimental y crítica sobre sugerencias o propuestas teóricas de las relaciones entre los
fenómenos analizados (Igartua & Humanes, 2004).
Metodología de investigación
En los estudios realizados sobre algoritmos para el reconocimiento del EA de las personas
a través de la voz, son importantes las siguientes cuestiones: la base de datos de discurso
emocional, la extracción y selección de características, y el entrenamiento de los datos. La base de
datos de discurso emocional debe estar conformada por la colección de muestras de audio que
serán utilizadas posteriormente para el entrenamiento de los algoritmos de aprendizaje supervisado
para clasificación; SVM, RF y ANN. Las características y variedad de las grabaciones de audio se
representarán en la precisión y sensibilidad de los algoritmos a estudiar.
Bases de datos
Para realizar el entrenamiento de los algoritmos de ML, se consultaron fuentes
bibliográficas de diversas bases de datos, las cuales están constituidas por una gran cantidad de
muestras de audio en idiomas determinados, clasificadas de acuerdo a emociones variadas, que
luego se agruparían y etiquetarían en dos clases; positivo y negativo. Una lista de las diferentes
bases de datos y sus características se puede visualizar en la Tabla 8.
39
Tabla 8
Bases de Datos de Discurso Emocional
Base de Datos Idioma Emociones Elicitación Tamaño
Drama corpus Mandarín Ira, asco, miedo,
felicidad,
tristeza,
sorpresa,
neutral.
Grabaciones de
imitadores
profesionales
en
diferentes esta
dos
emocionales.
2,100 oraciones en
440 diálogos por
dos hablantes (1
hombre y 1 mujer)
Acted speech
corpus
Mandarín Ira, miedo,
felicidad,
tristeza, neutral.
Una actriz
profesional que
lee textos de
una colección
de resúmenes
de lecturas.
1,500
declaraciones,
3,649 frases, un
hablante.
Danish
Emotional Speech
Database
Danés Ira, felicidad,
tristeza,
sorpresa,
neutral.
Grabaciones de
actores que
pronuncian
palabras,
oraciones y
pasajes de
habla fluida en
diferentes
estados
emocionales.
Aproximadamente
10 minutos de
discurso en total,
cuatro oradores en
total (dos mujeres,
dos hombres).
INTERFACE
Emotional Speech
Synthesis
Database
Inglés/Francés/
Esloveno/Espa
ñol
Ira, asco, miedo,
alegría, tristeza,
sorpresa,
neutral.
Seis tipos
diferentes de
oraciones,
habladas por
actores
profesionales
en cada idioma
y cada
emoción.
Dos actores (una
mujer, un
hombre), 150-190
enunciados para
cada uno de los
seis estilos
emocionales en
cuatro idiomas.
Berlin Database
of Emotional
Speech
Alemán Ira,
aburrimiento,
asco, miedo,
alegría, tristeza,
neutral.
Grabaciones de
actores no
profesionales
que pronuncian
oraciones aleat
orias en cada
emoción.
Más de 800
enunciados, 10
hablantes (5
mujeres, 5
hombres).
40
SES (Spanish
Emotional Speech
database)
Español Ira, felicidad,
tristeza,
sorpresa,
neutral.
Grabaciones de
un actor que lee
textos neutrales
en diferentes
estados
emocionales.
Tres pasajes y 15
oraciones
interpretadas por
un hablante en
cuatro emociones
más estilo neutral.
RAVDESS (The
Ryerson Audio-
Visual Database
of Emotional
Speech and Song)
Inglés Neutral, calma,
felicidad,
tristeza, enojo,
miedo, asco y
sorpresa.
Grabaciones de
actores que
entonan dos
declaraciones
léxicamente
combinadas.
Incluye 1440
archivos con la
participación de
24 actores
profesionales (12
mujeres, 12
hombres).
TESS (Toronto
emotional speech
set)
Inglés Miedo,
sorpresa,
tristeza, enojo,
disgusto,
felicidad y
neutral.
Grabaciones de
actrices
vocalizando un
conjunto de
200 palabras.
2800 archivos de
audio con la
participación
de dos actrices (de
26 y 64 años de
edad) Nota: Características de cada base de datos con su respectivo idioma. La elaboración es propia y la fuente datos
propios de la investigación.
Entre las bases de datos de discurso emocional revisadas en el estado del arte, dos de ellas
se encuentran públicas en Internet; RAVDESS y TESS. Sin embargo, dichas bases de datos poseen
muestras de audio en idioma inglés y cada audio está etiquetado por la emoción presentada por el
intérprete.
La base de datos RAVDESS (The Ryerson Audio-Visual Database of Emotional Speech
and Song), contó con 1440 archivos en formato wav, con la participación de 24 actores
profesionales (12 mujeres, 12 hombres), que realizan dos declaraciones léxicamente mezcladas en
un acento neutral del idioma inglés. Las emociones que maneja son: neutral, calma, felicidad,
tristeza, enojo, miedo, asco y sorpresa. Por otro lado, la base de datos TESS (Toronto emotional
speech set) elaborada en la Universidad de Toronto está constituida por la participación de 2
actrices (de 26 y 64 años de edad) entonando un conjunto de 200 palabras en idioma inglés y
expresando siete emociones distintas; miedo, sorpresa, tristeza, enojo, disgusto, felicidad y neutral.
Proporcionando un total de 2800 archivos de audio en formato wav.
41
Durante el desarrollo de esta investigación se utilizaron las bases de datos mencionadas
previamente, pero cada audio que expresaba una emoción específica fue reagrupado a su
correspondiente EA (positivo y negativo). En la Tabla 9 se pueden visualizar los resultados del
etiquetado según el juicio de expertos en el área de psicología.
Tabla 9
Etiquetado según Expertos de las Emociones a EA
Emoción Estado de ánimo
Enojo Negativo
Asco Negativo
Miedo Negativo
Felicidad Positivo
Neutral Negativo
Sorpresa Positivo
Tristeza Negativo
Calma Positivo
Nota: La tabla muestra las emociones básicas de las personas etiquetadas por su correspondiente EA. La elaboración
es propia y la fuente datos propios de la investigación.
Extractores de características
En el procesamiento de los audios, se segmentó cada uno y se obtuvieron las características
específicas de cada señal de audio que fueron representadas como un vector. Para la realización
de extracción de características se crearon scripts en Python.
La extracción de características fue una etapa muy importante en la realización del presente
proyecto, debido a que influyó en el momento de brindar buenos resultados y de esta manera,
obtener datos de entrada para identificar los EA en los clasificadores.
42
MFCC
MFCC (coeficientes espectrales de las frecuencias en la escala Mel) es una de las técnicas
más importantes en el reconocimiento de la voz. En la Figura 7 se describe el esquema básico para
la extracción de un vector MFCC.
Figura 7
Pasos de un Vector MFCC
Nota: El gráfico representa los pasos a seguir para conseguir un vector MFCC. Tomado de Bhattarai et al., (2017)
1. Pre-énfasis: la señal pasa por un filtro que enfatice las frecuencias más altas, para
equilibrar el espectro de sonidos sonoros permitiendo obtener más información de la
señal. El filtro de pre-énfasis más utilizado esta dado por la siguiente función, donde b
controla la pendiente del filtro y el valor suele estar entre 0,4 y 1 (Rao & Vuppala,
2014):
𝐻(𝑧) = 1 − 𝑏𝑧−1
2. Entramado y ventaneo: la ventana de Hamming se aplica para obtener características
acústicas estables, para el análisis de la voz siempre debe examinarse en segmentos
Señal de Voz
Pre-énfasis
Entramado y
ventaneo
(Hamming)
Transformada
rápida de
Fourier (STFT)
Banco de filtros
de Mel
Logaritmo de la
señal
transformada
Transformada
Coseno Discreta
(DCT)
MFCC […]
43
cortos durante un periodo de tiempo, a corto plazo generalmente se aplica una ventana
de 20 ms siendo suficiente para que proporcione una buena resolución espectral y en
intervalos de 10 ms permitiendo rastrear las características temporales de los sonidos
del habla individuales.
La función Hamming está representada por la siguiente ecuación:
𝑊𝑛(𝑚) = 0.54 − 0.46 𝐶𝑜𝑠 ( 2𝜋𝑚
(𝑁𝑚 − 1)) , 0 < 𝑚 < 𝑁𝑚 − 1
siendo 𝑊𝑛(𝑚) = Hamming
𝑁𝑚 = número de nuestras en cada trama
La señal de salida se representa como 𝑌(𝑚) después de multiplicar la señal de entrada
𝑋(𝑚) y la función de la ventada Hamming 𝑊𝑛(𝑚).
𝑌(𝑚) = 𝑋(𝑚) ∗ 𝑊𝑛(𝑚)
3. Transformada de Fourier Discreta: cada cuadro de ventana se convierte en el espectro
de magnitud y se obtiene el resultado de cada trama.
𝐷𝑘 = ∑ 𝐷𝑚
𝑁𝑚−1
𝑚=0𝑒
−𝑗2𝜋𝑘𝑚𝑁𝑚
Donde 𝑁 es el número de puntos utilizados para calcular la transformada de Fourier
discreta.
4. Banco de filtros de Mel: la señal de la transformada de Fourier se pasa por un conjunto
de filtros conocidos como banco de filtros de Mel para adaptar la resolución de la
frecuencia a las propiedades auditivas humanas. La Figura 8 representa un banco de
filtros en la escala Mel. Es necesario que se realice un mapeo de escala entre las escalas
de frecuencias reales dadas (Hz) y la frecuencia de escala percibida (Mels), en el
transcurso del mapeo, cuando el valor de la frecuencia dado es hasta 1000 Hz, la escala
44
Mel es aproximadamente un espaciado de frecuencia lineal y un espaciado logarítmico
después de los 1000 Hz (Gupta et al., 2013).
Figura 8
Banco de filtros de Mel
Nota: Se muestran los bancos de filtros en forma triangular con deformación de la frecuencia de Mel. Tomado de Rao
& Vuppala ( 2014)
La siguiente ecuación permite convertir la frecuencia (𝑓) física en Mel que denota la
frecuencia percibida:
𝑓𝑚𝑒𝑙 = 2595 𝑙𝑜𝑔10 (1 + 𝑓
700)
5. Logaritmo de la señal transformada: es calcular el logaritmo de frecuencia en la escala
de Mel elevada al cuadrado para que las estimaciones de frecuencia sean menos
sensibles a posibles variaciones de la señal.
45
6. Transformada de Coseno Discreta: Produce un conjunto de coeficientes cepstrales dado
que las salidas pueden contener cantidades importantes de energía. La salida después
de aplicar el DCT se conoce como MFCC (Gupta et al., 2013).
El resultado esta dado por la siguiente ecuación:
𝐶𝑛 = ∑ (log 𝐷𝑘) cos [𝑚 (𝑘 − 1
2)
𝜋
𝑘]
𝑘
𝑘−1
Donde:
𝐶𝑛 = representa el MFCC
𝑚 = el número de coeficientes
Tasa de cruces por cero
Son los cambios de signo de una señal a lo largo del tiempo, es decir, si la tasa de la señal
que se cambia de positivo pasa a cero o a negativo, lo mismo con la tasa de la señal que se cambia
a negativo pasa a cero o a positivo, la ecuación para calcular el ZCR es la siguiente:
𝑍𝐶𝑅 = 1
𝑇 − 1∑ 𝑠𝑖𝑔 (𝑥𝑚 ∗ 𝑥𝑚+1)
𝑚= 𝑇−1
𝑚=0
Donde 𝑇 es la frecuencia de muestreo y:
𝑠𝑖𝑔(𝑥) = { 0 𝑖𝑓 𝑥 > 01 𝑖𝑓 𝑥 < 0
Es una función indicadora.
Transformada de Fourier de tiempo corto
Para el análisis espectral se divide la señal en el dominio del tiempo en señales de menor
duración y esta formulado por la siguiente ecuación:
46
𝑋(𝑚, 𝑘) = ∑ 𝑥 (𝑛 + 𝑚𝐻) 𝑤
𝑁−1
𝑛=0
(𝑛) exp(−2𝜋𝑖𝑘𝑛/𝑛)
Donde:
𝑥: ℤ → ℝ señal discreta de valor real.
𝑤: [0 ∶ 𝑁 − 1] → ℝ una ventana de tiempo discreta de longitud 𝑁 ∈ ℕ
𝐻 ∈ ℕ parámetro de tamaño de salto.
𝐾 = 𝑁/2 es el índice de frecuencia correspondiente a la frecuencia de Nyquist.
𝑋(𝑚, 𝑘) coeficiente de Fourier para el índice de frecuencia 𝐾 ∈ [0 ∶ 𝐾] y
marco de tiempo 𝑚 ∈ ℤ
Para la extracción de características de cada audio se implementaron scripts en Python que se
encuentran en el repositorio GitHub (Ponce, 2020), usando la librería librosa que se detalla a
continuación:
• librosa.feature.mfcc
• librosa.feature.zero_crossing_rate
• librosa.feature.chroma_stft
• librosa.feature.rms
• librosa.feature.melspectrogram
Entrenamiento
Para identificar el EA de las personas a través de la voz se realizó un modelo para cada uno
de los siguientes algoritmos de ML; SVM, RF y ANN. Estos modelos tomaron el 80% de las
muestras de audio de las bases de datos establecidas para su entrenamiento y el porcentaje restante
fue dirigido a las pruebas. El procedimiento de la clasificación empleó los vectores resultantes de
47
la fase de extracción de características, tanto para el entrenamiento como para las pruebas. En la
Figura 9 se puede visualizar el diagrama del proceso de clasificación.
Figura 9
Diagrama del Proceso de Clasificación
Nota: Se detallan los procesos que se llevarán a cabo para tener como resultado la identificación del EA, datos propios
de la investigación.
Para elegir él o los modelos óptimos al momento de identificar el EA se llevaron a cabo las
siguientes pruebas con el clasificador SVM, seleccionando un núcleo lineal. De la Figura 10 a la
Figura 12 se utilizó únicamente la base de datos RAVDESS combinando los diferentes extractores
de características con aumento de datos.
Entrada: Señal de audio
Extracción de características
Etiquetado
EntrenamientoClasificaciónSalida: Estado
de ánimo
48
Figura 10
Clasificador SVM de la Base de Datos RAVDESS
Nota: El gráfico representa las diferentes características extraídas del audio original de la Base de Datos RAVDESS
analizando un total de audios positivos = 576 y negativos = 864 con el clasificador SVM, datos propios de la
investigación.
MFCC=13MFCC=13,
ZCR
MFCC=13,
ZCR,
CHROMA
MFCC=13,
ZCR,
CHROMA,
RMSQ
MFCC=13,
ZCR,
CHROMA,
RMSQ,
MelSpectog
ram
MFCC=20MFCC=20,
ZCR
MFCC=20,
ZCR,
CHROMA
MFCC=20,
ZCR,
CHROMA,
RMSQ
MFCC=20,
ZCR,
CHROMA,
RMSQ,
MelSpectog
ram
Precisión Negativo 0,60 0,61 0,62 0,61 0,64 0,61 0,63 0,63 0,64 0,65
Recall Negativo 0,87 0,89 0,88 0,87 0,78 0,86 0,84 0,87 0,86 0,75
Precisión Positivo 0,55 0,62 0,63 0,60 0,59 0,59 0,61 0,65 0,65 0,58
Recall Positivo 0,21 0,24 0,28 0,27 0,41 0,27 0,33 0,33 0,35 0,46
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1,00
49
Figura 11
Clasificador SVM de la Base de Datos RAVDESS
Nota: El gráfico representa las diferentes características extraídas de la base de datos RAVDESS con aumento de
datos que incluyen el audio original y un efecto de ruido en cada uno, analizando un total de audios positivos = 1152
y negativos = 1728 con el clasificador SVM, datos propios de la investigación.
MFCC = 13MFCC=13,
ZCR
MFCC=13,
ZCR ,
CHROMA
MFCC=13,
ZCR ,
CHROMA,
RMSQ
MFCC=13,
ZCR,
CHROMA,
RMSQ,
MelSpectog
ram
MFCC = 20MFCC=20,
ZCR
MFCC=20,
ZCR,
CHROMA
MFCC=20,
ZCR,
CHROMA,
RMSQ
MFCC=20,
ZCR,
CHROMA,
RMSQ,
MelSpectog
ram
Precisión Negativo 0,62 0,61 0,63 0,63 0,67 0,64 0,64 0,65 0,66 0,69
Recall Negativo 0,93 0,95 0,92 0,91 0,85 0,93 0,92 0,90 0,90 0,84
Precisión Positivo 0,60 0,53 0,60 0,60 0,62 0,68 0,65 0,64 0,68 0,64
Recall Positivo 0,15 0,09 0,17 0,20 0,36 0,22 0,22 0,27 0,30 0,43
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1,00
50
Figura 12
Clasificador SVM de la Base de Datos RAVDESS
Nota: El gráfico representa las diferentes características extraídas de la base de datos RAVDESS con aumento de
datos que incluyen el audio original, efecto de ruido y estiramiento en el tono de cada uno, analizando un total de
audios positivos = 1728 y negativos = 2592 con el clasificador SVM, datos propios de la investigación.
De la Figura 13 a la Figura 15 se utilizaron las bases de datos RAVDESS y TESS combinando los
diferentes extractores de características con aumento de datos.
MFCC = 13MFCC=13,
ZCR
MFCC=13,
ZCR ,
CHROMA
MFCC=13,
ZCR ,
CHROMA,
RMSQ
MFCC=13,
ZCR ,
CHROMA,
RMSQ,
MelSpectog
ram
MFCC = 20MFCC=20,
ZCR
MFCC=20,
ZCR ,
CHROMA
MFCC=20,
ZCR ,
CHROMA,
RMSQ
MFCC=20,
ZCR ,
CHROMA,
RMSQ,
MelSpectog
ram
Precisión Negativo 0,61 0,62 0,62 0,63 0,64 0,64 0,64 0,64 0,64 0,66
Recall Negativo 0,88 0,87 0,88 0,88 0,85 0,85 0,86 0,85 0,87 0,83
Precisión Positivo 0,53 0,55 0,56 0,57 0,59 0,57 0,59 0,57 0,60 0,60
Recall Positivo 0,19 0,23 0,23 0,25 0,32 0,29 0,29 0,29 0,28 0,39
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1,00
51
Figura 13
Clasificador SVM de la Base de Datos RAVDESS & TESS
Nota: El gráfico representa las diferentes características extraídas del audio original de la Base de Datos RAVDESS
& TESS analizando un total de audios positivos = 1376 y negativos = 2864 con el clasificador SVM, datos propios de
la investigación.
MFCC=13MFCC=13,
ZCR
MFCC=13,
ZCR,
CHROMA
MFCC=13,
ZCR,
CHROMA,
RMSQ
MFCC=13,
ZCR,
CHROMA,
RMSQ,
MelSpectog
ram
MFCC=20MFCC=20,
ZCR
MFCC=20,
ZCR,
CHROMA
MFCC=20,
ZCR,
CHROMA,
RMSQ
MFCC=20,
ZCR,
CHROMA,
RMSQ,
MelSpectog
ram
Precisión Negativo 0,59 0,69 0,74 0,74 0,80 0,73 0,73 0,76 0,76 0,81
Recall Negativo 0,98 0,98 0,92 0,92 0,91 0,91 0,91 0,90 0,90 0,90
Precisión Positivo 0,68 0,66 0,68 0,66 0,74 0,62 0,63 0,64 0,65 0,73
Recall Positivo 0,10 0,10 0,34 0,33 0,54 0,32 0,30 0,40 0,41 0,56
0,00
0,20
0,40
0,60
0,80
1,00
1,20
52
Figura 14
Clasificador SVM de la Base de Datos RAVDESS & TESS
Nota: El gráfico representa las diferentes características extraídas de la base de datos RAVDESS & TESS con aumento
de datos que incluyen el audio original y un efecto de ruido en cada uno, analizando un total de audios positivos =
2752 y negativos = 5728 con el clasificador SVM, datos propios de la investigación.
MFCC=13MFCC=13,
ZCR
MFCC=13,
ZCR,
CHROMA
MFCC=13,
ZCR,
CHROMA,
RMSQ
MFCC=13,
ZCR,
CHROMA,
RMSQ,
MelSpectog
ram
MFCC = 20MFCC=20,
ZCR
MFCC=20,
ZCR,
CHROMA
MFCC=20,
ZCR,
CHROMA,
RMSQ
MFCC=20,
ZCR,
CHROMA,
RMSQ,
MelSpectog
ram
Precisión Negativo 0,71 0,71 0,76 0,77 0,84 0,75 0,75 0,79 0,79 0,85
Recall Negativo 0,96 0,97 0,89 0,88 0,90 0,91 0,90 0,89 0,89 0,91
Precisión Positivo 0,60 0,64 0,62 0,63 0,73 0,63 0,62 0,67 0,68 0,77
Recall Positivo 0,13 0,12 0,38 0,43 0,63 0,33 0,34 0,50 0,49 0,65
0,00
0,20
0,40
0,60
0,80
1,00
1,20
53
Figura 15
Clasificador SVM de la Base de Datos RAVDESS & TESS
Nota: El gráfico representa las diferentes características extraídas de la base de datos RAVDESS & TESS con aumento
de datos que incluyen el audio original, efecto de ruido y estiramiento en el tono de cada uno, analizando un total de
audios positivos = 4128 y negativos = 8592 con el clasificador SVM, datos propios de la investigación.
A continuación, se combinan las bases de datos RAVDESS en su totalidad de audios y de
TESS sólo se escogieron los audios positivos como se muestra desde la Figura 16 hasta la Figura
18.
MFCC = 13MFCC=13,
ZCR
MFCC=13,
ZCR ,
CHROMA
MFCC=13,
ZCR ,
CHROMA,
RMSQ
MFCC=13,
ZCR ,
CHROMA,
RMSQ,
MelSpectog
ram
MFCC = 20MFCC=20,
ZCR
MFCC=20,
ZCR,
CHROMA
MFCC=20,
ZCR,
CHROMA,
RMSQ
MFCC=20,
ZCR,
CHROMA,
RMSQ,
MelSpectog
ram
Precisión Negativo 0,70 0,70 0,75 0,75 0,81 0,73 0,73 0,76 0,76 0,83
Recall Negativo 0,96 0,96 0,91 0,92 0,91 0,92 0,93 0,92 0,91 0,92
Precisión Positivo 0,58 0,56 0,65 0,67 0,74 0,64 0,64 0,69 0,67 0,78
Recall Positivo 0,11 0,11 0,35 0,34 0,54 0,28 0,27 0,40 0,40 0,59
0,00
0,20
0,40
0,60
0,80
1,00
1,20
Base de Datos RAVDESS & TESS
54
Figura 16
Clasificador SVM de la Base de Datos RAVDESS & TESS Audios Positivos
Nota: El gráfico representa las diferentes características extraídas del audio original de la Base de Datos RAVDESS
& TESS (audios positivos) analizando un total de audios positivos = 1376 y negativos = 864 con el clasificador SVM,
datos propios de la investigación.
MFCC=13MFCC=13,
ZCR
MFCC=13,
ZCR,
CHROMA
MFCC=13,
ZCR,
CHROMA,
RMSQ
MFCC=13,
ZCR,
CHROMA,
RMSQ,
MelSpectog
ram
MFCC=20MFCC=20,
ZCR
MFCC=20,
ZCR,
CHROMA
MFCC=20,
ZCR,
CHROMA,
RMSQ
MFCC=20,
ZCR,
CHROMA,
RMSQ,
MelSpectog
ram
Precisión Negativo 0,62 0,63 0,63 0,63 0,67 0,65 0,64 0,66 0,65 0,66
Recall Negativo 0,87 0,88 0,88 0,86 0,88 0,86 0,85 0,86 0,86 0,78
Precisión Positivo 0,90 0,90 0,90 0,89 0,91 0,89 0,88 0,89 0,89 0,85
Recall Positivo 0,68 0,68 0,68 0,68 0,73 0,71 0,71 0,73 0,72 0,76
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1,00
55
Figura 17
Clasificador SVM de la Base de Datos RAVDESS & TESS Audios Positivos
Nota: El gráfico representa las diferentes características extraídas de la base de datos RAVDESS & TESS (audios
positivos) con aumento de datos que incluyen el audio original y un efecto de ruido en cada uno, analizando un total
de audios positivos = 2752 y negativos = 1728 con el clasificador SVM, datos propios de la investigación.
MFCC=13MFCC=13,
ZCR
MFCC=13,
ZCR,
CHROMA
MFCC=13,
ZCR,
CHROMA,
RMSQ
MFCC=13,
ZCR,
CHROMA,
RMSQ,
MelSpectog
ram
MFCC = 20MFCC=20,
ZCR
MFCC=20,
ZCR,
CHROMA
MFCC=20,
ZCR,
CHROMA,
RMSQ
MFCC=20,
ZCR,
CHROMA,
RMSQ,
MelSpectog
ram
Precisión Negativo 0,66 0,66 0,67 0,66 0,70 0,67 0,66 0,67 0,66 0,70
Recall Negativo 0,80 0,82 0,84 0,83 0,83 0,82 0,83 0,85 0,85 0,81
Precisión Positivo 0,84 0,85 0,86 0,86 0,87 0,86 0,86 0,87 0,87 0,85
Recall Positivo 0,72 0,71 0,71 0,70 0,76 0,72 0,70 0,71 0,70 0,77
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1,00
56
Figura 18
Clasificador SVM de la Base de Datos RAVDESS & TESS Audios Positivos
Nota: El gráfico representa las diferentes características extraídas de la base de datos RAVDESS & TESS (audios
positivos) con aumento de datos que incluyen el audio original, efecto de ruido y estiramiento en el tono de cada uno,
analizando un total de audios positivos = 4128 y negativos = 2592 con el clasificador SVM, datos propios de la
investigación.
A continuación, desde la Figura 19 hasta la Figura 21 se visualizan las pruebas realizadas
con un MFCC de 13 y 20 pero manteniendo los demás extractores de características en cada audio,
se escogieron estas características por las pruebas anteriormente realizadas, debido a que, al
mostrar los resultados óptimos para los modelos, de la base de datos TESS sólo se escogieron 288
audios positivos para generar una igualdad con la base de datos RAVDESS entre audios positivos
y negativos.
MFCC = 13MFCC=13,
ZCR
MFCC=13,
ZCR ,
CHROMA
MFCC=13,
ZCR ,
CHROMA,
RMSQ
MFCC=13,
ZCR ,
CHROMA,
RMSQ,
MelSpectog
ram
MFCC = 20MFCC=20,
ZCR
MFCC=20,
ZCR,
CHROMA
MFCC=20,
ZCR,
CHROMA,
RMSQ
MFCC=20,
ZCR,
CHROMA,
RMSQ,
MelSpectog
ram
Precisión Negativo 0,66 0,66 0,67 0,66 0,69 0,67 0,67 0,66 0,67 0,69
Recall Negativo 0,76 0,80 0,81 0,81 0,80 0,74 0,76 0,78 0,78 0,77
Precisión Positivo 0,82 0,84 0,85 0,85 0,85 0,81 0,82 0,83 0,83 0,83
Recall Positivo 0,73 0,71 0,72 0,72 0,75 0,76 0,74 0,73 0,74 0,77
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
57
Figura 19
Clasificador SVM de la Base de Datos RAVDESS & TESS 288 Audios Positivos
Nota: El gráfico representa las diferentes características extraídas del audio original de la Base de Datos RAVDESS
& TESS (288 audios positivos) analizando un total de audios positivos = 864 y negativos = 864 con el clasificador
SVM, datos propios de la investigación.
MFCC = 13, ZCR, CHROMA,
RMSQ, MelSpectogram
MFCC = 20, ZCR, CHROMA,
RMSQ, MelSpectogram
Precisión Negativo 0,61 0,64
Recall Negativo 0,80 0,80
Precisión Positivo 0,74 0,76
Recall Positivo 0,53 0,59
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
58
Figura 20
Clasificador SVM de la Base de Datos RAVDESS & TESS 288 Audios Positivos
Nota: El gráfico representa las diferentes características extraídas de la base de datos RAVDESS & TESS (288 audios
positivos) con aumento de datos que incluyen el audio original y un efecto de ruido en cada uno, analizando un total
de audios positivos = 1728 y negativos = 1728 con el clasificador SVM, datos propios de la investigación.
MFCC = 13, ZCR, CHROMA,
RMSQ, MelSpectogram
MFCC = 20, ZCR, CHROMA,
RMSQ, MelSpectogram
Precisión Negativo 0,66 0,67
Recall Negativo 0,81 0,81
Precisión Positivo 0,75 0,75
Recall Positivo 0,58 0,60
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
59
Figura 21
Clasificador SVM de la Base de Datos RAVDESS & TESS 288 Audios Positivos
Nota: El gráfico representa las diferentes características extraídas de la base de datos RAVDESS & TESS (288 audios
positivos) con aumento de datos que incluyen el audio original, efecto de ruido y estiramiento en el tono de cada uno,
analizando un total de audios positivos = 2592 y negativos = 2592 con el clasificador SVM, datos propios de la
investigación.
Para las últimas pruebas se trabajó con un MFCC de 20, por mostrar mejores resultados en
las pruebas anteriores, pero manteniendo los demás extractores de características en cada muestra
de audio, se trabajó con la base de datos RAVDESS con su total de audios tanto positivos y
negativos, en la base de datos TESS se eligieron todos los audios positivos y negativos solamente
512 para así generar una igualdad en cada categoría de positivos y negativos entre las dos bases de
datos, como se evidencia desde la Figura 22 hasta la Figura 24.
MFCC = 13, ZCR, CHROMA,
RMSQ, MelSpectogram
MFCC = 20, ZCR, CHROMA,
RMSQ, MelSpectogram
Precisión Negativo 0,65 0,67
Recall Negativo 0,78 0,77
Precisión Positivo 0,73 0,73
Recall Positivo 0,58 0,61
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
60
Figura 22
Clasificador SVM de la Base de Datos RAVDESS & TESS 512 Audios Negativos
Nota: El gráfico representa las diferentes características extraídas del audio original de la Base de Datos RAVDESS
& TESS (512 audios negativos) analizando un total de audios positivos = 1376 y negativos = 1376 con el clasificador
SVM, datos propios de la investigación.
MFCC = 20,ZCR , CHROMA, RMSQ,
MelSpectogram
Precisión Negativo 0,70
Recall Negativo 0,82
Precisión Positivo 0,79
Recall Positivo 0,65
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
61
Figura 23
Clasificador SVM de la Base de Datos RAVDESS & TESS 512 Audios Negativos
Nota: El gráfico representa las diferentes características extraídas de la base de datos RAVDESS & TESS (512 audios
negativos) con aumento de datos que incluyen el audio original y un efecto de ruido en cada uno, analizando un total
de audios positivos = 2752 y negativos = 2752 con el clasificador SVM, datos propios de la investigación.
MFCC = 20,ZCR , CHROMA, RMSQ,
MelSpectogram
Precisión Negativo 0,72
Recall Negativo 0,85
Precisión Positivo 0,82
Recall Positivo 0,68
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
62
Figura 24
Clasificador SVM de la Base de Datos RAVDESS & TESS 512 Audios Negativos
Nota: El gráfico representa las diferentes características extraídas de la base de datos RAVDESS & TESS (512 audios
negativos) con aumento de datos que incluyen el audio original, efecto de ruido y estiramiento en el tono de cada uno,
analizando un total de audios positivos = 4128 y negativos = 4128 con el clasificador SVM, datos propios de la
investigación.
En el presente proyecto se eligieron 14 dataset, los criterios de elección fueron los
siguientes:
1. Para los dataset A, B, C, D y E; la precisión y el recall fueron valores mayores al 70%.
2. Para los siguientes dataset se consideraron todas las pruebas realizadas, de esta manera
se logró obtener una igualdad entre audios positivos y negativos, siendo factibles para
el análisis con los otros clasificadores.
A continuación, en la Tabla 10 se presentan los dataset seleccionados junto a sus
correspondientes características, para la columna cantidad se utilizó (+) para los audios positivos
y (-) para los audios negativos.
MFCC = 20,ZCR , CHROMA, RMSQ,
MelSpectogram
Precisión Negativo 0,70
Recall Negativo 0,81
Precisión Positivo 0,78
Recall Positivo 0,65
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
63
Tabla 10
Dataset Seleccionados y sus Características
Dataset Base de datos Aumento de
Datos
Características Cantidad
A RAVDESS y
TESS
Audio original
y efecto de
ruido
MFCC = 20, ZCR,
CHROMA, RMSQ y
MelSpectogram.
(+) = 2752
(-) = 5728
B RAVDESS y
TESS (SOLO
AUDIOS
POSITIVOS)
Audio original
y efecto de
ruido
MFCC = 13, ZCR,
CHROMA, RMSQ y
MelSpectogram.
(+) = 2752
(-) = 1728
C RAVDESS y
TESS (SOLO
AUDIOS
POSITIVOS)
Audio original
y efecto de
ruido
MFCC = 20, ZCR,
CHROMA, RMSQ y
MelSpectogram.
(+) = 2752
(-) = 1728
D RAVDESS y
TESS (SOLO
AUDIOS
POSITIVOS)
Audio original
con efecto de
ruido y
estiramiento
en el tono
MFCC = 13, ZCR,
CHROMA, RMSQ y
MelSpectogram.
(+) = 4128
(-) = 2592
E RAVDESS y
TESS (SOLO
AUDIOS
POSITIVOS)
Audio original
con efecto de
ruido y
estiramiento
en el tono
MFCC = 20, ZCR,
CHROMA, RMSQ,
MelSpectogram
(+) = 4128
(-) = 2592
P RAVDESS y
TESS (288
AUDIOS
POSITIVOS)
Audio original MFCC = 13, ZCR,
CHROMA, RMSQ y
MelSpectogram.
(+) = 864
(-) = 864
Q RAVDESS y
TESS (288
AUDIOS
POSITIVOS)
Audio original MFCC = 20, ZCR,
CHROMA, RMSQ y
MelSpectogram.
(+) = 864
(-) = 864
R RAVDESS y
TESS (288
AUDIOS
POSITIVOS)
Audio original
y efecto de
ruido
MFCC = 13, ZCR,
CHROMA, RMSQ y
MelSpectogram.
(+) = 1728
(-) = 1728
S RAVDESS y
TESS (288
AUDIOS
POSITIVOS)
Audio original
y efecto de
ruido
MFCC = 20, ZCR,
CHROMA, RMSQ y
MelSpectogram.
(+) = 1728
(-) = 1728
64
T RAVDESS y
TESS (288
AUDIOS
POSITIVOS)
Audio original
con efecto de
ruido y
estiramiento
en el tono
MFCC = 13, ZCR,
CHROMA, RMSQ y
MelSpectogram.
(+) = 2592
(-) = 2592
U RAVDESS y
TESS (288
AUDIOS
POSITIVOS)
Audio original
con efecto de
ruido y
estiramiento
en el tono
MFCC = 20, ZCR,
CHROMA, RMSQ y
MelSpectogram.
(+) = 2592
(-) = 2592
W RAVDESS y
TESS (TODOS
LOS AUDIOS
POSITIVOS Y
512 AUDIOS
NEGATIVOS)
Audio original MFCC = 20, ZCR,
CHROMA, RMSQ y
MelSpectogram.
(+) = 1376
(-) = 1376
Y RAVDESS y
TESS (TODOS
LOS AUDIOS
POSITIVOS Y
512 AUDIOS
NEGATIVOS)
Audio original
y efecto de
ruido
MFCC = 20, ZCR,
CHROMA, RMSQ y
MelSpectogram.
(+) = 2752
(-) = 2752
Z RAVDESS y
TESS (TODOS
LOS AUDIOS
POSITIVOS Y
512 AUDIOS
NEGATIVOS)
Audio original
con efecto de
ruido y
estiramiento
en el tono
MFCC = 20, ZCR,
CHROMA, RMSQ y
MelSpectogram.
(+) = 4128
(-) = 4128
Nota: En la tabla se detallan los 14 dataset con las características acústicas extraídas y por cada dataset el total de
audios. La elaboración es propia y la fuente datos propios de la investigación.
Una vez definidos los dataset para identificar el EA se entrenaron los siguientes
clasificadores: ANN y RF.
Para el clasificador ANN se realizaron pruebas sobre cuantas neuronas y capas ocultas usar
en el entrenamiento de los modelos, dando los resultados que se muestran en la Tabla 11.
65
Tabla 11
Resultados de capas ocultas y neuronas en ANN
Pruebas Clase Negativo Clase Positivo
Precisión Recall Precisión Recall
Una capa oculta con 100
neuronas 0,93 0,97 0,94 0,85
Dos capas ocultas con
100 neuronas 0,94 0,97 0,94 0,86
Dos capas ocultas con
100 y 50 neuronas 0,95 0,96 0,91 0,89
Una capa oculta con la
mitad de los datos de
entrenamiento
0,95 0,94 0,88 0,9
Dos capas ocultas con la
mitad de los datos de
entrenamiento
0,96 0,95 0,9 0,91
Nota: En la tabla se detallan los resultados de la precisión y recall por cada clase definida en este estudio, con las
combinaciones entre capas ocultas con sus respectivas neuronas. La elaboración es propia y la fuente datos propios de
la investigación.
En el presente estudio para el clasificador ANN se usaron dos capas ocultas con la mitad
de los datos de entrenamiento. A continuación, en la Figura 25 se muestra el resultado del
clasificador ANN y en la Figura 26 el resultado del clasificador RF por cada dataset.
66
Figura 25
Resultados Clasificador Red Neuronal
Nota: La gráfica muestra los resultados de cada dataset seleccionado aplicando el clasificador ANN, datos propios de
la investigación.
A B C D E P Q R S T U W Y Z
Precisión Negativo 0,96 0,85 0,89 0,87 0,88 0,75 0,79 0,8 0,87 0,85 0,85 0,78 0,93 0,91
Recall Negativo 0,95 0,89 0,85 0,81 0,83 0,8 0,84 0,84 0,83 0,77 0,87 0,94 0,9 0,93
Precisión Positivo 0,9 0,92 0,9 0,88 0,89 0,8 0,84 0,83 0,83 0,79 0,87 0,93 0,9 0,93
Recall Positivo 0,91 0,89 0,92 0,92 0,93 0,75 0,79 0,79 0,87 0,87 0,85 0,75 0,94 0,9
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
67
Figura 26
Resultados Clasificador Bosques Aleatorios
Nota: La gráfica muestra los resultados de cada dataset seleccionado aplicando el clasificador RF, datos propios de la
investigación.
Población muestra
La población muestra que participó en este estudio corresponde a personas que se
encuentran dentro del rango de 26 a 64 años, de nacionalidad ecuatoriana y domiciliados
actualmente en el Ecuador. Se eligió ese rango debido a la edad de las participantes en los audios
de la Base de Datos TESS.
Para definir la población a trabajar se tomó como referencia la cantidad promedio de
personas que atienden en un consultorio de psicología siendo un total de 60 personas, luego se
procedió a contactarlas vía SMS, llamada telefónica, red de mensajería (Whatsapp y Telegram) y
correo electrónico, de las cuales 29 personas accedieron a realizar el test de psicología y
A B C D E P Q R S T U W Y Z
Precisión Negativo 0,94 0,86 0,88 0,79 0,82 0,67 0,7 0,82 0,81 0,78 0,78 0,79 0,86 0,84
Recall Negativo 0,99 0,9 0,93 0,86 0,87 0,89 0,9 0,93 0,93 0,9 0,9 0,92 0,96 0,95
Precisión Positivo 0,97 0,93 0,95 0,9 0,91 0,86 0,88 0,91 0,92 0,88 0,89 0,9 0,95 0,95
Recall Positivo 0,85 0,9 0,91 0,85 0,87 0,6 0,64 0,79 0,78 0,75 0,75 0,77 0,84 0,82
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
68
permitieron que su voz fuera grabada para el análisis correspondiente en los modelos
construidos/entrenados, como se presenta en la Tabla 12.
Tabla 12
Definición de la Población Muestra y Participantes
Población Muestra Participantes
60 29
Nota: Se detallan el total de participantes que aceptaron realizar el test de psicología. La elaboración es propia y la
fuente datos propios de la investigación.
Procesamiento y análisis
Para el procesamiento y análisis de los datos se elaboró una plantilla en una plataforma en
línea para que las personas pudieran responder el test de psicología planteado, de la manera más
natural posible, debido a que lo podían realizar desde cualquier locación.
Técnicas de recolección de datos.
Encuesta
La técnica de encuesta es notablemente aplicada como metodología de investigación,
debido a que permite conseguir y producir datos de una muestra de situaciones particulares de
características de una población o universo más extenso, del que se desea indagar, especificar,
predecir e interpretar un grupo de características de manera dinámica y eficaz (Casas Anguita et
al., 2003).
En este estudio se utilizó el test de frases incompletas de Sacks, este tiene como propósito
revelar pensamientos conscientes, preconscientes e inconscientes del participante haciendo que
responda al estímulo como mejor le parezca, sin condicionar su respuesta a un “SI” o un “NO”. El
enfoque de esta prueba queda oculto, debido a que la persona no conoce con exactitud si su
69
contestación es “correcta” o “incorrecta”, aunque suponga o incluso entienda con qué objetivo se
le aplica el test (Martínez & Ponce, 2018) .
Naturalmente, el test de frases incompletas de Sacks está compuesto por 60 preguntas que
abarcan áreas como; familia, relaciones interpersonales y conceptos de sí mismo (Sacks & Levy,
2007). Sin embargo, en este estudio se seleccionaron 18 preguntas en específico, recomendación
que fue planteada por los expertos, debido a la longitud del test original.
De esta forma se consiguió obtener información particular, emitida por los examinados,
para proceder a realizar pruebas con sus audios generados. Debido a que las respuestas de los
participantes fueron grabadas por audio, para mayor comodidad de los mismos, se utilizó la
herramienta web “JotForm” especializada en la creación de formularios en línea.
A continuación, en la Tabla 13 se enuncia la estructura que tuvo el test de frases
incompletas de Sacks.
70
Tabla 13
Estructura del Test Aplicado Sacks (18 preguntas en específico)
No. Bloque Preguntas Descripción
1 Introductorio 1. ¿Acepta que se grabe su voz para
la realización de pruebas internas?
2. Por favor ingrese un nombre y su
apellido paterno
Estas preguntas tienen el
objetivo de validar el
permiso que otorga el
participante para realizar
posteriores pruebas con
sus audios, además de
ambientarlo con el tema
del proyecto.
2 Demográfico 1. Edad
2. Elija su sexo
El propósito de las
preguntas demográficas
es segmentar y filtrar las
respuestas del público
objetivo para su
posterior análisis.
3 Psicológico 1. Siempre he querido ser…
2. Si es que yo fuera el jefe…
3. El futuro se me presenta…
4. Se que es una tontería, pero tengo
miedo de…
5. En comparación con la mayoría de
las familias la mía, es…
6. Creo que tengo capacidad para…
7. Sería muy feliz si…
8. No me gusta la gente que…
9. Hace años, yo era…
10. Mi familia me trata como…
11. Mi mayor debilidad es…
12. Mi anhelo oculto de mi vida es…
13. Algún día yo…
14. La gente que más me gusta…
15. Cuando tengo mala suerte es…
16. Mis temores me obligan a veces
a…
17. Lo que menos me gusta es…
18. Mi vida es…
La finalidad de las
preguntas seleccionadas
del test de Sacks es
evidenciar los intereses,
opiniones, miedos y
actitudes de los sujetos
que lo realizan.
Nota: La tabla presenta la estructura adaptada del test de frases incompletas de Sacks. La elaboración es propia y la
fuente datos propios de la investigación.
71
Criterios de validación de la propuesta
Análisis de datos
Para la verificación de los resultados obtenidos a través de los modelos y el criterio de
expertos, se utilizó una medida más robusta conocida como coeficiente kappa (κ) el cual establece
la relación de coincidencias examinadas sobre el total de observaciones, habiendo excluido las
coincidencias adquiridas al azar. Las clases definidas para el EA fueron: positivo (1) y negativo
(2). Al final del análisis de las pruebas de forma individual, se calculó el κ de Cohen para valorar
el acuerdo entre los expertos, en este caso profesionales en el área de psicología, y discutir los
desacuerdos. “El coeficiente kappa puede tomar valores entre -1 y +1. Mientras más cercano a +1,
mayor es el grado de concordancia inter-observador, por el contrario, mientras más cercano a -1,
mayor es el grado de discordancia inter-observador” (Landis & Koch, 1977). Se reiteró la
comparación hasta que el valor de k superó 0,6 y sea estimado con una fuerza de concordancia
considerable.
A continuación, en la Tabla 14 se puede visualizar los rangos de los coeficientes kappa y
su respectiva valoración.
Tabla 14
Rangos y Valoración del Coeficiente Kappa
Coeficiente kappa Fuerza de la concordancia
0,00 Pobre
0,01 – 0,20 Leve
0,21 – 0,40 Aceptable
0,41 – 0,60 Moderada
0,61 – 0,80 Considerable
0,81 – 1,00 Casi perfecta
Nota: Esta tabla evidencia los diferentes rangos al que puede pertenecer el coeficiente kappa además de su
ponderación. Recuperado de “The Measurement of Observer Agreement for Categorical Data” de Landis, J. Richard
y Koch, Gary G., 1977, Biometrics, Vol. 33, pp. 159-174.
72
Para la determinación del coeficiente kappa se seleccionaron 6 sujetos de forma aleatoria,
que habían realizado el test. En la
Tabla 15 se pueden visualizar los resultados obtenidos.
Tabla 15
Resultados de la Aplicación del Coeficiente Kappa
Sujeto Coeficiente kappa Fuerza de la concordancia
1 0,92 Casi perfecta
7 0,71 Considerable
17 0,78 Considerable
22 0,92 Casi perfecta
23 0,84 Casi perfecta
28 0,75 Considerable
Nota: La tabla muestra los coeficientes kappa de cada uno de los sujetos elegidos aleatoriamente de las pruebas
realizadas con el test de Sacks, junto a su correspondiente fuerza de concordancia. La elaboración es propia y la fuente
datos propios de la investigación.
Resultados
A continuación, desde la Figura 27 hasta la Figura 29 se presentan los resultados de los 6
sujetos valorados en el coeficiente de kappa por cada algoritmo de clasificación implementando
los 14 dataset, siendo el color amarillo positivo y el color verde negativo.
73
Figura 27
EA con el Clasificador Bosques Aleatorios
Nota: En la gráfica se visualiza el EA que identifico el clasificador RF de cada sujeto con los 14 dataset creados, datos
propios de la investigación.
Figura 28
EA con el Clasificador Red Neuronal
Nota: En la gráfica se visualiza el EA que identifico el clasificador ANN de cada sujeto con los 14 dataset creados,
datos propios de la investigación.
A A A A A A
B B B B B
B
C C C C C
C
D D D D D
D
P P P P P
P
Q Q Q Q Q
Q
R R R R R
R
S S S S S
S
T T T T T
T
U U U U U
UW
W
W W W WY
Y
Y Y
Y
YZ
Z
Z Z Z Z
0
0,5
1
1,5
2
2,5
Sujeto 1 Sujeto 7 Sujeto 17 Sujeto 22 Sujeto 23 Sujeto 28
A
A
A A
A
A
B B B
B
B BC C C C C
C
D D D D D DE E E E E
EP
P P P
P
P
Q Q Q
Q
Q
Q
R R R R R RS S S S S
S
T T T T T
T
U U U U U U
W
W
W W
W
WY
Y
Y Y
Y
YZ
Z
Z
Z
Z
Z
0
0,5
1
1,5
2
2,5
Sujeto 1 Sujeto 7 Sujeto 17 Sujeto 22 Sujeto 23 Sujeto 28
74
Figura 29
EA con el Clasificador SVM
Nota: En la gráfica se visualiza el EA que identifico el clasificador SVM de cada sujeto con los 14 dataset creados,
datos propios de la investigación.
En la Tabla 16 se puede visualizar como representó cada algoritmo el EA de cada sujeto,
teniendo en cuenta que en ciertas ocasiones van a coincidir todos los clasificadores, para este
estudio se escogieron los dataset X – Y – Z debido que fueron los que más se asemejaron a los
resultados brindados por los expertos y son los que se escogieron para analizar a los 29 sujetos,
nos guiaremos con el clasificador de ANN como una técnica principal para identificar el EA y para
dar peso al resultado nos basaremos en los dos clasificadores restantes SVM y RF.
Los sujetos 4 y 28 se reconocieron como casos especiales, obtuvieron resultados
provenientes de los algoritmos de clasificación, diferentes a los determinados por los expertos. Por
esta razón, los expertos en el área de psicología concluyeron que hay personas que, al momento
de expresarse, no emiten o proyectan un EA en específico (positivo o negativo) y esto se debe a
que el tono de la señal de sus voces se encuentra en un estado completamente neutral. Haciendo
complicada la tarea de identificar su estado anímico.
A
A
A A
A AB B B B B BC C C C C CD D D D D DE E E E E EP P P P P PQ Q Q Q Q QR R R R R RS S S S S ST T T T T TU U U U U U
W
W
W W
W W
Y
Y
Y Y
Y Y
Z
Z
Z Z
Z Z
0
0,5
1
1,5
2
2,5
Sujeto 1 Sujeto 7 Sujeto 17 Sujeto 22 Sujeto 23 Sujeto 28
75
Tabla 16
Predicción del EA por Clasificador
Sujetos Bosques Aleatorios Red Neuronal SVM Opinión de
Expertos
Sujeto 1 Negativo Negativo Negativo Negativo
Sujeto 2 Negativo Negativo Positivo
Sujeto 3 Negativo Negativo Negativo
Sujeto 4 Negativo Igualdad Positivo
Sujeto 5 Negativo Negativo Negativo
Sujeto 6 Negativo Negativo Positivo
Sujeto 7 Positivo Positivo Positivo Positivo
Sujeto 8 Negativo Negativo Negativo
Sujeto 9 Negativo Positivo Positivo
Sujeto 10 Negativo Negativo Positivo
Sujeto 11 Negativo Negativo Negativo
Sujeto 12 Negativo Negativo Negativo
Sujeto 13 Negativo Positivo Positivo
Sujeto 14 Negativo Positivo Positivo
Sujeto 15 Negativo Positivo Positivo
Sujeto 16 Negativo Negativo Negativo
Sujeto 17 Negativo Negativo Negativo Negativo
Sujeto 18 Negativo Negativo Negativo
Sujeto 19 Negativo Negativo Negativo
Sujeto 20 Positivo Negativo Negativo
Sujeto 21 Negativo Negativo Negativo
Sujeto 22 Negativo Negativo Negativo Negativo
Sujeto 23 Negativo Positivo Positivo Positivo
Sujeto 24 Negativo Positivo Positivo
Sujeto 25 Negativo Negativo Positivo
Sujeto 26 Negativo Negativo Positivo
Sujeto 27 Negativo Positivo Positivo
Sujeto 28 Negativo Negativo Positivo Positivo
Sujeto 29 Negativo Positivo Positivo
Nota: En esta tabla se muestra el resultado de cada clasificador identificando el EA de cada sujeto con la valoración
de los expertos en sujetos escogidos al azar, datos propios de la investigación.
76
A continuación, desde la ¡Error! La autoreferencia al marcador no es válida. hasta la
Figura 35 se presentan los resultados de los 6 sujetos valorados en el coeficiente kappa, pero con
la aplicación de los tres algoritmos de clasificación tomando en cuenta los dataset seleccionados
para el análisis (W- Y- Z). La interpretación de los resultados obtenidos dependerá del criterio de
cada experto.
Figura 30
Estado de ánimo del Sujeto 1
Nota: La gráfica muestra el resultado del sujeto 1 analizado por los algoritmos de clasificación RF, ANN, SVM junto
a los dataset creados W, Y, Z, siendo identificado su EA negativo, datos propios de la investigación.
87,04%
12,96%
negativo
positivo
77
Figura 31
Estado de ánimo del Sujeto 7
Nota: La gráfica muestra el resultado del sujeto 7 analizado por los algoritmos de clasificación RF, ANN, SVM junto
a los dataset creados W, Y, Z, siendo identificado su EA positivo, datos propios de la investigación.
Figura 32
Estado de ánimo del Sujeto 17
Nota: La gráfica muestra el resultado del sujeto 17 analizado por los algoritmos de clasificación RF, ANN, SVM junto
a los dataset creados W, Y, Z, siendo identificado su EA negativo, datos propios de la investigación.
36,42%
63,58%
negativo
positivo
73,46%
26,54%
negativo
positivo
78
Figura 33
Estado de ánimo del Sujeto 22
Nota: La gráfica muestra el resultado del sujeto 22 analizado por los algoritmos de clasificación RF, ANN, SVM junto
a los dataset creados W, Y, Z, siendo identificado su EA negativo, datos propios de la investigación.
Figura 34
Estado de ánimo del Sujeto 23
Nota: La gráfica muestra el resultado del sujeto 23 analizado por los algoritmos de clasificación RF, ANN, SVM junto
a los dataset creados W, Y, Z, siendo identificado su EA positivo, datos propios de la investigación.
83,33%
16,67%
negativo
positivo
24,07%
75,93%
negativo
positivo
79
Figura 35
Estado de ánimo del Sujeto 28
Nota: La gráfica muestra el resultado del sujeto 28 analizado por los algoritmos de clasificación RF, ANN, SVM junto
a los dataset creados W, Y, Z, siendo identificado su EA negativo, datos propios de la investigación.
60,49%
39,51%negativo
positivo
80
CAPÍTULO IV
CONCLUSIONES Y RECOMENDACIONES
Conclusiones
• El reconocimiento de los EA de las personas a través de la voz es una tarea que presenta
dificultades en su desarrollo, por este motivo, no se puede afirmar la exactitud de los
modelos entrenados, ni asegurar al cien por ciento que reflejan el EA preciso de cada
persona.
• Para determinar el clasificador óptimo y los extractores de características más usados
se desarrolló una revisión de la literatura aplicado al reconocimiento de los EA de las
personas a través de la voz, donde se encontraron diferentes estudios en “Google
Scholar” enfocados en las emociones básicas del ser humano transmitidas mediante la
voz, en donde empleaban bases de datos de discurso emocional para su respectivo
análisis.
• Para la elección de las bases de datos adecuadas se realizó un listado de los resultados
obtenidos en la revisión literaria, encontrando colecciones de audio provenientes de
diferentes países en sus propios idiomas, las cuáles en su mayoría no eran de acceso
público o gratuitas. Por esta razón se eligieron las bases de datos: RAVDESS Y TESS
debido a que contaban con las emociones básicas que pueden presentar las personas.
81
La base de datos RAVDESS fue la más importante porque consta de audios realizados
por hombres y mujeres, característica importante para este tipo de análisis.
• Aplicar los cinco extractores de características posibilitó conseguir una notable
cantidad de datos por cada audio. En los resultados, se evidencia que utilizar estos
extractores con un mfcc de 20 da mejores resultados que utilizar un mfcc con 13
vectores acústicos.
• En la elaboración de los modelos, se corroboró que tener una cantidad equitativa en
audios con EA positivo como en audios con EA negativo genera resultados con mayor
precisión. En los dataset; P - Q - R - S - T - U, teniendo la cantidad de audios por cada
EA de forma equitativa, no se reflejaron los resultados esperados. Por esta razón se
consideró aumentar la cantidad de audios de forma proporcional por cada clase
(positivo y negativo), dando como resultado los dataset; W- Y- Z.
• El algoritmo ANN aplicado en los dataset W- Y- Z, demostró mayor exhaustividad,
precisión y exactitud durante los procesos de clasificación, etiquetado y entrenamiento
de las muestras para estructurar los modelos, en comparación a los demás algoritmos
tratados en este estudio: RF y SVM. Además, demostró mejores resultados al
compararse con los criterios de valoración expresados por los expertos en el área de
psicología.
82
Recomendaciones
• Incorporar en el proceso de reconocimiento de EA por la voz, datos adicionales como
señales fisiológicas, fotografías y tecnología biométrica. De esta forma, el análisis e
identificación de los EA podría ser más exacto y preciso con respecto a cada sujeto.
• Trabajar con la infraestructura adecuada para el tratamiento de gran cantidad de datos
y la utilización de las diferentes técnicas de aprendizaje supervisado.
• Utilizar en futuras investigaciones bases de datos de discurso emocional con audios en
español – latinoamericano aplicando los procesos de experimentación y evaluación.
Trabajos futuros
• Utilizar modelos de reconocimiento de los estados de ánimo similares a los generados
en el presente estudio para construir aplicaciones móviles o sistemas web que puedan
realizar el reconocimiento de los EA de las personas a través de la voz en tiempo real.
• Desarrollar pruebas implementando las técnicas y/o modelos utilizados en el presente
estudio con la finalidad de simular la prueba del polígrafo en personas, a través de la
voz.
83
REFERENCIAS BIBLIOGRÁFICAS
Alejandro, F. (2020). COMPARATIVO ENTRE SAS, R Y PYTHON ~ ARMILLARY.
http://armillary-geomatica.blogspot.com/2015/04/comparativo-entre-sas-r-y-python.html
Bello Ambario, V., Martínez Arroyo, M., Montero Valverde, J. A., & Hernández Bravo, J. M.
(2017). Reconocimiento de emociones a través del análisis de la voz. Memorias Del
Congreso Internacional de Investigación Academia Journals Celaya 2017.
http://www.itacapulco.net/depi/wp-content/uploads/2020/01/Memorias-Academia-Journals-
Celaya-2017-Ambario-1.pdf
Benítez, R., Escudero, G., Kanaan, S., & Rodó, D. M. (2014). Inteligencia artificial avanzada.
Editorial UOC.
https://books.google.com.ec/books?hl=es&lr=&id=eT7ABAAAQBAJ&oi=fnd&pg=PT4&d
q=inteligencia+artificial&ots=9whIh51GHo&sig=C6fHBkYQfu4HCMRlaIKHWrXbJws&r
edir_esc=y#v=onepage&q=inteligencia artificial&f=false
Betancourt, G. (2005). LAS MÁQUINAS DE SOPORTE VECTORIAL (SVMs).
https://www.researchgate.net/publication/49588125_LAS_MAQUINAS_DE_SOPORTE_V
ECTORIAL_SVMs
Bhattarai, K., Prasad, P. W. C., Alsadoon, A., Pham, L., & Elchouemi, A. (2017). Experiments
on the MFCC application in speaker recognition using Matlab. In 2017 Seventh
International Conference on Information Science and Technology (ICIST), 32–37.
https://d1wqtxts1xzle7.cloudfront.net/54068466/Experiments_on_MFCC_Application_in_S
peaker_Recognition_using_Matlab.pdf?1501989839=&response-content-
disposition=inline%3B+filename%3DExperiments_on_MFCC_Application_in_Speak.pdf&
Expires=1598285934&Signature=
84
Bisquerra Alzina, R. (2009). Psicopedagogía de las emociones. SINTESIS.
Bleda, S., Francés, J., Marini, S., & Martínez, J. J. (2012). Herramientas software para la
docencia de la señal de voz en Ingeniería Técnica de Telecomunicaciones.
https://web.ua.es/es/ice/jornadas-redes-2012/documentos/posters/246141.pdf
Bono Cabré, R. (2012). DISEÑOS CUASI-EXPERIMENTALES Y LONGITUDINALES.
Botto Tobar, M. (2014). SOA2Cloud: Un marco de trabajo para la migración de aplicaciones
SOA a Cloud siguiendo una aproximación dirigida por modelos. Universitat Politècnica de
València.
Casas Anguita, J., Repullo Labrador, J. R., & Donado Campos, J. (2003). La encuesta como
técnica de investigación. Elaboración de cuestionarios y tratamiento estadístico de los datos
(I). Atención Primaria.
http://www.unidaddocentemfyclaspalmas.org.es/resources/9+Aten+Primaria+2003.+La+En
cuesta+I.+Custionario+y+Estadistica.pdf
Cerda L, J., & Villarroel Del P., L. (2008). Evaluación de la concordancia inter-observador en
investigación pediátrica: Coeficiente de Kappa. Revista Chilena de Pediatría.
https://scielo.conicyt.cl/pdf/rcp/v79n1/art08.pdf
Corbin, J. A. (2017). Los 8 tipos de emociones (clasificación y descripción).
https://psicologiaymente.com/psicologia/tipos-de-emociones
Coryell, W. (2018, May). Introducción a los trastornos del estado de ánimo - Trastornos de la
salud mental - Manual MSD versión para público general.
https://www.msdmanuals.com/es/hogar/trastornos-de-la-salud-mental/trastornos-del-estado-
de-ánimo/introducción-a-los-trastornos-del-estado-de-ánimo
Dupuis, K., & Pichora-Fuller, M. K. (2010). Conjunto de discurso emocional de Toronto (TESS)
85
. University of Toronto. https://tspace.library.utoronto.ca/handle/1807/24487
Escolano Ruiz, F., Cazorla Quevedo, M. Á., Alfonso Galipienso, M. I., Colomina Pardo, O., &
Lozano Ortega, M. Á. (2003). Inteligencia artificial: modelos, técnicas y áreas de
aplicación. Paraninfo.
https://books.google.com.ec/books?hl=es&lr=&id=_spC6S7UfZgC&oi=fnd&pg=PP1&dq=
inteligencia+artificial&ots=sPnsNDLoCS&sig=1Alx4-
xFGkOJBxVrSC4iZJ4yyVs&redir_esc=y#v=onepage&q=inteligencia artificial&f=false
Esquivel, L. (2015). El libro de las emociones. Debolsillo.
Fernández García, P., Vallejo Seco, G., Livacic Rojas, P. E., & Tuero Herrero, E. (2014).
Validez Estructurada para una investigación cuasi-experimental de calidad. Se cumplen 50
años de la presentación en sociedad de los diseños cuasi-experimentales. Annals of
Psychology, 30(2), 756–771. https://doi.org/10.6018/analesps.30.2.166911
Flórez, E., Cardona, S., & Jordi, L. (2009). Selección de la ventana temporal en la transformada
de Fourier en tiempos cortos utilizada en el análisis de señales de vibración para determinar
planos en las ruedas de un tren. Revista Facultad de Ingeniería Universidad de Antioquia.
https://www.redalyc.org/pdf/430/43016338013.pdf
Franco Galván, C. (2017, May 4). Mel Cepstral Frequency Coefficients MFCC. Carlos, Siendo
Franco. https://francocarlos.com/2017/05/04/mel-cepstral-frequency-coefficients-mfcc/
García, M. A., Rosset, A. L., & Destéfanis, E. A. (2019). Extracción de Características en Audio
con Redes Neuronales Convolucionales. XXI Workshop de Investigadores En Ciencias de
La Computación (WICC 2019, Universidad Nacional de San Juan).
http://sedici.unlp.edu.ar/handle/10915/76982
Gass, S., & Fu, M. (2013). Machine Learning. In Encyclopedia of Operations Research and
86
Management Science (pp. 909–909). Springer US. https://doi.org/10.1007/978-1-4419-
1153-7_200425
Gorreta, D. (2015). Máquina de soporte Vectorial (SVM - Support Vector Machine).
https://dlegorreta.wordpress.com/2015/04/07/maquina-de-soporte-vectorial-svm-sopport-
vector-machine/
Gupta, S., Jaafar, J., Fatimah Wan Ahmad, W., & Bansal, A. (2013). Feature extraction using
MFCC. Signal & Image Processing: An International Journal (SIPIJ), 4(4), 101–108.
https://doi.org/10.5121/sipij.2013.4408
Haro Rivera, S., Zúñiga Lema, L., Meneses Freire, A., Vera Rojas, L., & Escudero Villa, A.
(2018). Métodos de Clasificación en Minería de Datos Meteorológicos.
http://dspace.espoch.edu.ec/bitstream/123456789/9395/1/per_n20_v2_13.pdf
Hernández, M. B., & Gómez, J. M. (2014). Análisis de Sentimientos Aplicado a Referencias
Bibliográficas. Revista Politécnica, 33(3), 1–7.
http://www.revistapolitecnica.epn.edu.ec/ojs2/index.php/revista_politecnica2/article/view/1
26
Hernández Tamayo, R., López Sánchez, M., Pérez Espinosa, H., González-Serna, G., & Patiño
Reyes, F. (2020). Caracterización De Voz Para Reconocimiento Automático De Estados
Emocionales Characterization of Voice for Automatic Recognition of Emotional States.
Informaticahabana.Cu, 2. http://www.informaticahabana.cu/sites/default/files/ponencia-
2020/CCI27.pdf
Horsford, R., & Bayarre, H. (2009). Parte II. Metodología de la Investigación Científica 1. In
Métodos y Técnicas aplicados a la Investigación en Atención Primaria de la Salud.
https://files.sld.cu/isss/files/2009/02/curso-metodologia.pdf
87
Igartua, J. J., & Humanes, M. L. (2004). El método científico aplicado a la investigación en
comunicación social. Journal of Health Communication.
https://d1wqtxts1xzle7.cloudfront.net/33548909/7.-El-metodo-
cientifico....pdf?1398351918=&response-content-
disposition=inline%3B+filename%3DEl_metodo_cientifico_aplicado_a_la_inves.pdf&Expi
res=1598165894&Signature=cHYVetShBiEmngFY9yHml7xd9svAIF91a7-
23zY1o09MaaT70jQt5pJt5-4uP~CY9~qiUebFC0xBJ90fcbVd9Iw1JoEWAagJlFhCtW-
Lw9jlJuRgrEgzkJxmsX7QZ5sCddzuFTFsLV3lawGj5DunrzbQqlDKSAb-
~q9lFMUaE7hHDLILnyu~B~3FT-
29AJ68tqsvwxpkK9VgElUDDTio0oGHQ470SighBEpGJA~Vs8v~4px7qcPnZ3Qqs2vesHr
Izqa~ifFKTuPD-
ZoKFnSkJHPrBZHRxZchdrBas24bVEZ~e8od4QuVU6EYbByI5pmfPAfAwtS6282DjVrB
B5gi4g__&Key-Pair-Id=APKAJLOHF5GGSLRBV4ZA
Jaramillo, L. V., & Antunes, A. F. (2018). Change detection in vegetation cover through
interpretation of Landsat images by artificial neural networks (ANN). case study:
Ecuadorian Amazon Region. Revista de Teledeteccion, 2018(51), 33–46.
https://doi.org/10.4995/raet.2018.8995
Kitchenham, B., Brereton, O. P., Budgen, D., Turner, M., Bailey, J., & Linkman, S. (2009).
Systematic literature reviews in software engineering – A systematic literature review.
Information and Software Technology, 51(1), 7–15.
https://doi.org/10.1016/j.infsof.2008.09.009
Lam, S. K., Pitrou, A., & Seibert, S. (2015). Numba: A LLVM-based Python JIT Compiler. In
Proceedings of the Second Workshop on the LLVM Compiler Infrastructure in HPC, 1–16.
88
https://doi.org/10.1145/2833157.2833162
Landis, J. R., & Koch, G. G. (1977). The Measurement of Observer Agreement for Categorical
Data. In Biometrics (Vol. 33, Issue 1). JSTOR. https://doi.org/10.2307/2529310
Liu, Q., & Wu, Y. (2012). Supervised Learning. In Encyclopedia of the Sciences of Learning
(pp. 3243–3245). Springer US. https://doi.org/10.1007/978-1-4419-1428-6_451
Livingstone, S. R., & Russo, F. A. (2018). The Ryerson Audio-Visual Database of Emotional
Speech and Song (RAVDESS): A dynamic, multimodal set of facial and vocal expressions
in North American English. PLOS ONE.
https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0196391
Marketing Directo. (2020). La voz, el instrumento de la emoción.
https://www.marketingdirecto.com/marketing-general/marketing/la-voz-el-instrumento-de-
la-emocion
Martinez, A. (2018, February 18). Qué es Estado de ánimo - Psicología en Positivo.
https://www.antonimartinezpsicologo.com/estado-de-animo
Martínez, A., & Ponce, J. (2018). Test De Frases Incompletas (FIS): Centro de Especialidades
Psicológicas. https://es.scribd.com/document/374694063/MANUAL-pdf
Martínez Mascorro, G. A., & Aguilar Torres, G. (2013). Reconocimiento de voz basado en
MFCC, SBC y Espectrogramas. INGENIUS, N.◦ 10, 12–20.
https://revistas.ups.edu.ec/index.php/ingenius/article/view/351
Marzal, A., & Gracia, I. (2002). Introducción a la programación con Python.
https://d1wqtxts1xzle7.cloudfront.net/54040231/Introduccion_a_la_Programacion_con_Pyt
hon.pdf?1501685376=&response-content-
disposition=inline%3B+filename%3DIntroduccion_a_la_programacion_con_Pytho.pdf&Ex
89
pires=1600920099&Signature=MRRDoLSYqTa2d2s1WbkwDPvf3t1kazumq4oW-
W6oaE0rOkx4PcNK1MI6yRCAYandcekyUh4JrkEvdTYaFf6Qnpha2-
cb5t0Bno50CbzxtIsQQ2V7BWMkO9wwr~NY115NbE9KnEhXPLgAfSUcLefbzM6BfhOF
t9FORQSXV-
TOrijnvAg6hDY0A7hSCNLeRw6Gye241IlwdLJMoxmyIeLiSCU2Dz3xVLo5FUKWqg52
ZjAxPIn8lIaqShIeI5F1BX6pCcaOKk4Z-
MhYigi2ToqDcmTXjShsHtzfWHlSpaq4ULU~TCGB5DrRH79imM2RLvEBUiIC1VVO~c
umA1y73SMGGw__&Key-Pair-Id=APKAJLOHF5GGSLRBV4ZA
Matich, D. J. (2001). Redes Neuronales: Conceptos Básicos y Aplicaciones. In Informática
Aplicada a la Ingeniería de Procesos – Orientación I.
Medina-Merino, R. F., & Ñique-Chacón, C. I. (2017). Bosques aleatorios como extensión de los
árboles de clasificación con los programas R y Python. Interfases.
http://revistas.ulima.edu.pe/index.php/Interfases/article/view/1775/1828
Miyara, F. (1999). La voz humana. Laboratorio de Acústica y Electroacústica, Escuela de
Ingeniería, Electrónica, Facultad de Ciencias Exactas, Ingeniería y Agrimensura,
Universidad Nacional de Rosario, 10. https://www.fceia.unr.edu.ar/prodivoz/fonatorio.pdf
Monroy, M. E., Arciniegas, J. L., & Rodríguez, J. C. (2016). Recuperación de Arquitecturas de
Software: Un Mapeo Sistemático de la Literatura Software Architecture Recovery: A
Systematic Mapping Study. Información Tecnológica, 27(5), 201–220.
https://doi.org/10.4067/S0718-07642016000500022
Montoro Montarroso, A. (2019). Análisis de Sentimientos para la prevención de mensajes de
odio en las Redes Sociales. Universidad de Castilla-La Mancha.
https://ruidera.uclm.es/xmlui/handle/10578/20208
90
Morán, N., Pérez, J., & Rodriguez, W. (2018). Reconocimiento de Estados Emocionales de
Personas Mediante la Voz Utilizando Algoritmos de Aprendizaje de Máquina. Sexta
Conferencia Nacional de Computación, Informática y Sistemas.
https://www.researchgate.net/publication/329311187_Reconocimiento_de_Estados_Emocio
nales_de_Personas_Mediante_la_Voz_Utilizando_Algoritmos_de_Aprendizaje_de_Maquin
a
Moreno, A., Armengol, E., Béjar, J., Belanche, L., Cortés, U., Gavaldá, R., Gimeno, J. M.,
López, B., Martín, M., & Sánchez, M. (1998). Aprendizaje automático.
www.edicionsupc.es
Moreno, B., Muñoz, M., Cuellar, J., Domancic, S., & Villanueva, J. (2018). Revisiones
Sistemáticas: definición y nociones básicas Systematic Reviews: definition and basic
notions. Revista Clínica de Periodoncia, Implantología y Rehabilitación Oral, 11(3), 184–
186. https://doi.org/10.4067/S0719-01072018000300184
Neipp López, M. del C. (2019, November 14). ¿Cómo influye el estado de ánimo en la salud?
https://theconversation.com/como-influye-el-estado-de-animo-en-la-salud-126788
Orellana Alvear, J. (2018). Árboles de decisión y Random Forest.
https://bookdown.org/content/2031/ensambladores-random-forest-parte-i.html
Páez, D., & Costa, S. Da. (2014). Regulación Afectiva (de Emociones y Estado de Ánimo) en el
Lugar de Trabajo1 Affective Regulation (of Emotions and Mood) in the Workplace. Revista
Psicologia: Organizações e Trabalho, 14(2), 190–203.
Pérez Ramírez, F. O., & Fernández Castaño, H. (2007). LAS REDES NEURONALES Y LA
EVALUACIÓN DEL RIESGO DE CRÉDITO. Revista Ingenierías Universidad de
Medellín. http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S1692-
91
33242007000100007
Petersen, K., Vakkalanka, S., & Kuzniarz, L. (2015). Guidelines for conducting systematic
mapping studies in software engineering: An update. Information and Software Technology,
64, 1–18. https://doi.org/10.1016/j.infsof.2015.03.007
Ponce, A. (2020). angeloponc/mood: modo. https://doi.org/10.5281/ZENODO.4074260
Ramm, A., Loáiciga, S., Friedrich, A., & Fraser, A. (2017). Annotating tense, mood and voice for
English, French and German. 1–6. https://doi.org/10.18653/v1/P17-4001
Rao, K. S., & Vuppala, A. K. (2014). Speech processing in mobile environments. Springer
International Publishing. https://doi.org/10.1007/978-3-319-03116-3
Sacks, J. M., & Levy, S. (2007). The Sentence Completion Test. In Projective psychology:
Clinical approaches to the total personality. (pp. 357–402). Alfred A. Knopf.
https://doi.org/10.1037/11452-011
Sáenz Bajo, N., & Álvaro Ballesteros, M. (2002). Redes neuronales: concepto, aplicaciones y
utilidad en medicina. In Atención primaria (Vol. 30). https://doi.org/10.1016/S0212-
6567(02)78981-6
Sandoval Serrano, L. J. (2018). Algoritmos de aprendizaje automático para análisis y predicción
de datos. Revista Tecnológica, 11, 36–40.
SAURA, J. R., Reyes-Menéndez, A., & Palos-Sanchez, P. (2018). Un Análisis de Sentimiento en
Twitter con Machine Learning: Identificando el sentimiento sobre las ofertas de
#BlackFriday. Revista Espacios, 39(42), 16.
Srinidhi, S. (2018). ¿Qué es la selección de funciones y por qué la necesitamos en el aprendizaje
automático? Medium. https://medium.com/@contactsunny/what-is-feature-selection-and-
why-do-we-need-it-in-machine-learning-28a28520607c
92
Victory, A., Letkiewicz, A., & Cochran, A. L. (2020). Digital solutions for shaping mood and
behavior among individuals with mood disorders. Current Opinion in Systems Biology.
https://doi.org/10.1016/j.coisb.2020.07.008
Waghmare, V., Deshmukh, R., & Shrishrimal, P. (2012). A Comparative Study of the Various
Emotional Speech Databases. International Journal on Computer Science and Engineering.
https://www.researchgate.net/publication/262791616_A_Comparative_Study_of_the_Vario
us_Emotional_Speech_Databases
Wang, S., Tang, J., & Liu, H. (2016). Feature Selection. In Encyclopedia of Machine Learning
and Data Mining (pp. 1–9). Springer US. https://doi.org/10.1007/978-1-4899-7502-7_101-1
93
Apéndice A: Bibliografía del Mapeo Sistemático
[M1] Braun, S., Annovazzi, C., Botella, C., Bridler, R., Camussi, E., Delfino, J. P., Mohr, C.,
Moragrega, I., Papagno, C., Pisoni, A., Soler, C., Seifritz, E., & Stassen, H. H. (2016).
Assessing Chronic Stress, Coping Skills, and Mood Disorders through Speech Analysis: A
Self-Assessment “Voice App” for Laptops, Tablets, and Smartphones Assessing Chronic
Stress, Coping Skills, and Mood Disorders through CSA. Psychopathology, 49(6), 406–419.
https://doi.org/10.1159/000450959
[M2] Khorram, S., Jaiswal, M., Gideon, J., Mcinnis, M., & Provost, E. M. (n.d.). The PRIORI
Emotion Dataset: Linking Mood to Emotion Detected In-the-Wild.
[M3] Ramm, A., Loáiciga, S., Friedrich, A., & Fraser, A. (2017). Annotating tense, mood and
voice for English, French and German. 1–6. https://doi.org/10.18653/v1/P17-4001
[M4] Victory, A., Letkiewicz, A., & Cochran, A. L. (2020). Digital solutions for shaping mood
and behavior among individuals with mood disorders. Current Opinion in Systems Biology.
https://doi.org/10.1016/j.coisb.2020.07.008
94
ANEXOS
Anexo 1. Planificación de actividades del proyecto
Elaboración: María Andrea Alvarado Guerrero y Angelo Joel Ponce Figueroa
Fuente: Propia.
95
Anexo 2. Fundamentación Legal
Las Normas Legales en un Proyecto de Titulación
El presente trabajo de titulación se centra en analizar técnicas de aprendizaje automático para
identificar el estado de ánimo de las personas a través de la voz, el mismo que a futuro podría dar
soporte a profesionales del área de psicología, el presente proyecto no pretende quebrantar las
leyes de la constitución, debido a que se encuentra fundamenta en la constitución, leyes y normas
como se detalla posteriormente.
ARTÍCULO DE LA
LOES CONTEXTO
ART. 1 ÁMBITO
Esta Ley regula el sistema de educación superior en el país, a los organismos e
instituciones que lo integran; determina derechos, deberes y obligaciones de las personas
naturales y jurídicas, y establece las respectivas sanciones por el incumplimiento de las
disposiciones contenidas en la Constitución y la presente Ley ARTICULO 1
ART. 2 OBJETO
Esta Ley tiene como objeto definir sus principios, garantizar el derecho a la educación
superior de calidad que propenda a la excelencia, al acceso universal, permanencia,
movilidad y egreso sin discriminación alguna.
ART. 4 DERECHO A
LA EDUCACION
SUPERIOR
a) Garantizar el derecho a la educación superior mediante la docencia, la investigación y
su vinculación con la sociedad, y asegurar crecientes niveles de calidad, excelencia
académica y pertinencia; n) Garantizar la producción de pensamiento y conocimiento
articulado con el pensamiento universal; y, ñ) Brindar niveles óptimos de calidad en la
formación
ART. 87
Como requisito previo a la obtención del título, los y las estudiantes deberán acreditar
servicios a la comunidad mediante prácticas o pasantías pre profesionales. debidamente
monitoreadas. en los campos de su especialidad, de conformidad con los lineamientos
generales definidos por el Consejo de Educación Superior.
ARTÍCULO 19.- DEL
REGLAMENTO. -
NÓMINA DE
GRADUADOS Y
NOTIFICACIÓN A
LA SENESCYT
Las instituciones de educación superior notificarán obligatoriamente a la SENESCYT la
nómina de los graduados y las especificaciones de los títulos que expida, en un plazo no
mayor de treinta días contados a partir de la fecha de graduación. (…) este será el único
medio oficial a través del cual se verificará el reconocimiento y validez del título en el
Ecuador.
ARTÍCULO 144
PRINCIPIOS
Art. 144.- Tesis Digitalizadas. - Todas las instituciones de educación superior estarán
obligadas a entregar las tesis que se elaboren para la obtención de títulos académicos de
grado y posgrado en formato digital para ser integradas al Sistema Nacional de
Información de la Educación Superior del Ecuador para su difusión pública respetando
los derechos de autor.
Elaboración: Alvarado Guerrero María Andrea y Ponce Figueroa Angelo Joel.
Fuente: Ley Orgánica de Educación Superior.
ARTÍCULO DE LA
CONSTITUCIÓN CONTEXTO
ARTÍCULO 22
Establece: las personas tienen derecho a desarrollar su capacidad creativa, al
ejercicio digno y sostenido de las actividades culturales y artísticas, y a beneficiarse
de la protección de los derechos morales y patrimoniales que les correspondan por
las producciones científicas, literarias o artísticas de su autoría.
96
ARTÍCULO 26
La educación es un derecho de las personas a lo largo de su vida y un deber
ineludible e inexcusable del Estado. Constituye un área prioritaria de la política
pública y de la inversión estatal, garantía de la igualdad e inclusión social y
condición indispensable para el buen vivir.
ARTÍCULO 28
La educación responderá al interés público y no estará al servicio de intereses
individuales y corporativos. Se garantizará el acceso universal, permanencia,
movilidad y egreso sin discriminación alguna
ARTÍCULO 350
El sistema de educación superior tiene como finalidad la formación académica y
profesional con visión científica y humanista; la investigación científica y
tecnológica; la innovación, promoción, desarrollo y difusión de los saberes y las
culturas; la construcción de soluciones para los problemas del país, en relación con
los objetivos del régimen de desarrollo
ARTÍCULO 351
El sistema de educación superior estará articulado al sistema nacional de educación
y al Plan Nacional de Desarrollo; la ley establecerá los mecanismos de coordinación
del sistema de educación superior con la Función Ejecutiva. Este sistema se regirá
por los principios de autonomía responsable, cogobierno, igualdad de
oportunidades, calidad, pertinencia, integralidad, autodeterminación para la
producción del pensamiento y conocimiento, en el marco del diálogo de saberes,
pensamiento universal y producción científica tecnológica global.
ARTÍCULO 355 primer y
segundo inciso
El Estado reconocerá a las universidades y escuelas politécnicas autonomía
académica, administrativa, financiera y orgánica, acorde con los objetivos del
régimen de desarrollo y los principios establecidos en la Constitución
ARTÍCULO 385
El sistema nacional de ciencia, tecnología, Innovación y saberes ancestrales, en el
marco del respeto al ambiente, la naturaleza, la vida, las culturas y la soberanía,
tendrá como finalidad: a) Generar, adaptar y difundir conocimientos científicos y
tecnológicos. b) Recuperar, fortalecer y potenciar los saberes ancestrales. c)
Desarrollar tecnologías e innovaciones que impulsen la producción nacional, eleven
la eficiencia y productividad, mejoren la calidad de vida y contribuyan a la
realización del buen vivir.
ARTÍCULO 386
El sistema comprenderá programas, políticas, recursos, acciones, e incorporará a
instituciones del Estado, universidades y escuelas politécnicas, institutos de
investigación públicos y privados, empresas públicas y privadas, organismos no
gubernamentales y personas naturales o jurídicas, en tanto realizan actividades de
investigación, desarrollo tecnológico, innovación y aquellas ligadas a los saberes
ancestrales. El Estado, a través del organismo competente, coordinará el sistema,
establecerá los objetivos y políticas, de conformidad con el Plan Nacional de
Desarrollo, con la participación de los actores que lo conforman.
ARTÍCULO 387
Será responsabilidad del Estado: a) Facilitar e impulsar la incorporación a la
sociedad del conocimiento para alcanzar los objetivos del régimen de desarrollo.
b) Promover la generación y producción de conocimiento, fomentar la investigación
científica y tecnológica, y potenciar los saberes ancestrales, para así contribuir a la
realización del buen vivir, al sumak kawsay. c) Asegurar la difusión y el acceso a
los conocimientos científicos y tecnológicos, el usufructo de sus descubrimientos y
hallazgos en el marco de lo establecido en la Constitución y la Ley. d) Garantizar la
libertad de creación e investigación en el marco del respeto a la ética, la naturaleza,
el ambiente, y el rescate de los conocimientos ancestrales. e) Reconocer la condición
de investigador de acuerdo con la Ley.
Elaboración: Alvarado Guerrero María Andrea y Ponce Figueroa Angelo Joel. Fuente: Ley Orgánica de Educación Superior.
97
Anexo 3. Modelo de la Encuesta
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
BIENVENIDA
INTRODUCTORIO
98
DEMOGRÁFICO
99
PSICOLÓGICO
100
101
102
103
104
105
106
Anexo 4. Validación de expertos.
Juicios de expertos
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
CATEGORIZACIÓN DE LAS EMOCIONES A ESTADO DE ÁNIMO
Para identificar el estado de ánimo marque con una (X):
TÍTULO DEL PROYECTO
RECONOCIMIENTO DE LOS ESTADOS DE
ÁNIMO DE LAS PERSONAS EMPLEANDO
TÉCNICAS DE APRENDIZAJE
AUTOMÁTICO
N° Emoción Estado de Ánimo
Positivo Negativo
1 Enojo X
2 Asco X
3 Miedo X
4 Felicidad X
5 Neutral X
6 Sorpresa X
7 Tristeza X
8 Calma X
Firmado por:
____________________________
Psic. Marcela Guerrero
C.I. N° 0953740099
107
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
CATEGORIZACIÓN DE LAS EMOCIONES A ESTADO DE ÁNIMO
Para identificar el estado de ánimo marque con una (X):
TÍTULO DEL PROYECTO
RECONOCIMIENTO DE LOS ESTADOS DE
ÁNIMO DE LAS PERSONAS EMPLEANDO
TÉCNICAS DE APRENDIZAJE
AUTOMÁTICO
N° Emoción Estado de Ánimo
Positivo Negativo
1 Enojo X
2 Asco X
3 Miedo X
4 Felicidad X
5 Neutral X
6 Sorpresa X
7 Tristeza X
8 Calma X
Firmado por:
__________________________________
Psic. Andrea García
C.I. N° 0953661766
108
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
CATEGORIZACIÓN DE LAS EMOCIONES A ESTADO DE ÁNIMO
Para identificar el estado de ánimo marque con una (X):
TÍTULO DEL PROYECTO
RECONOCIMIENTO DE LOS ESTADOS DE
ÁNIMO DE LAS PERSONAS EMPLEANDO
TÉCNICAS DE APRENDIZAJE
AUTOMÁTICO
N° Emoción Estado de Ánimo
Positivo Negativo
1 Enojo X
2 Asco X
3 Miedo X
4 Felicidad X
5 Neutral X
6 Sorpresa X
7 Tristeza X
8 Calma X
Firmado por:
______________________________
Psic. Hellen María Cárdenas
C.I. N° 0922317219
109
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
ESTADO DE ÁNIMO DEL SUJETO 1
Para identificar el estado de ánimo marque con una (X):
TÍTULO DEL PROYECTO
RECONOCIMIENTO DE LOS ESTADOS DE
ÁNIMO DE LAS PERSONAS EMPLEANDO
TÉCNICAS DE APRENDIZAJE AUTOMÁTICO
Pregunta Estado de Ánimo
Positivo Negativo
1. ¿Siempre he querido ser? X
2. Si es que yo fuera el jefe X
3. El futuro se me presenta X
4. Se que es una tontería, pero tengo miedo de X
5. En comparación con la mayoría de las
familias la mía, es
X
6. Creo que tengo capacidad para X
7. Sería muy feliz si X
8. No me gusta la gente que X
9. Hace años, yo era X
10. Mi familia me trata como X
11. Mi mayor debilidad es X
12. Mi anhelo oculto de mi vida es X
13. Algún día yo X
14. La gente que más me gusta X
15. Cuando tengo mala suerte es X
16. Mis temores me obligan, a veces a X
17. Lo que menos me gusta es X
18. Mi vida es X
Estado de Ánimo Detectado X
Firmado por:
______________________________
Psic. Marcela Guerrero
C.I. N° 0953740099
110
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
ESTADO DE ÁNIMO DEL SUJETO 7
Para identificar el estado de ánimo marque con una (X):
TÍTULO DEL PROYECTO
RECONOCIMIENTO DE LOS ESTADOS DE
ÁNIMO DE LAS PERSONAS EMPLEANDO
TÉCNICAS DE APRENDIZAJE AUTOMÁTICO
Pregunta Estado de Ánimo
Positivo Negativo
1. ¿Siempre he querido ser? X
2. Si es que yo fuera el jefe X
3. El futuro se me presenta X
4. Se que es una tontería, pero tengo miedo de X
5. En comparación con la mayoría de las
familias la mía, es
X
6. Creo que tengo capacidad para X
7. Sería muy feliz si X
8. No me gusta la gente que X
9. Hace años, yo era X
10. Mi familia me trata como X
11. Mi mayor debilidad es X
12. Mi anhelo oculto de mi vida es X
13. Algún día yo X
14. La gente que más me gusta X
15. Cuando tengo mala suerte es X
16. Mis temores me obligan, a veces a X
17. Lo que menos me gusta es X
18. Mi vida es X
Estado de Ánimo Detectado X
Firmado por:
______________________________
Psic. Marcela Guerrero
C.I. N° 0953740099
111
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
ESTADO DE ÁNIMO DEL SUJETO 17
Para identificar el estado de ánimo marque con una (X):
TÍTULO DEL PROYECTO
RECONOCIMIENTO DE LOS ESTADOS DE
ÁNIMO DE LAS PERSONAS EMPLEANDO
TÉCNICAS DE APRENDIZAJE AUTOMÁTICO
Pregunta Estado de Ánimo
Positivo Negativo
1. ¿Siempre he querido ser? X
2. Si es que yo fuera el jefe X
3. El futuro se me presenta X
4. Se que es una tontería, pero tengo miedo de X
5. En comparación con la mayoría de las
familias la mía, es
X
6. Creo que tengo capacidad para X
7. Sería muy feliz si X
8. No me gusta la gente que X
9. Hace años, yo era X
10. Mi familia me trata como X
11. Mi mayor debilidad es X
12. Mi anhelo oculto de mi vida es X
13. Algún día yo X
14. La gente que más me gusta X
15. Cuando tengo mala suerte es X
16. Mis temores me obligan, a veces a X
17. Lo que menos me gusta es X
18. Mi vida es X
Estado de Ánimo Detectado X
Firmado por:
_____________________________
Psic. Marcela Guerrero
C.I. N° 0953740099
112
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
ESTADO DE ÁNIMO DEL SUJETO 22
Para identificar el estado de ánimo marque con una (X):
TÍTULO DEL PROYECTO
RECONOCIMIENTO DE LOS ESTADOS DE
ÁNIMO DE LAS PERSONAS EMPLEANDO
TÉCNICAS DE APRENDIZAJE AUTOMÁTICO
Pregunta Estado de Ánimo
Positivo Negativo
1. ¿Siempre he querido ser? X
2. Si es que yo fuera el jefe X
3. El futuro se me presenta X
4. Se que es una tontería, pero tengo miedo de X
5. En comparación con la mayoría de las
familias la mía, es
X
6. Creo que tengo capacidad para X
7. Sería muy feliz si X
8. No me gusta la gente que X
9. Hace años, yo era X
10. Mi familia me trata como X
11. Mi mayor debilidad es X
12. Mi anhelo oculto de mi vida es X
13. Algún día yo X
14. La gente que más me gusta X
15. Cuando tengo mala suerte es X
16. Mis temores me obligan, a veces a X
17. Lo que menos me gusta es X
18. Mi vida es X
Estado de Ánimo Detectado X
Firmado por:
______________________________
Psic. Marcela Guerrero
C.I. N° 0953740099
113
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
ESTADO DE ÁNIMO DEL SUJETO 23
Para identificar el estado de ánimo marque con una (X):
TÍTULO DEL PROYECTO
RECONOCIMIENTO DE LOS ESTADOS DE
ÁNIMO DE LAS PERSONAS EMPLEANDO
TÉCNICAS DE APRENDIZAJE AUTOMÁTICO
Pregunta Estado de Ánimo
Positivo Negativo
1. ¿Siempre he querido ser? X
2. Si es que yo fuera el jefe X
3. El futuro se me presenta X
4. Se que es una tontería, pero tengo miedo de X
5. En comparación con la mayoría de las
familias la mía, es
X
6. Creo que tengo capacidad para X
7. Sería muy feliz si X
8. No me gusta la gente que X
9. Hace años, yo era X
10. Mi familia me trata como X
11. Mi mayor debilidad es X
12. Mi anhelo oculto de mi vida es X
13. Algún día yo X
14. La gente que más me gusta X
15. Cuando tengo mala suerte es X
16. Mis temores me obligan, a veces a X
17. Lo que menos me gusta es X
18. Mi vida es X
Estado de Ánimo Detectado X
Firmado por:
______________________________
Psic. Marcela Guerrero
C.I. N° 0953740099
114
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
ESTADO DE ÁNIMO DEL SUJETO 28
Para identificar el estado de ánimo marque con una (X):
TÍTULO DEL PROYECTO
RECONOCIMIENTO DE LOS ESTADOS DE
ÁNIMO DE LAS PERSONAS EMPLEANDO
TÉCNICAS DE APRENDIZAJE AUTOMÁTICO
Pregunta Estado de Ánimo
Positivo Negativo
1. ¿Siempre he querido ser? X
2. Si es que yo fuera el jefe X
3. El futuro se me presenta X
4. Se que es una tontería, pero tengo miedo de X
5. En comparación con la mayoría de las
familias la mía, es
X
6. Creo que tengo capacidad para X
7. Sería muy feliz si X
8. No me gusta la gente que X
9. Hace años, yo era X
10. Mi familia me trata como X
11. Mi mayor debilidad es X
12. Mi anhelo oculto de mi vida es X
13. Algún día yo X
14. La gente que más me gusta X
15. Cuando tengo mala suerte es X
16. Mis temores me obligan, a veces a X
17. Lo que menos me gusta es X
18. Mi vida es X
Estado de Ánimo Detectado X
Firmado por:
______________________________
Psic. Marcela Guerrero
C.I. N° 0953740099
115
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
ESTADO DE ÁNIMO DEL SUJETO 1
Para identificar el estado de ánimo marque con una (X):
TÍTULO DEL PROYECTO
RECONOCIMIENTO DE LOS ESTADOS DE
ÁNIMO DE LAS PERSONAS EMPLEANDO
TÉCNICAS DE APRENDIZAJE AUTOMÁTICO
Pregunta Estado de Ánimo
Positivo Negativo
1. ¿Siempre he querido ser? X
2. Si es que yo fuera el jefe X
3. El futuro se me presenta X
4. Se que es una tontería, pero tengo miedo de X
5. En comparación con la mayoría de las
familias la mía, es
X
6. Creo que tengo capacidad para X
7. Sería muy feliz si X
8. No me gusta la gente que X
9. Hace años, yo era X
10. Mi familia me trata como X
11. Mi mayor debilidad es X
12. Mi anhelo oculto de mi vida es X
13. Algún día yo X
14. La gente que más me gusta X
15. Cuando tengo mala suerte es X
16. Mis temores me obligan, a veces a X
17. Lo que menos me gusta es X
18. Mi vida es X
Estado de Ánimo Detectado X
Firmado por:
Psic. Andrea García
C.I. N° 0953661766
116
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
ESTADO DE ÁNIMO DEL SUJETO 7
Para identificar el estado de ánimo marque con una (X):
TÍTULO DEL PROYECTO
RECONOCIMIENTO DE LOS ESTADOS DE
ÁNIMO DE LAS PERSONAS EMPLEANDO
TÉCNICAS DE APRENDIZAJE AUTOMÁTICO
Pregunta Estado de Ánimo
Positivo Negativo
1. ¿Siempre he querido ser? X
2. Si es que yo fuera el jefe X
3. El futuro se me presenta X
4. Se que es una tontería, pero tengo miedo de X
5. En comparación con la mayoría de las
familias la mía, es
X
6. Creo que tengo capacidad para X
7. Sería muy feliz si X
8. No me gusta la gente que X
9. Hace años, yo era X
10. Mi familia me trata como X
11. Mi mayor debilidad es X
12. Mi anhelo oculto de mi vida es X
13. Algún día yo X
14. La gente que más me gusta X
15. Cuando tengo mala suerte es X
16. Mis temores me obligan, a veces a X
17. Lo que menos me gusta es X
18. Mi vida es X
Estado de Ánimo Detectado X
Firmado por:
______________________________
Psic. Andrea García
C.I. N° 0953661766
117
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
ESTADO DE ÁNIMO DEL SUJETO 17
Para identificar el estado de ánimo marque con una (X):
TÍTULO DEL PROYECTO
RECONOCIMIENTO DE LOS ESTADOS DE
ÁNIMO DE LAS PERSONAS EMPLEANDO
TÉCNICAS DE APRENDIZAJE AUTOMÁTICO
Pregunta Estado de Ánimo
Positivo Negativo
1. ¿Siempre he querido ser? X
2. Si es que yo fuera el jefe X
3. El futuro se me presenta X
4. Se que es una tontería, pero tengo miedo de X
5. En comparación con la mayoría de las
familias la mía, es
X
6. Creo que tengo capacidad para X
7. Sería muy feliz si X
8. No me gusta la gente que X
9. Hace años, yo era X
10. Mi familia me trata como X
11. Mi mayor debilidad es X
12. Mi anhelo oculto de mi vida es X
13. Algún día yo X
14. La gente que más me gusta X
15. Cuando tengo mala suerte es X
16. Mis temores me obligan, a veces a X
17. Lo que menos me gusta es X
18. Mi vida es X
Estado de Ánimo Detectado X
Firmado por:
______________________________
Psic. Andrea García
C.I. N° 0953661766
118
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
ESTADO DE ÁNIMO DEL SUJETO 22
Para identificar el estado de ánimo marque con una (X):
TÍTULO DEL PROYECTO
RECONOCIMIENTO DE LOS ESTADOS DE
ÁNIMO DE LAS PERSONAS EMPLEANDO
TÉCNICAS DE APRENDIZAJE AUTOMÁTICO
Pregunta Estado de Ánimo
Positivo Negativo
1. ¿Siempre he querido ser? X
2. Si es que yo fuera el jefe X
3. El futuro se me presenta X
4. Se que es una tontería, pero tengo miedo de X
5. En comparación con la mayoría de las
familias la mía, es
X
6. Creo que tengo capacidad para X
7. Sería muy feliz si X
8. No me gusta la gente que X
9. Hace años, yo era X
10. Mi familia me trata como X
11. Mi mayor debilidad es X
12. Mi anhelo oculto de mi vida es X
13. Algún día yo X
14. La gente que más me gusta X
15. Cuando tengo mala suerte es X
16. Mis temores me obligan, a veces a X
17. Lo que menos me gusta es X
18. Mi vida es X
Estado de Ánimo Detectado X
Firmado por:
______________________________
Psic. Andrea García
C.I. N° 0953661766
119
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
ESTADO DE ÁNIMO DEL SUJETO 23
Para identificar el estado de ánimo marque con una (X):
TÍTULO DEL PROYECTO
RECONOCIMIENTO DE LOS ESTADOS DE
ÁNIMO DE LAS PERSONAS EMPLEANDO
TÉCNICAS DE APRENDIZAJE AUTOMÁTICO
Pregunta Estado de Ánimo
Positivo Negativo
1. ¿Siempre he querido ser? X
2. Si es que yo fuera el jefe X
3. El futuro se me presenta X
4. Se que es una tontería, pero tengo miedo de X
5. En comparación con la mayoría de las
familias la mía, es
X
6. Creo que tengo capacidad para X
7. Sería muy feliz si X
8. No me gusta la gente que X
9. Hace años, yo era X
10. Mi familia me trata como X
11. Mi mayor debilidad es X
12. Mi anhelo oculto de mi vida es X
13. Algún día yo X
14. La gente que más me gusta X
15. Cuando tengo mala suerte es X
16. Mis temores me obligan, a veces a X
17. Lo que menos me gusta es X
18. Mi vida es X
Estado de Ánimo Detectado X
Firmado por:
______________________________
Psic. Andrea García
C.I. N° 0953661766
120
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
ESTADO DE ÁNIMO DEL SUJETO 28
Para identificar el estado de ánimo marque con una (X):
TÍTULO DEL PROYECTO
RECONOCIMIENTO DE LOS ESTADOS DE
ÁNIMO DE LAS PERSONAS EMPLEANDO
TÉCNICAS DE APRENDIZAJE AUTOMÁTICO
Pregunta Estado de Ánimo
Positivo Negativo
1. ¿Siempre he querido ser? X
2. Si es que yo fuera el jefe X
3. El futuro se me presenta X
4. Se que es una tontería, pero tengo miedo de X
5. En comparación con la mayoría de las
familias la mía, es
X
6. Creo que tengo capacidad para X
7. Sería muy feliz si X
8. No me gusta la gente que X
9. Hace años, yo era X
10. Mi familia me trata como X
11. Mi mayor debilidad es X
12. Mi anhelo oculto de mi vida es X
13. Algún día yo X
14. La gente que más me gusta X
15. Cuando tengo mala suerte es X
16. Mis temores me obligan, a veces a X
17. Lo que menos me gusta es X
18. Mi vida es X
Estado de Ánimo Detectado X
Firmado por:
______________________________
Psic. Andrea García
C.I. N° 0953661766
121
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
ESTADO DE ÁNIMO DEL SUJETO 1
Para identificar el estado de ánimo marque con una (X):
TÍTULO DEL PROYECTO
RECONOCIMIENTO DE LOS ESTADOS DE
ÁNIMO DE LAS PERSONAS EMPLEANDO
TÉCNICAS DE APRENDIZAJE AUTOMÁTICO
Pregunta Estado de Ánimo
Positivo Negativo
1. ¿Siempre he querido ser? X
2. Si es que yo fuera el jefe X
3. El futuro se me presenta X
4. Se que es una tontería, pero tengo miedo de X
5. En comparación con la mayoría de las
familias la mía, es
X
6. Creo que tengo capacidad para X
7. Sería muy feliz si X
8. No me gusta la gente que X
9. Hace años, yo era X
10. Mi familia me trata como X
11. Mi mayor debilidad es X
12. Mi anhelo oculto de mi vida es X
13. Algún día yo X
14. La gente que más me gusta X
15. Cuando tengo mala suerte es X
16. Mis temores me obligan, a veces a X
17. Lo que menos me gusta es X
18. Mi vida es X
Estado de Ánimo Detectado X
Firmado por:
______________________________
Psic. Hellen María Cárdenas
C.I. N° 0922317219
122
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
ESTADO DE ÁNIMO DEL SUJETO 7
Para identificar el estado de ánimo marque con una (X):
TÍTULO DEL PROYECTO
RECONOCIMIENTO DE LOS ESTADOS DE
ÁNIMO DE LAS PERSONAS EMPLEANDO
TÉCNICAS DE APRENDIZAJE AUTOMÁTICO
Pregunta Estado de Ánimo
Positivo Negativo
1. ¿Siempre he querido ser? X
2. Si es que yo fuera el jefe X
3. El futuro se me presenta X
4. Se que es una tontería, pero tengo miedo de X
5. En comparación con la mayoría de las
familias la mía, es
X
6. Creo que tengo capacidad para X
7. Sería muy feliz si X
8. No me gusta la gente que X
9. Hace años, yo era X
10. Mi familia me trata como X
11. Mi mayor debilidad es X
12. Mi anhelo oculto de mi vida es X
13. Algún día yo X
14. La gente que más me gusta X
15. Cuando tengo mala suerte es X
16. Mis temores me obligan, a veces a X
17. Lo que menos me gusta es X
18. Mi vida es X
Estado de Ánimo Detectado X
Firmado por:
______________________________
Psic. Hellen María Cárdenas
C.I. N° 0922317219
123
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
ESTADO DE ÁNIMO DEL SUJETO 17
Para identificar el estado de ánimo marque con una (X):
TÍTULO DEL PROYECTO
RECONOCIMIENTO DE LOS ESTADOS DE
ÁNIMO DE LAS PERSONAS EMPLEANDO
TÉCNICAS DE APRENDIZAJE AUTOMÁTICO
Pregunta Estado de Ánimo
Positivo Negativo
1. ¿Siempre he querido ser? X
2. Si es que yo fuera el jefe X
3. El futuro se me presenta X
4. Se que es una tontería, pero tengo miedo de X
5. En comparación con la mayoría de las
familias la mía, es
X
6. Creo que tengo capacidad para X
7. Sería muy feliz si X
8. No me gusta la gente que X
9. Hace años, yo era X
10. Mi familia me trata como X
11. Mi mayor debilidad es X
12. Mi anhelo oculto de mi vida es X
13. Algún día yo X
14. La gente que más me gusta X
15. Cuando tengo mala suerte es X
16. Mis temores me obligan, a veces a X
17. Lo que menos me gusta es X
18. Mi vida es X
Estado de Ánimo Detectado X
Firmado por:
______________________________
Psic. Hellen María Cárdenas
C.I. N° 0922317219
124
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
ESTADO DE ÁNIMO DEL SUJETO 22
Para identificar el estado de ánimo marque con una (X):
TÍTULO DEL PROYECTO
RECONOCIMIENTO DE LOS ESTADOS DE
ÁNIMO DE LAS PERSONAS EMPLEANDO
TÉCNICAS DE APRENDIZAJE AUTOMÁTICO
Pregunta Estado de Ánimo
Positivo Negativo
1. ¿Siempre he querido ser? X
2. Si es que yo fuera el jefe X
3. El futuro se me presenta X
4. Se que es una tontería, pero tengo miedo de X
5. En comparación con la mayoría de las
familias la mía, es
X
6. Creo que tengo capacidad para X
7. Sería muy feliz si X
8. No me gusta la gente que X
9. Hace años, yo era X
10. Mi familia me trata como X
11. Mi mayor debilidad es X
12. Mi anhelo oculto de mi vida es X
13. Algún día yo X
14. La gente que más me gusta X
15. Cuando tengo mala suerte es X
16. Mis temores me obligan, a veces a X
17. Lo que menos me gusta es X
18. Mi vida es X
Estado de Ánimo Detectado X
Firmado por:
______________________________
Psic. Hellen María Cárdenas
C.I. N° 0922317219
125
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
ESTADO DE ÁNIMO DEL SUJETO 23
Para identificar el estado de ánimo marque con una (X):
TÍTULO DEL PROYECTO
RECONOCIMIENTO DE LOS ESTADOS DE
ÁNIMO DE LAS PERSONAS EMPLEANDO
TÉCNICAS DE APRENDIZAJE AUTOMÁTICO
Pregunta Estado de Ánimo
Positivo Negativo
1. ¿Siempre he querido ser? X
2. Si es que yo fuera el jefe X
3. El futuro se me presenta X
4. Se que es una tontería, pero tengo miedo de X
5. En comparación con la mayoría de las
familias la mía, es
X
6. Creo que tengo capacidad para X
7. Sería muy feliz si X
8. No me gusta la gente que X
9. Hace años, yo era X
10. Mi familia me trata como X
11. Mi mayor debilidad es X
12. Mi anhelo oculto de mi vida es X
13. Algún día yo X
14. La gente que más me gusta X
15. Cuando tengo mala suerte es X
16. Mis temores me obligan, a veces a X
17. Lo que menos me gusta es X
18. Mi vida es X
Estado de Ánimo Detectado X
Firmado por:
______________________________
Psic. Hellen María Cárdenas
C.I. N° 0922317219
126
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
ESTADO DE ÁNIMO DEL SUJETO 28
Para identificar el estado de ánimo marque con una (X):
TÍTULO DEL PROYECTO
RECONOCIMIENTO DE LOS ESTADOS DE
ÁNIMO DE LAS PERSONAS EMPLEANDO
TÉCNICAS DE APRENDIZAJE AUTOMÁTICO
Pregunta Estado de Ánimo
Positivo Negativo
1. ¿Siempre he querido ser? X
2. Si es que yo fuera el jefe X
3. El futuro se me presenta X
4. Se que es una tontería, pero tengo miedo de X
5. En comparación con la mayoría de las
familias la mía, es
X
6. Creo que tengo capacidad para X
7. Sería muy feliz si X
8. No me gusta la gente que X
9. Hace años, yo era X
10. Mi familia me trata como X
11. Mi mayor debilidad es X
12. Mi anhelo oculto de mi vida es X
13. Algún día yo X
14. La gente que más me gusta X
15. Cuando tengo mala suerte es X
16. Mis temores me obligan, a veces a X
17. Lo que menos me gusta es X
18. Mi vida es X
Estado de Ánimo Detectado X
Firmado por:
______________________________
Psic. Hellen María Cárdenas
C.I. N° 0922317219
127
Anexo 5. Artículo científico
¿Es posible reconocer los estados de ánimo de las personas a través de
la voz?
Angelo Ponce Figueroa Andrea Alvarado Guerrero Miguel Botto-Tobar
Universidad de Guayaquil Universidad de Guayaquil Universidad de Guayaquil
Resumen
En este estudio se presenta el proceso para
identificar el estado de ánimo de las
personas a través de la voz. Se utilizaron
dos bases de datos de discurso emocional,
estas estaban constituidas por las
emociones básicas del ser humano y por
esta razón fueron reagrupadas por estado de
ánimo. Se utilizó una colección de
extractores de características acústicas a
partir de la revisión del estado del arte
generando buenos resultados en el estudio
de la voz. Para la selección de
características fueron analizados cada uno
de los conjuntos de extractores acústicos
definidos y de esta forma se generaron los
diferentes dataset. En la fase de resultados
se emplearon diversas técnicas de
aprendizaje automático para cada dataset.
Se eligieron varios dataset cuyos resultados
estuvieron más cercanos a la opinión
emitida por los expertos y de esta manera se
consiguió identificar el estado de ánimo de
las personas con mayor precisión y
exhaustividad.
I. INTRODUCCIÓN
A través del tiempo, las personas se han
adecuado a las diversas maneras de
comunicación y relación que ofrecen los
medios electrónicos en general. Estudios
recientes se enfocan en establecer una
comunicación más realista y comprensiva
entre estos medios y el ser humano. Para
lograr esto, la idea fundamental es
identificar los estados de ánimo que pueden
presentar las personas para obtener una
respuesta y reacción más acertada por parte
de los ordenadores. El reconocimiento de
los estados de ánimo de las personas es
realizado a través de características, tales
como: la voz, señales fisiológicas,
biometría, etc. Debido a que las señales de
la voz son más inmediatas y sencillas de
recibir, se reconocen como un medio
notable de adquisición de información.
Existen estudios que se basan en el análisis
de la voz para identificar las emociones de
las personas con diferentes técnicas, entre
ellas aplicando aprendizaje automático. El
análisis de la voz ha generado que se
realicen muchas investigaciones de
distintas organizaciones y/o instituciones
alrededor del mundo. Las diversas fuentes
de investigación apoyan su trabajo en el
empleo de algoritmos de aprendizaje
automático para el análisis de emociones
por la capacidad que poseen para clasificar
los audios a partir del tono de la voz y el
énfasis al pronunciar ciertas palabras
(Hernández Tamayo et al., 2020).
Los recientes estudios mencionan que por
medio de las señales de audio se pueden
obtener características representativas para
el análisis de sentimientos, tales como: los
Coeficientes Cepstrales en la Escala de Mel
(MFCC), la Tasa de cruce por cero (ZRC)
y la Transformada de Fourier de tiempo
corto (STFT).
No obstante, los diferentes estudios
emplean las técnicas mencionadas
anteriormente para el reconocimiento de
emociones por la voz, y para el
reconocimiento de los estados de ánimo
aplican test psicológicos o juegos
interactivos. Al ser un campo que continúa
en exploración no se han aplicado técnicas
específicas para el reconocimiento del
estado de ánimo en la voz.
El propósito de este estudio consiste en
identificar las técnicas de aprendizaje
automático que se usan en la actualidad
para el reconocimiento de los estados de
ánimo de las personas. Debido a que el
objetivo de esta investigación es extenso se
define la siguiente pregunta de
investigación:
RQ: ¿Los modelos de aprendizaje
automático pueden identificar el estado de
ánimo de las personas? Para contestar RQ
se ha descompuesto en sub-preguntas de
investigación más detalladas con el
objetivo de ser abordada.
SQR1: ¿Cuáles son las bases de datos que
deberían considerarse para realizar este
estudio?
SRQ2: ¿Qué características se consideran
para identificar el estado de ánimo?
SRQ3: ¿Las técnicas de aprendizaje
automático permiten identificar el estado de
ánimo?
Estas preguntas posibilitarán identificar las
técnicas de aprendizaje automático y que
artefactos son empleados para reconocer el
estado de ánimo de las personas, facilitando
el trabajo a futuras investigaciones.
II. TRABAJOS RELACIONADOS
El presente estudio se fundamenta en
consultar artículos de revistas científicas,
investigaciones de instituciones
académicas; nacionales y extranjeras,
permitiendo efectuar la revisión del estado
del arte para así obtener información de la
utilización de técnicas de aprendizaje
automático en el reconocimiento de los
estados de ánimo de las personas a través de
la voz.
Páez & Costa (2014) menciona que los EA
pueden durar horas o días “la síntesis de
meta-análisis torna posible concluir que las
estrategias que permiten mejorar el estado
de ánimo, aumentar emociones positivas y
disminuir negativas”.
Montoro Montarraso implemento técnicas
de AS, procesamiento del lenguaje natural
y lógica borrosa para definir la intensidad
del discurso de odio en las redes sociales
(Montoro Montarroso, 2019).
En la investigación de Bello Ambario et al.
(2017) la metodología que emplearon se
apoyó en la transformada rápida de Fourier
(FFT) y coeficientes de correlación de
Pearson, para el reconocimiento de
emociones estudiando fragmentos de voz,
usaron la base de datos Berlín, sin embargo
no emplearon algoritmos de clasificación.
Morán et al. (2018) basaron su estudio en el
entrenamiento de modelos de aprendizaje
automático: Máquinas de Vectores de
Soporte, Bosques Aleatorios y Aumento de
Gradiente, construyeron una base de datos
de seis emociones (ira, sorpresa, felicidad,
miedo, tristeza y asco) en condiciones
controladas y actuadas. Posteriormente,
para probar los modelos construyeron dos
bases de datos (una en condiciones
controladas y semi-naturales, y otra en
condiciones no controladas y naturales).
En el estudio de Hernández Tamayo et al. (
2020) utilizaron dos base de datos de
lenguaje emocional, una de las bases de
datos fue producida por la inducción de
emociones y la otra por emociones
actuantes. Para la extracción de
características acústicas usaron: MFCCs,
Tasa de Cruce 0 (ZCR), energía, spectral
centroid, spectral spread, entre otras. Para
los experimentos de clasificación
automática emplearon: Naïve Bayes,
Multilayer Perceptron, Máquinas de
Vectores de Soporte (SVM) y Random
Forest (RF), siendo SVM el mejor método
de clasificación por mostrar los mejores
resultados.
En la tabla I se muestran diversas bases de
datos, constituidas por muestras de audios
en idiomas determinados.
Después de realizar el estudio del arte se
concluye que para identificar el estado de
ánimo de las personas por la voz se debe
identificar las emociones que presentan
para etiquetarlas como positivas o
negativas.
III. MÉTODO DE INVESTIGACIÓN
Para realizar el análisis sobre algoritmos
para el reconocimiento del estado de ánimo
de las personas a través de la voz, son
primordiales las siguientes fases:
A. Bases de datos
Se revisaron fuentes bibliográficas sobre el
uso de bases de datos que contienen
discursos emocionales, las cuales están
conformadas por un gran volumen de
muestras de audio en idiomas específicos,
ordenadas de acuerdo a diversas
emociones, que luego se asociaron y
ordenaron en dos clases; (positivo y
negativo). A continuación, se muestran las
diferentes bases de datos obtenidas del
estudio del arte.
Tabla I
Bases de datos de discurso emocional
Base de datos Idioma Emociones
Drama corpus Mandarín Ira, asco, miedo,
felicidad, tristeza,
sorpresa, neutral.
Acted speech
corpus
Mandarín Ira, miedo,
felicidad, tristeza,
neutral.
Danish
Emotional
Speech
Database
Danés Ira, felicidad,
tristeza, sorpresa,
neutral.
INTERFACE
Emotional
Speech
Synthesis
Database
Inglés,
Francés,
Esloveno,
Español
Ira, asco, miedo,
alegría, tristeza,
sorpresa, neutral.
Berlin
Database of
Emotional
Speech
Alemán Ira, aburrimiento,
asco, miedo,
alegría, tristeza,
neutral.
SES (Spanish
Emotional
Speech
database)
Español Ira, felicidad,
tristeza, sorpresa,
neutral.
RAVDESS
(The Ryerson
Audio-Visual
Database of
Emotional
Speech and
Song)
Inglés Neutral, calma,
felicidad, tristeza,
enojo, miedo, asco
y sorpresa.
TESS
(Toronto
emotional
speech set)
Inglés Miedo, sorpresa,
tristeza, enojo,
disgusto, felicidad
y neutral.
Para responder la pregunta SQR1 se
consideraron las siguientes bases de datos:
la base de datos RAVDESS (The Ryerson
Audio-Visual Database of Emotional
Speech and Song), incluye 1440 archivos
de audio en formato wav, con la
intervención de 24 actores profesionales
(12 mujeres, 12 hombres), que manifiestan
dos declaraciones léxicamente
incorporadas en un acento neutral del
idioma inglés. Las emociones que
comprende son: neutral, calma, felicidad,
tristeza, enojo, miedo, asco y sorpresa. Por
otra parte, la base de datos TESS (Toronto
emotional speech set) está compuesta por la
participación de 2 actrices (de 26 y 64 años
de edad) emitiendo un conjunto de 200
palabras en idioma inglés y expresando
siete diferentes emociones; miedo,
sorpresa, tristeza, enojo, disgusto, felicidad
y neutral. Formando un total de 2800
archivos de audio en formato wav.
Sin embargo, estas bases de datos contienen
muestras de audio en idioma inglés y cada
audio está clasificado por la emoción
interpretada por el actor, por tal motivo se
clasificaron nuevamente estas bases de
datos fundamentadas en el juicio de
expertos del área de psicología según su
correspondiente estado de ánimo (positivo
y negativo). En la tabla II se presentan los
resultados de esta recategorización.
Tabla II
Categorización según expertos de las
emociones a estado de ánimo
Emoción Estado de ánimo
Enojo Negativo
Asco Negativo
Miedo Negativo
Felicidad Positivo
Neutral Negativo
Sorpresa Positivo
Tristeza Negativo
Calma Positivo
B. Extractores de características
Para esta investigación se siguieron las
recomendaciones de (Bello Ambario et al.,
2017), (Hernández Tamayo et al., 2020) y
(Morán et al., 2018).
1. MFCC
Coeficientes Cepstrales en la Escala
de Mel (MFCC), es la técnica de
extracción de características más
utilizada para el reconocimiento de
la voz (Martínez Mascorro &
Aguilar Torres, 2013).
En la figura X, se muestra el
proceso para la extracción de
características de un vector MFCC
Figura I: Extractor de características MFCC
Para la extracción de los MFCC en cada
audio se siguieron los pasos que se detallan
a continuación:
a) Pre-énfasis: se usa para que la señal
pase por un filtro que enfatiza las
frecuencias altas, lo que permite
obtener un equilibrio en el espectro
del sonido para obtener más
información en la señal, se usa la
siguiente función:
𝐻(𝑧) = 1 − 𝑏𝑧−1
Donde b controla la pendiente del
filtro y los valores pueden estar
entre 0,4 y 1 (Rao & Vuppala, 2014)
b) Hamming: se debe examinar en
segmentos cortos de tiempo la
ventana de Hamming para así
obtener características acústicas
más estables, la siguiente ecuación
representa la función Hamming:
𝑊𝑛(𝑚) = 0.54 − 0.46 𝐶𝑜𝑠 ( 2𝜋𝑚
(𝑁𝑚 − 1)) , 0 < 𝑚 < 𝑁𝑚 − 1
Donde 𝑊𝑛(𝑚) = Hamming
𝑁𝑚 = número de nuestras en cada trama
La señal de entrada (Xm) se
multiplica con la función de la
ventada Hamming Wn (M) para
obtener la señal de salida Y(m).
𝑌(𝑚) = 𝑋(𝑚) ∗ 𝑊𝑛(𝑚)
c) Transformada de Fourier Discreta
(DFT): se obtiene el DFT de cada
trama con la siguiente ecuación
donde N representa el número de
puntos que se utilizan para calcular
el DFT:
𝐷𝑘 = ∑ 𝐷𝑚
𝑁𝑚−1
𝑚=0𝑒
−𝑗2𝜋𝑘𝑚𝑁𝑚
d) Banco de filtros de Mel: la señal
DFT pasa por un conjunto de filtros
que es conocido como banco de
filtros de Mel para que se adapte a
las frecuencias de las propiedades
auditivas humanas. Se debe
convertir la frecuencia (f) física en
frecuencia Mel con la siguiente
ecuación:
𝑓𝑚𝑒𝑙 = 2595 𝑙𝑜𝑔10 (1 + 𝑓
700)
e) Logaritmo de la señal transformada:
se calcula el logaritmo de
frecuencia en la escala de Mel
elevada al cuadrado, para que la
frecuencia sea menos sensible ante
posibles variaciones.
f) Transformada de Coseno Discreta
(DCT): la salida que se genera se
conoce como MFCC (Gupta et al.,
2013).
𝐶𝑛 = ∑ (log 𝐷𝑘) cos [𝑚 (𝑘 − 1
2)
𝜋
𝑘]
𝑘
𝑘−1
Donde m = el número de
coeficientes
2. Zero Cross Rate (ZRC)
Son cambios de signo de la señal a
lo largo del tiempo, es decir, calcula
la frecuencia cuando la señal de voz
pasa por el nivel cero durante el
segmento que se esté analizando
(Bleda et al., 2012). La siguiente
ecuación es para calcular el ZRC:
𝑍𝐶𝑅 = 1
𝑇−1∑ 𝑠𝑖𝑔 (𝑥𝑚 ∗ 𝑥𝑚+1)𝑚= 𝑇−1
𝑚=0
Donde T es la frecuencia de
muestreo y:
𝑠𝑖𝑔(𝑥) = { 0 𝑖𝑓 𝑥 > 01 𝑖𝑓 𝑥 < 0
es la función
indicadora.
3. Transformada de Fourier de tiempo
corto (STFT)
Se divide la señal en el dominio del
tiempo con señales de menor
duración, para calcular el STFT se
usa la siguiente ecuación:
𝑋(𝑚, 𝑘) = ∑ 𝑥 (𝑛 + 𝑚𝐻) 𝑤
𝑁−1
𝑛=0
(𝑛) exp(−2𝜋𝑖𝑘𝑛/𝑛)
Donde:
x: ℤ → ℝ señal discreta de valor real.
𝑤: [0 ∶ 𝑁 − 1] → ℝ una ventana
de tiempo discreta de longitud 𝑁 ∈ ℕ
𝐻 ∈ ℕ parámetro de tamaño de salto.
𝐾 = 𝑁/2 es el índice de frecuencia
correspondiente a la frecuencia de
Nyquist.
S 𝑋(𝑚, 𝑘) coeficiente de Fourier para el
índice de frecuencia 𝐾 ∈ [0 ∶ 𝐾] y marco
de tiempo 𝑚 ∈ ℤ
Para la extracción de características en cada
audio se crearon scripts en Python usando
la librería librosa:
a) librosa.feature.mfcc
b) librosa.feature.zero_crossing_rate
c) librosa.feature.chroma_stft
d) librosa.feature.rms
e) librosa.feature.melspectrogram
C. Entrenamiento
Se crearon modelos para identificar el
estado de ánimo de las personas a través de
la voz, usando las técnicas de aprendizaje
automático: SVM, bosques aleatorios, red
neuronal. Estos modelos fueron entrenados
con el 80% de los datos de audios y el 20%
restante fue dirigido para los test. En la
figura II se detalla el proceso de
clasificación para obtener el estado de
ánimo de las personas:
Figura II: Proceso de Clasificación.
Para las pruebas de entrenamiento se
consideró lo siguiente por cada base de
datos y por cada extractor de
características:
a) Se creó un dataset por cada
extractor de características,
aplicando las siguientes
combinaciones: mfcc, mfcc con
zcr, mfcc con zcr y stft, mfcc con
zcr con stft y rms, mfcc con zcr con
stft con rms y melspectrogram,
b) Se hicieron pruebas con MFCC de
13 y 20 vectores acústicos aplicado
en el punto anterior.
c) Se combinaron las bases de Datos
RAVDESS y TESS con el total de
los audios de ambas bases para
generar más volumen en la
extracción de características, sin
embargo, con esta combinación se
obtuvieron más audios negativos
que positivos.
d) Se combino la base de datos
RAVDESS con el total de sus
audios, y de TESS solo se
escogieron los audios positivos
para así contar con más audios
positivos y notar alguna diferencia
con el punto anterior.
e) En la siguiente combinación solo se
escogieron 288 audios positivos de
la base de datos TESS para generar
una igualdad con todos los audios
de la base de datos RAVDESS, y se
escogieron los cinco extractores de
características utilizando MFCC de
13 y de 20 vectores acústicos.
f) Para las siguientes pruebas se
trabajó con los cinco extractores de
características, pero solo se utilizó
el extractor MFCC de 20 vectores
acústicos, de la base de datos
RAVDESS se consideraron todos
los audios y de la base de datos
TESS se eligieron todos los audios
positivos, y negativos solo se
consideraron 512 audios, con el
objetivo de generar una igualdad
entre las dos bases de datos.
g) Para las pruebas realizadas en los
puntos anteriores se implementó
aumento en los datos, siendo: el
audio original, el audio original con
un efecto de ruido, audio original
con efecto de ruido y estiramiento
en el tono de cada audio.
La tabla III muestra los dataset
seleccionados con las características que se
aplicaron, para la columna cantidad se
utilizó (+) para audios positivos y (-) para
audios negativos. y en la columna
características se incluyó aumentos de
datos siendo: audio original (1), efecto de
ruido (2), estiramiento en el tono (3) y los
extractores acústicos.
Tabla III
Resultados de combinaciones de las
características acústicas
DataSet Base de
datos Características
Cantidad
A RAVDESS y
TESS
MFCC = 20, ZCR,
CHROMA, RMSQ y
MelSpectogram.
(+) = 2752
(-) = 5728
B RAVDESS y
TESS (SOLO
AUDIOS
POSITIVOS)
MFCC = 13, ZCR,
CHROMA, RMSQ Y
MELSPECTOGRAM
(+) = 2752
(-) = 1728
C RAVDESS y
TESS (SOLO
AUDIOS
POSITIVOS)
MFCC = 20, ZCR,
CHROMA, RMSQ y
MELSPECTOGRAM
(+) = 2752
(-) = 1728
D RAVDESS y
TESS (SOLO
AUDIOS
POSITIVOS)
MFCC = 13, ZCR,
CHROMA, RMSQ y
MELSPECTOGRAM
(+) = 4128
(-) = 2592
E RAVDESS y
TESS (SOLO
AUDIOS
POSITIVOS)
MFCC = 20, ZCR,
CHROMA, RMSQ,
MELSPECTOGRAM
(+) = 4128
(-) = 2592
P RAVDESS y
TESS (288
AUDIOS
POSITIVOS)
MFCC = 13, ZCR,
CHROMA, RMSQ y
MELSPECTOGRAM
(+) = 864
(-) = 864
Q RAVDESS y
TESS (288
AUDIOS
POSITIVOS)
MFCC = 20, ZCR,
CHROMA, RMSQ y
MELSPECTOGRAM.
(+) = 864
(-) = 864
R RAVDESS y
TESS (288
AUDIOS
POSITIVOS)
MFCC = 13, ZCR,
CHROMA, RMSQ y
MELSPECTOGRAM.
(+) = 1728
(-) = 1728
S RAVDESS y
TESS (288
AUDIOS
POSITIVOS)
MFCC = 20, ZCR,
CHROMA, RMSQ y
MELSPECTOGRAM.
(+) = 1728
(-) = 1728
T RAVDESS y
TESS (288
AUDIOS
POSITIVOS)
MFCC = 13, ZCR,
CHROMA, RMSQ y
MELSPECTOGRAM
(+) = 2592
(-) = 2592
U RAVDESS y
TESS (288
AUDIOS
POSITIVOS)
MFCC = 20, ZCR,
CHROMA, RMSQ y
MELSPECTOGRAM.
(+) = 2592
(-) = 2592
W RAVDESS y
TESS
(TODOS LOS
AUDIOS
POSITIVOS Y
512 AUDIOS
NEGATIVOS)
MFCC = 20, ZCR,
CHROMA, RMSQ y
MELSPECTOGRAM.
(+) = 1376
(-) = 1376
Y RAVDESS y
TESS
(TODOS LOS
AUDIOS
POSITIVOS Y
512 AUDIOS
NEGATIVOS)
MFCC = 20, ZCR,
CHROMA, RMSQ y
MELSPECTOGRAM.
(+) = 2752
(-) = 2752
Z RAVDESS y
TESS
(TODOS LOS
MFCC = 20, ZCR,
CHROMA, RMSQ y
MELSPECTOGRAM.
(+) = 4128
(-) = 4128
AUDIOS
POSITIVOS Y
512 AUDIOS
NEGATIVOS)
Para evaluar cada dataset se tomó como
referencia la cantidad promedio de
personas que asisten a un consultorio de
psicología dando como resultado 60
personas, luego se procedió a contactarlos
via correo electrónico y aplicaciones de
mensajería como Telegram, Whatsapp, de
las cuales 29 personas accedieron a realizar
un test de psicología y permitieron que se
voz fuera grabada.
Encuesta
La técnica de encuesta es aplicada como
metodología de investigación, por lo que
permite conseguir y producir datos con
características particulares de una
población o universo, del que se desea
indagar (Casas Anguita et al., 2003).
Se elaboro un formulario web en
“JotFrom”, con el test de frases incompletas
de Sacks, que tiene el propósito de revelar
pensamientos conscientes, preconscientes e
inconscientes del participante, sin
condicionar su respuesta a un “SI” o un
“NO”, donde las personas pudieran
responder a través de audios de voz, siendo
así las respuestas lo más natural, debido que
podían ser respondidas desde cualquier
localidad.
El test de frases incompletas está
compuesto por 60 preguntas que abarcan
áreas como: familia, relaciones
interpersonales y conceptos de si mismo
(Sacks & Levy, 2007). Para este estudio se
escogieron 18 preguntas en específico,
recomendación que fue planteada por los
expertos en el área de psicología, debido a
la longitud del test original.
En la tabla se encuentra la estructura que
tuvo el test de frases incompletas.
A continuación, se encuentra la estructura
que tuvo el test de frases incompletas.
Introductorio. - Estas preguntas tienen el
objetivo de validar el permiso que otorga el
participante para realizar posteriores
pruebas con sus audios, además de
ambientarlo con el tema del proyecto.
1. ¿Acepta que se grabe su voz para la
realización de pruebas internas?
2. Por favor ingrese un nombre y su
apellido paterno
Demográfico. - El propósito de estas
preguntas demográficas es segmentar y
filtrar las respuestas del público objetivo
para su posterior análisis.
1. Por favor ingrese un nombre y su
apellido paterno
2. Elija su sexo
Psicológico. - La finalidad de las preguntas
seleccionadas del test de Sacks es
evidenciar los intereses, opiniones, miedos
y actitudes de los sujetos que lo realizan.
1. Siempre he querido ser…
2. Si es que yo fuera el jefe…
3. El futuro se me presenta…
4. Se que es una tontería, pero tengo
miedo de…
5. En comparación con la mayoría de
las familias la mía, es…
6. Creo que tengo capacidad para…
7. Sería muy feliz si…
8. No me gusta la gente que…
9. Hace años, yo era…
10. Mi familia me trata como…
11. Mi mayor debilidad es…
12. Mi anhelo oculto de mi vida es…
13. Algún día yo…
14. La gente que más me gusta…
15. Cuando tengo mala suerte es…
16. Mis temores me obligan a veces a…
17. Lo que menos me gusta es…
18. Mi vida es…
IV. RESULTADOS
Para la verificación de los resultados
obtenidos en cada modelo y el criterio de
los expertos, se utilizó una medida robusta
conocida como coeficiente kappa (k) donde
establece la relación de las coincidencias
examinadas sobre el total de observaciones,
las clases definidas para el EA fueron:
positivo (1) y negativo (2).
“El coeficiente kappa puede tomar valores
entre -1 y +1. Mientras más cercano a +1,
mayor es el grado de concordancia inter-
observador, por el contrario, mientras más
cercano a -1, mayor es el grado de
discordancia inter-observador” (Landis &
Koch, 1977).
En la tabla IV se detallan el rango de los
coeficientes kappa con su respectiva
valoración.
Tabla IV
Rangos y Valoración del Coeficiente
Kappa
Coeficiente
kappa
Fuerza de la
concordancia
0,00 Pobre
0,01 – 0,20 Leve
0,21 – 0,40 Aceptable
0,41 – 0,60 Moderada
0,61 – 0,80 Considerable
0,81 – 1,00 Casi perfecta
Se seleccionaron 6 sujetos de forma
aleatoria, que habían realizado el test,
dando los siguientes resultados.
Tabla V
Resultados de la Aplicación del Coeficiente
Kappa
Sujeto Coeficiente
kappa
Fuerza de la
concordancia
1 1 Casi perfecta
7 0,72 Considerable
17 0,67 Considerable
22 0,88 Casi perfecta
23 0,77 Considerable
28 1 Casi perfecta
Para poder responder las preguntas de
investigación propuestas se consideraron el
análisis y los resultados obtenidos en
nuestro estudio.
RQ: ¿Los modelos de aprendizaje
automático pueden identificar el estado
de ánimo de las personas?
Recuerde que para responder RQ, lo
dividimos en SQR1 – SQR3, habiendo ya
respondido SQR1.
Para responder estas preguntas se
consideraron los 6 sujetos valorados con el
coeficiente kappa siendo clasificado por los
algoritmos RF, ANN, SVM con los 14
modelos creados. A continuación, se
muestran los resultados obtenidos siendo el
color verde un estado de ánimo negativo y
el amarillo un estado de ánimo positivo.
Figura 1 Resultados RF
Figura 2 Resultado Red Neuronal
Figura 3 Resultados SVM
Con los resultados obtenidos en los
clasificadores por cada dataset se puede
concluir que W – Y – Z, se asemejaron en
mayor cantidad a la opinión de los expertos.
De esta forma, para responder la SQR2 se
considera usar los cinco extractores de
características con un MFCC de 20 vectores
acústicos, por los resultados obtenidos.
En la tabla X se puede visualizar el
resultado de cada algoritmo identificando el
EA de los 29 sujetos, escogiendo los dataset
X – Y – Z, teniendo el clasificador ANN
como técnica principal para identificar el
EA y los clasificadores SVM y RF como
técnicas de apoyo para realizar una
comparativa y otorgar un EA más cercano
a la realidad siendo (N) negativo y (P)
positivo.
Sujetos RF ANN SVM Opinión
Expertos
1 N N N N
2 N N P
3 N N N
4 N Igualdad P
5 N N N
6 N N P
7 P P P P
8 N N N
9 N P P
10 N N P
11 N N N
12 N N N
13 N P P
14 N P P
15 N P P
16 N N N
17 N N N N
18 N N N
19 N N N
20 P P P
21 N N N
22 N N N N
23 N P P P
24 N P P
25 N N P
26 N N P
27 N P P
28 N N P P
29 N P P
Las técnicas de aprendizaje automático
usadas son: ANN, RF y SVM las cuales
permitieron identificar el estado de ánimo
de los 29 sujetos evaluados en el presente
estudio dando así respuesta a la SQR3
A continuación, se presentan el resultado de
los 6 sujetos valorados por los expertos en
el coeficiente kappa, agrupando los dataset
(W-Y-Z) con la implementación de los tres
clasificadores
Sujetos Positivo Negativo
1 12,96% 87,04%
7 63,58% 36,42%
17 26,54% 73,46%
22 16,67% 83,33%
23 75,93% 24,07%
28 39,51% 60,49%
V. CONCLUSIONES
Para establecer el clasificador más
adecuado y los extractores de
características más utilizados se realizó un
estudio de la literatura dirigido al
reconocimiento de los estados de ánimo de
las personas a través de la voz, donde se
encontraron diferentes investigaciones en el
gestor de búsquedas académicas “Google
Scholar” orientadas a las emociones
generales del ser humano emitidas por
medio de la voz, en las cuales manejaban
bases de datos de discurso emocional para
su respectivo examen.
Para la selección de las bases de datos
apropiadas se listaron los resultados
conseguidos en la revisión literaria,
encontrando conjuntos de audio
procedentes de diferentes países en sus
respectivos idiomas, las cuales en su
mayoría no eran de acceso público o
gratuitas. Por este motivo se seleccionaron
las bases de datos: RAVDESS Y TESS
debido a que estaban constituidas por las
emociones básicas que pueden expresar las
personas. La base de datos RAVDESS fue
la más notable porque contiene audios
realizados por hombres y mujeres,
característica importante para este tipo de
estudios.
Trabajar con los cinco extractores de
características permitió adquirir una gran
cantidad de datos por cada audio. En los
resultados, se demuestra que aplicar estos
extractores con un mfcc de 20 da resultados
más óptimos que utilizar un mfcc con 13
vectores acústicos.
El algoritmo Redes Neuronales
implementado en los modelos W- Y- Z,
demostró mayor exhaustividad, precisión y
exactitud en los procesos de clasificación,
etiquetado y entrenamiento de las muestras
para constituir los modelos, en
comparación a los demás algoritmos
aplicados en esta investigación: Bosques
aleatorios y Máquinas de vectores de
soporte (SVM). Además, presentó
resultados destacados al compararse con los
juicios de evaluación manifestados por los
expertos en el área de psicología.
El reconocimiento de los estados de ánimo
de las personas a través de la voz es un
trabajo que presenta inconvenientes en su
ejecución, por esta razón, no se puede
certificar la exactitud de los modelos
entrenados, ni avalar al cien por ciento que
evidencian el estado de ánimo preciso de
cada persona.
VI. REFERENCIAS
Bello Ambario, V., Martínez Arroyo, M.,
Montero Valverde, J. A., &
Hernández Bravo, J. M. (2017).
Reconocimiento de emociones a
través del análisis de la voz.
Memorias Del Congreso
Internacional de Investigación
Academia Journals Celaya 2017.
http://www.itacapulco.net/depi/wp-
content/uploads/2020/01/Memorias-
Academia-Journals-Celaya-2017-
Ambario-1.pdf
Bleda, S., Francés, J., Marini, S., &
Martínez, J. J. (2012). Herramientas
software para la docencia de la señal
de voz en Ingeniería Técnica de
Telecomunicaciones.
https://web.ua.es/es/ice/jornadas-
redes-
2012/documentos/posters/246141.pdf
Casas Anguita, J., Repullo Labrador, J. R.,
& Donado Campos, J. (2003). La
encuesta como técnica de
investigación. Elaboración de
cuestionarios y tratamiento estadístico
de los datos (I). Atención Primaria.
http://www.unidaddocentemfyclaspal
mas.org.es/resources/9+Aten+Primari
a+2003.+La+Encuesta+I.+Custionari
o+y+Estadistica.pdf
Gupta, S., Jaafar, J., Fatimah Wan Ahmad,
W., & Bansal, A. (2013). Feature
extraction using MFCC. Signal &
Image Processing: An International
Journal (SIPIJ), 4(4), 101–108.
https://doi.org/10.5121/sipij.2013.440
8
Hernández Tamayo, R., López Sánchez,
M., Pérez Espinosa, H., González-
Serna, G., & Patiño Reyes, F. (2020).
Caracterización De Voz Para
Reconocimiento Automático De
Estados Emocionales
Characterization of Voice for
Automatic Recognition of Emotional
States. Informaticahabana.Cu, 2.
http://www.informaticahabana.cu/site
s/default/files/ponencia-
2020/CCI27.pdf
Landis, J. R., & Koch, G. G. (1977). The
Measurement of Observer Agreement
for Categorical Data. In Biometrics
(Vol. 33, Issue 1). JSTOR.
https://doi.org/10.2307/2529310
Martínez Mascorro, G. A., & Aguilar
Torres, G. (2013). Reconocimiento de
voz basado en MFCC, SBC y
Espectrogramas. INGENIUS, N.◦ 10,
12–20.
https://revistas.ups.edu.ec/index.php/i
ngenius/article/view/351
Montoro Montarroso, A. (2019). Análisis
de Sentimientos para la prevención
de mensajes de odio en las Redes
Sociales. Universidad de Castilla-La
Mancha.
https://ruidera.uclm.es/xmlui/handle/1
0578/20208
Morán, N., Pérez, J., & Rodriguez, W.
(2018). Reconocimiento de Estados
Emocionales de Personas Mediante la
Voz Utilizando Algoritmos de
Aprendizaje de Máquina. Sexta
Conferencia Nacional de
Computación, Informática y
Sistemas.
https://www.researchgate.net/publicat
ion/329311187_Reconocimiento_de_
Estados_Emocionales_de_Personas_
Mediante_la_Voz_Utilizando_Algorit
mos_de_Aprendizaje_de_Maquina
Páez, D., & Costa, S. Da. (2014).
Regulación Afectiva (de Emociones y
Estado de Ánimo) en el Lugar de
Trabajo1 Affective Regulation (of
Emotions and Mood) in the
Workplace. Revista Psicologia:
Organizações e Trabalho, 14(2),
190–203.
Rao, K. S., & Vuppala, A. K. (2014).
Speech processing in mobile
environments. Springer International
Publishing.
https://doi.org/10.1007/978-3-319-
03116-3
Sacks, J. M., & Levy, S. (2007). The
Sentence Completion Test. In
Projective psychology: Clinical
approaches to the total personality.
(pp. 357–402). Alfred A. Knopf.
https://doi.org/10.1037/11452-011
top related