Sistema de detección de estrés a partir de la voz

"El estrés es un fenómeno que afecta a toda la población y que puede tener un impacto negativo en la salud si no es gestionado adecuadamente. Un monitoreo continuo del estrés implementado en sistemas portátiles podría mejorar la salud y la calidad de vida de las personas. En este contexto, la d...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autor principal: Prado, Lara Eleonora
Formato: Proyecto final de grado
Lenguaje:Español
Publicado: Instituto Tecnológico de Buenos Aires 2025
Materias:
Acceso en línea:https://hdl.handle.net/20.500.14769/5183
Aporte de:
Descripción
Sumario:"El estrés es un fenómeno que afecta a toda la población y que puede tener un impacto negativo en la salud si no es gestionado adecuadamente. Un monitoreo continuo del estrés implementado en sistemas portátiles podría mejorar la salud y la calidad de vida de las personas. En este contexto, la detección de estrés a través de la voz permite una evaluación no invasiva, accesible y escalable. Este proyecto plantea como objetivo principal obtener un modelo para clasificar estrés a partir de características acústicas del habla. Se diseñó un protocolo de inducción de estrés donde se desafiaban principalmente las habilidades aritméticas y de construcción discursiva de los sujetos. A partir del protocolo, se obtuvieron grabaciones de voz que fueron procesadas utilizando librerías de código abierto. De esta manera, se obtuvieron características acústicas clave para la detección de estrés. También se registraron características fisiológicas (EDA, HR, IBI y BVP) a la par de las grabaciones y se construyó una base de datos con características acústicas y fisiológicas. Luego, esta base fue clasificada de forma automática según nivel de estrés utilizando los modelos k-means y XGBoost. Finalmente, se analizaron los valores SHAP para evaluar la importancia de las características utilizadas en los modelos. De este proyecto derivaron dos publicaciones en revistas científicas. La base de datos de características fisiológicas se publicó en Physionet como Wearable Device Dataset from Induced Stress and Structured Exercise Sessions [1] y a partir de ella también se publicó Wearable Physiological Signals under Acute Stress and Exercise Conditions [2]. Además, se participó en congresos con los artículos: Stress Classification Model Using Speech: An Ambulatory Protocol-Based Database Study [3] y Wearable Device Dataset for Stress Detection [4]. El modelo de XGBoost basado en habla obtuvo un 71 % de exactitud para las etiquetas originales y un 77 % con las etiquetas generadas con k-means. Los modelos basados solo en características fisiológicas lograron hasta un 86 % de exactitud y los modelos que integraban características fisiológicas y de habla obtuvieron hasta un 90 % de exactitud. Estos resultados muestran la viabilidad de usar la voz como herramienta para detectar estrés y resaltan el potencial de integrar señales acústicas y fisiológicas. Durante este trabajo, se desarrolló una base de datos única que combina señales de voz bajo estrés y señales fisiológicas. Se logró clasificar la base obtenida con un método interpretable, y se evaluó la importancia de las características acústicas y fisiológicas utilizadas. Los hallazgos de este proyecto definen las bases para avanzar hacia sistemas portátiles, accesibles y automatizados que contribuyan al monitoreo integral de la salud."