Reconocimiento de acciones humanas en videos utilizando redes neuronales profundas

El Reconocimiento de Acciones Humanas en videos (HAR) consiste en identificar y clasificar diferentes acciones que involucran una o más personas. Este campo continúa en desarrollo ya que los resultados aún no alcanzan niveles satisfactorios para muchas de sus aplicaciones tales como vigilancia, inte...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autor principal: Orozco, Carlos Ismael
Otros Autores: Jacobo Berlles, Julio César Alberto, Buemi, María Elena, Mejail, Marta Estela, Gambini, María Juliana, Nesmachnow, Sergio, Climent Pérez, Pau
Formato: Tesis Libro
Lenguaje:Español
Publicado: 2025
Materias:
Aporte de:Registro referencial: Solicitar el recurso aquí
LEADER 05179nam a22004697a 4500
003 AR-BaUEN
005 20251029102903.0
008 251001s2025 ag ado|f|m||| 000 0|spa|d
040 |a AR-BaUEN  |b spa  |c AR-BaUEN 
041 0 |b spa  |b eng 
044 |a ag 
084 |a COM 007819 
100 1 |a Orozco, Carlos Ismael 
245 1 0 |a Reconocimiento de acciones humanas en videos utilizando redes neuronales profundas 
246 3 1 |a Human action recognition in videos using deep neural networks 
260 |c 2025 
300 |a 113 p. :   |b il., fotos, gráfs. 
502 |b Doctor de la Universidad de Buenos Aires en el área de Ciencias de la Computación  |c Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales  |d 2025-09-24 
506 |2 openaire  |e Autorización del autor  |f info:eu-repo/semantics/embargoedAccess  |g 2026-03-24 
518 |o Fecha de publicación en la Biblioteca Digital FCEN-UBA 
520 3 |a El Reconocimiento de Acciones Humanas en videos (HAR) consiste en identificar y clasificar diferentes acciones que involucran una o más personas. Este campo continúa en desarrollo ya que los resultados aún no alcanzan niveles satisfactorios para muchas de sus aplicaciones tales como vigilancia, interacción hombre-máquina, asistencia sanitaria, indexación de videos, entre otras. La importancia de HAR radica en su aplicabilidad a diversos entornos donde la interpretación del comportamiento humano a partir de videos es clave. El objetivo de esta tesis fue desarrollar enfoques de aprendizaje profundo aplicados a HAR. La propuesta integró el uso de Redes Convolucionales (CNN) para extraer características espaciales y de Redes Recurrentes (LSTM) para modelar la dinámica temporal de las acciones. Se incorporó un mecanismo de atención que enfocó las regiones más relevantes de cada fotograma, mejorando el rendimiento al destacar características esenciales y reducir la influencia de los fotogramas poco representativos. La combinación de CNN, LSTM y atención ofreció una solución robusta para los desafíos de variabilidad en contextos y entornos. Además, se implementó un módulo de selección de fotogramas que optimizó el proceso de reconocimiento al identificar y utilizar los fotogramas más representativos. Este no solo mejoró la precisión del modelo, sino que también redujo los tiempos de entrenamiento al procesar menos fotogramas sin comprometer la calidad del reconocimiento. Para evaluar el rendimiento de las propuestas, se utilizaron bases de datos públicas especializadas en este tipo de problemas. Los resultados obtenidos fueron competitivos en comparación con modelos más complejos reportados en la literatura  |l spa 
520 3 |a Human Action Recognition (HAR) in videos consists of identifying and classifying different actions involving one or more individuals. This field remains under active development, as current results still fall short of satisfactory performance levels for many real-world applications, such as surveillance, human-computer interaction, healthcare assistance, video indexing, among others. The importance of HAR lies in its applicability to diverse settings where understanding human behavior from video data is essential. The objective of this thesis was to develop deep learning approaches applied to HAR. The proposed method integrated Convolutional Neural Networks (CNN) for extracting spatial features and Recurrent Neural Networks (LSTM) for modeling the temporal dynamics of actions. An attention mechanism was incorporated to focus on the most relevant regions of each video frame, improving performance by highlighting essential features and reducing the influence of less representative frames. The combination of CNN, LSTM, and attention provided a robust solution to the challenges posed by variability in contexts and environments. Additionally, a frame selection module was implemented to optimize the recognition process by identifying and utilizing the most representative frames. This not only enhanced the model’s accuracy but also reduced training time by processing fewer frames without compromising recognition quality. To evaluate the performance of the proposed methods, publicly available datasets specialized in this domain were used. The results obtained were competitive when compared to more complex models reported in the literature.  |l eng 
540 |2 cc  |f https://creativecommons.org/licenses/by-nc-sa/2.5/ar 
653 1 0 |a RECONOCIMIENTO DE ACCIONES HUMANAS 
653 1 0 |a REDES NEURONALES CONVOLUCIONALES 
653 1 0 |a REDES LSTM 
653 1 0 |a MECANISMOS DE ATENCION 
690 1 0 |a HUMAN ACTION RECOGNITION 
690 1 0 |a CNN 
690 1 0 |a LSTM 
690 1 0 |a ATTENTION MECHANISMS 
700 1 |a Jacobo Berlles, Julio César Alberto 
700 1 |a Buemi, María Elena 
700 1 |a Mejail, Marta Estela 
700 1 |a Gambini, María Juliana 
700 1 |a Nesmachnow, Sergio 
700 1 |a Climent Pérez, Pau 
856 4 |q application/pdf 
931 |a DC 
961 |b tesis  |c EM  |e ND 
962 |a info:eu-repo/semantics/doctoralThesis  |a info:ar-repo/semantics/tesis doctoral  |b info:eu-repo/semantics/publishedVersion 
999 |c 108402