Reconocimiento de acciones humanas en videos utilizando redes neuronales profundas

El Reconocimiento de Acciones Humanas en videos (HAR) consiste en identificar y clasificar diferentes acciones que involucran una o más personas. Este campo continúa en desarrollo ya que los resultados aún no alcanzan niveles satisfactorios para muchas de sus aplicaciones tales como vigilancia, inte...

Descripción completa

Guardado en:

Detalles Bibliográficos
Autor principal:	Orozco, Carlos Ismael
Otros Autores:	Jacobo Berlles, Julio César Alberto, Buemi, María Elena, Mejail, Marta Estela, Gambini, María Juliana, Nesmachnow, Sergio, Climent Pérez, Pau
Formato:	Tesis Libro
Lenguaje:	Español
Publicado:	2025
Materias:	RECONOCIMIENTO DE ACCIONES HUMANAS REDES NEURONALES CONVOLUCIONALES REDES LSTM MECANISMOS DE ATENCION
Aporte de:	Registro referencial: Solicitar el recurso aquí Biblioteca Central Dr. Luis F. Leloir (FCEN) de Universidad de Buenos Aires


LEADER	05179nam a22004697a 4500
003	AR-BaUEN
005	20251029102903.0
008	251001s2025 ag ado\|f\|m\|\|\| 000 0\|spa\|d
040			\|a AR-BaUEN \|b spa \|c AR-BaUEN
041	0		\|b spa \|b eng
044			\|a ag
084			\|a COM 007819
100	1		\|a Orozco, Carlos Ismael
245	1	0	\|a Reconocimiento de acciones humanas en videos utilizando redes neuronales profundas
246	3	1	\|a Human action recognition in videos using deep neural networks
260			\|c 2025
300			\|a 113 p. : \|b il., fotos, gráfs.
502			\|b Doctor de la Universidad de Buenos Aires en el área de Ciencias de la Computación \|c Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales \|d 2025-09-24
506			\|2 openaire \|e Autorización del autor \|f info:eu-repo/semantics/embargoedAccess \|g 2026-03-24
518			\|o Fecha de publicación en la Biblioteca Digital FCEN-UBA
520	3		\|a El Reconocimiento de Acciones Humanas en videos (HAR) consiste en identificar y clasificar diferentes acciones que involucran una o más personas. Este campo continúa en desarrollo ya que los resultados aún no alcanzan niveles satisfactorios para muchas de sus aplicaciones tales como vigilancia, interacción hombre-máquina, asistencia sanitaria, indexación de videos, entre otras. La importancia de HAR radica en su aplicabilidad a diversos entornos donde la interpretación del comportamiento humano a partir de videos es clave. El objetivo de esta tesis fue desarrollar enfoques de aprendizaje profundo aplicados a HAR. La propuesta integró el uso de Redes Convolucionales (CNN) para extraer características espaciales y de Redes Recurrentes (LSTM) para modelar la dinámica temporal de las acciones. Se incorporó un mecanismo de atención que enfocó las regiones más relevantes de cada fotograma, mejorando el rendimiento al destacar características esenciales y reducir la influencia de los fotogramas poco representativos. La combinación de CNN, LSTM y atención ofreció una solución robusta para los desafíos de variabilidad en contextos y entornos. Además, se implementó un módulo de selección de fotogramas que optimizó el proceso de reconocimiento al identificar y utilizar los fotogramas más representativos. Este no solo mejoró la precisión del modelo, sino que también redujo los tiempos de entrenamiento al procesar menos fotogramas sin comprometer la calidad del reconocimiento. Para evaluar el rendimiento de las propuestas, se utilizaron bases de datos públicas especializadas en este tipo de problemas. Los resultados obtenidos fueron competitivos en comparación con modelos más complejos reportados en la literatura \|l spa
520	3		\|a Human Action Recognition (HAR) in videos consists of identifying and classifying different actions involving one or more individuals. This field remains under active development, as current results still fall short of satisfactory performance levels for many real-world applications, such as surveillance, human-computer interaction, healthcare assistance, video indexing, among others. The importance of HAR lies in its applicability to diverse settings where understanding human behavior from video data is essential. The objective of this thesis was to develop deep learning approaches applied to HAR. The proposed method integrated Convolutional Neural Networks (CNN) for extracting spatial features and Recurrent Neural Networks (LSTM) for modeling the temporal dynamics of actions. An attention mechanism was incorporated to focus on the most relevant regions of each video frame, improving performance by highlighting essential features and reducing the influence of less representative frames. The combination of CNN, LSTM, and attention provided a robust solution to the challenges posed by variability in contexts and environments. Additionally, a frame selection module was implemented to optimize the recognition process by identifying and utilizing the most representative frames. This not only enhanced the model’s accuracy but also reduced training time by processing fewer frames without compromising recognition quality. To evaluate the performance of the proposed methods, publicly available datasets specialized in this domain were used. The results obtained were competitive when compared to more complex models reported in the literature. \|l eng
540			\|2 cc \|f https://creativecommons.org/licenses/by-nc-sa/2.5/ar
653	1	0	\|a RECONOCIMIENTO DE ACCIONES HUMANAS
653	1	0	\|a REDES NEURONALES CONVOLUCIONALES
653	1	0	\|a REDES LSTM
653	1	0	\|a MECANISMOS DE ATENCION
690	1	0	\|a HUMAN ACTION RECOGNITION
690	1	0	\|a CNN
690	1	0	\|a LSTM
690	1	0	\|a ATTENTION MECHANISMS
700	1		\|a Jacobo Berlles, Julio César Alberto
700	1		\|a Buemi, María Elena
700	1		\|a Mejail, Marta Estela
700	1		\|a Gambini, María Juliana
700	1		\|a Nesmachnow, Sergio
700	1		\|a Climent Pérez, Pau
856	4		\|q application/pdf
931			\|a DC
961			\|b tesis \|c EM \|e ND
962			\|a info:eu-repo/semantics/doctoralThesis \|a info:ar-repo/semantics/tesis doctoral \|b info:eu-repo/semantics/publishedVersion
999			\|c 108402

Reconocimiento de acciones humanas en videos utilizando redes neuronales profundas

Ejemplares similares