Reconocimiento de acciones humanas en videos utilizando redes neuronales profundas
El Reconocimiento de Acciones Humanas en videos (HAR) consiste en identificar y clasificar diferentes acciones que involucran una o más personas. Este campo continúa en desarrollo ya que los resultados aún no alcanzan niveles satisfactorios para muchas de sus aplicaciones tales como vigilancia, inte...
Guardado en:
| Autor principal: | |
|---|---|
| Otros Autores: | , , , , , |
| Formato: | Tesis Libro |
| Lenguaje: | Español |
| Publicado: |
2025
|
| Materias: | |
| Aporte de: | Registro referencial: Solicitar el recurso aquí |
| LEADER | 05179nam a22004697a 4500 | ||
|---|---|---|---|
| 003 | AR-BaUEN | ||
| 005 | 20251029102903.0 | ||
| 008 | 251001s2025 ag ado|f|m||| 000 0|spa|d | ||
| 040 | |a AR-BaUEN |b spa |c AR-BaUEN | ||
| 041 | 0 | |b spa |b eng | |
| 044 | |a ag | ||
| 084 | |a COM 007819 | ||
| 100 | 1 | |a Orozco, Carlos Ismael | |
| 245 | 1 | 0 | |a Reconocimiento de acciones humanas en videos utilizando redes neuronales profundas |
| 246 | 3 | 1 | |a Human action recognition in videos using deep neural networks |
| 260 | |c 2025 | ||
| 300 | |a 113 p. : |b il., fotos, gráfs. | ||
| 502 | |b Doctor de la Universidad de Buenos Aires en el área de Ciencias de la Computación |c Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |d 2025-09-24 | ||
| 506 | |2 openaire |e Autorización del autor |f info:eu-repo/semantics/embargoedAccess |g 2026-03-24 | ||
| 518 | |o Fecha de publicación en la Biblioteca Digital FCEN-UBA | ||
| 520 | 3 | |a El Reconocimiento de Acciones Humanas en videos (HAR) consiste en identificar y clasificar diferentes acciones que involucran una o más personas. Este campo continúa en desarrollo ya que los resultados aún no alcanzan niveles satisfactorios para muchas de sus aplicaciones tales como vigilancia, interacción hombre-máquina, asistencia sanitaria, indexación de videos, entre otras. La importancia de HAR radica en su aplicabilidad a diversos entornos donde la interpretación del comportamiento humano a partir de videos es clave. El objetivo de esta tesis fue desarrollar enfoques de aprendizaje profundo aplicados a HAR. La propuesta integró el uso de Redes Convolucionales (CNN) para extraer características espaciales y de Redes Recurrentes (LSTM) para modelar la dinámica temporal de las acciones. Se incorporó un mecanismo de atención que enfocó las regiones más relevantes de cada fotograma, mejorando el rendimiento al destacar características esenciales y reducir la influencia de los fotogramas poco representativos. La combinación de CNN, LSTM y atención ofreció una solución robusta para los desafíos de variabilidad en contextos y entornos. Además, se implementó un módulo de selección de fotogramas que optimizó el proceso de reconocimiento al identificar y utilizar los fotogramas más representativos. Este no solo mejoró la precisión del modelo, sino que también redujo los tiempos de entrenamiento al procesar menos fotogramas sin comprometer la calidad del reconocimiento. Para evaluar el rendimiento de las propuestas, se utilizaron bases de datos públicas especializadas en este tipo de problemas. Los resultados obtenidos fueron competitivos en comparación con modelos más complejos reportados en la literatura |l spa | |
| 520 | 3 | |a Human Action Recognition (HAR) in videos consists of identifying and classifying different actions involving one or more individuals. This field remains under active development, as current results still fall short of satisfactory performance levels for many real-world applications, such as surveillance, human-computer interaction, healthcare assistance, video indexing, among others. The importance of HAR lies in its applicability to diverse settings where understanding human behavior from video data is essential. The objective of this thesis was to develop deep learning approaches applied to HAR. The proposed method integrated Convolutional Neural Networks (CNN) for extracting spatial features and Recurrent Neural Networks (LSTM) for modeling the temporal dynamics of actions. An attention mechanism was incorporated to focus on the most relevant regions of each video frame, improving performance by highlighting essential features and reducing the influence of less representative frames. The combination of CNN, LSTM, and attention provided a robust solution to the challenges posed by variability in contexts and environments. Additionally, a frame selection module was implemented to optimize the recognition process by identifying and utilizing the most representative frames. This not only enhanced the model’s accuracy but also reduced training time by processing fewer frames without compromising recognition quality. To evaluate the performance of the proposed methods, publicly available datasets specialized in this domain were used. The results obtained were competitive when compared to more complex models reported in the literature. |l eng | |
| 540 | |2 cc |f https://creativecommons.org/licenses/by-nc-sa/2.5/ar | ||
| 653 | 1 | 0 | |a RECONOCIMIENTO DE ACCIONES HUMANAS |
| 653 | 1 | 0 | |a REDES NEURONALES CONVOLUCIONALES |
| 653 | 1 | 0 | |a REDES LSTM |
| 653 | 1 | 0 | |a MECANISMOS DE ATENCION |
| 690 | 1 | 0 | |a HUMAN ACTION RECOGNITION |
| 690 | 1 | 0 | |a CNN |
| 690 | 1 | 0 | |a LSTM |
| 690 | 1 | 0 | |a ATTENTION MECHANISMS |
| 700 | 1 | |a Jacobo Berlles, Julio César Alberto | |
| 700 | 1 | |a Buemi, María Elena | |
| 700 | 1 | |a Mejail, Marta Estela | |
| 700 | 1 | |a Gambini, María Juliana | |
| 700 | 1 | |a Nesmachnow, Sergio | |
| 700 | 1 | |a Climent Pérez, Pau | |
| 856 | 4 | |q application/pdf | |
| 931 | |a DC | ||
| 961 | |b tesis |c EM |e ND | ||
| 962 | |a info:eu-repo/semantics/doctoralThesis |a info:ar-repo/semantics/tesis doctoral |b info:eu-repo/semantics/publishedVersion | ||
| 999 | |c 108402 | ||