Sistemas de transcripción automática de batería : diseño y evaluación de enfoques basados en aprendizaje profundo moderno y aprendizaje automático tradicional

Los sistemas de transcripción automática de batería (TAB) intentan generar una transcripción de los eventos ocurridos en un sistema de batería a partir de una pista o canción, lo cual resulta una tarea desafiante. En este trabajo exploraremos diferentes enfoques para integrar un sistema de TAB: mode...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autor principal: Marcos, Tomás
Otros Autores: Riera, Pablo Ernesto, Bocaccio, Hernán, Fuente Torre, Laura Alethia de la, Quiroga, Facundo Manuel
Formato: Tesis Libro
Lenguaje:Español
Publicado: 9 de septiembre de 2025
Materias:
Aporte de:Registro referencial: Solicitar el recurso aquí
LEADER 07156nam a22004697a 4500
003 AR-BaUEN
005 20251110203509.0
008 251001s2025 ag ad||f m||| 000 0|spa|d
040 |a AR-BaUEN  |b spa  |c AR-BaUEN 
041 0 |b spa  |b eng 
044 |a ag 
084 |a DMI 007814 
100 1 |a Marcos, Tomás 
245 1 0 |a Sistemas de transcripción automática de batería :   |b diseño y evaluación de enfoques basados en aprendizaje profundo moderno y aprendizaje automático tradicional 
246 3 1 |a Automatic drum transcription systems :   |b design and evaluation of approaches based on modern deep learning and traditional machine learning 
260 |c 9 de septiembre de 2025 
300 |a 46 p. :   |b il., diagrs., gráfs. 
502 |b Magíster de la Universidad de Buenos Aires en el área de Explotación de Datos y Descubrimiento del Conocimiento  |c Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales  |d 2025-09-09 
506 |2 openaire  |e Autorización del autor  |f info:eu-repo/semantics/embargoedAccess  |g 2026-03-09 
518 |o Fecha de publicación en la Biblioteca Digital FCEN-UBA 
520 3 |a Los sistemas de transcripción automática de batería (TAB) intentan generar una transcripción de los eventos ocurridos en un sistema de batería a partir de una pista o canción, lo cual resulta una tarea desafiante. En este trabajo exploraremos diferentes enfoques para integrar un sistema de TAB: modelos o algoritmos de reconocimiento del instrumento, de detección de eventos y de separación de fuentes. Se hará énfasis en los modelos de reconocimiento, probando así diferentes técnicas. Algunas de estas tradicionales como máquinas de soporte vectorial; otras, en cambio, basadas en aprendizaje profundo como son las redes convolucionales (CNN) tanto con características basadas en espectrogramas como con características basadas en otros modelos como Music undERstanding model with large-scale self-supervised Training (MERT). Por último, se hace prueba de enfoques basados en prompts de lenguaje natural tales como Contrastive Language-Audio Pretraining (CLAP). En principio, se utilizan las anotaciones de verdad de campo (groundtruth) para los modelos de reconocimiento y posteriormente se incorporan métodos de detección de eventos para prescindir de estas, logrando así un sistema de TAB utilizando pistas de batería aisladas. Como prueba final, se incorporan las pistas con todos los instrumentos y se prueba entrenar modelos con estas pistas completas. Además, se entrenan estos modelos de detección de eventos y reconocimiento del instrumento, pero utilizando un modelo de separación de fuentes como parte del preprocesamiento (Hybrid-Demucs). Este último enfoque resulta tener mayor éxito que el primero, principalmente debido a una mejora en el modelo de detección de eventos. Realizamos las evaluaciones de dichos métodos utilizando el conjunto de datos llamado “MDB Drums”. Este mismo tiene la ventaja de poseer tanto pistas completas como aisladas por tipo de instrumento, lo cual nos permitió evaluar la utilidad de un algoritmo de separación de fuentes para la tarea de TAB. De la comparación se desprende que los métodos basados en CNN demuestran un rendimiento superior en el reconocimiento de los instrumentos que componen la batería. En el agregado, se encuentra un alto rendimiento (medido por F1-score) para los instrumentos de bombo, HiHat y redoblante; mientras que, por otro lado, se encuentra uno bajo para los instrumentos de pandereta/side stick, toms y platillos, siendo una de las causas de esto, el tamaño muestral del conjunto de entrenamiento. Se encuentra que los resultados no varían significativamente al incorporar un método de detección de eventos. Por último, se proponen alternativas a futuro para incrementar la calidad del reconocimiento en los instrumentos donde esta no resultó favorable, tales como incorporar técnicas de data augmentation.  |l spa 
520 3 |a Automatic drum transcription (ADT) systems aim to generate a transcription of the events occurring in a drum set from an audio track or song, which is a challenging task. In this work, we explore different approaches to integrating an ADT system: instrument recognition models or algorithms, event detection, and source separation. Emphasis is placed on recognition models, testing different techniques. Some of these are traditional, such as support vector machines; others are based on deep learning, such as convolutional neural networks (CNNs), using both spectrogram-based features and features derived from other models such as the Music undERstanding model with large-scale self-supervised Training (MERT). Finally, we experiment with approaches based on natural language prompts, such as Contrastive Language-Audio Pretraining (CLAP). Initially, ground truth annotations are used for the recognition models, and later event detection methods are incorporated to remove the dependency on these annotations, thus achieving an ADT system using isolated drum tracks. As a final test, full mixes with all instruments are incorporated, and models are trained on these complete tracks. Additionally, event detection and instrument recognition models are trained using a source separation model as part of the preprocessing stage (Hybrid-Demucs). This latter approach proves more successful than the former, mainly due to improvements in the event detection model. We evaluate these methods using the MDB Drums dataset, which offers the advantage of containing both full mixes and isolated tracks per instrument, allowing us to assess the usefulness of a source separation algorithm for the ADT task. From this comparison, CNN-based methods demonstrate superior performance in recognizing drum instruments. Overall, high performance (measured by F1-score) is achieved for bass drum, hi-hat, and snare, while lower performance is observed for tambourine/side stick, toms, and cymbals—partly due to the limited sample size in the training set. We also find that results do not vary significantly when incorporating an event detection method. Finally, future directions are proposed to improve recognition quality for instruments with lower performance, such as integrating data augmentation techniques.  |l eng 
540 |2 cc  |f https://creativecommons.org/licenses/by-nc-sa/2.5/ar 
653 1 0 |a TRANSCRIPCION AUTOMATICA DE BATERIA 
653 1 0 |a RECONOCIMIENTO DE INSTRUMENTOS 
653 1 0 |a DETECCION DE EVENTOS 
653 1 0 |a SEPARACION DE FUENTES 
653 1 0 |a RECUPERACION DE INFORMACION MUSICAL 
690 1 0 |a AUTOMATIC DRUM TRANSCRIPTION 
690 1 0 |a INSTRUMENT RECOGNITION 
690 1 0 |a EVENT DETECTION 
690 1 0 |a SOURCE SEPARATION 
690 1 0 |a MUSIC INFORMATION RETRIEVAL 
700 1 |a Riera, Pablo Ernesto 
700 1 |a Bocaccio, Hernán 
700 1 |a Fuente Torre, Laura Alethia de la  
700 1 |a Quiroga, Facundo Manuel 
856 4 |q application/pdf 
931 |a DC 
961 |b tesis  |c EM  |e ND 
962 |a info:ar-repo/semantics/tesis de maestría  |a info:eu-repo/semantics/masterThesis  |b info:eu-repo/semantics/publishedVersion 
999 |c 108397