Evaluación multidimensional de modelos de aprendizaje automático para la detección de fraude en transacciones financieras

"Esta tesis presenta un estudio multifactorial sobre el problema de la detección de fraude financiero mediante modelos de aprendizaje automático. Se evaluaron tres algoritmos ampliamente utilizados —Regresión Logística, Random Forest y Support Vector Machine—, los cuales fueron optimizados medi...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autor principal: Iglesias, Martín Enrique
Formato: Tesis de maestría
Lenguaje:Español
Publicado: Instituto Tecnológico de Buenos Aires (ITBA) 2025
Materias:
Acceso en línea:https://hdl.handle.net/20.500.14769/5217
Aporte de:
Descripción
Sumario:"Esta tesis presenta un estudio multifactorial sobre el problema de la detección de fraude financiero mediante modelos de aprendizaje automático. Se evaluaron tres algoritmos ampliamente utilizados —Regresión Logística, Random Forest y Support Vector Machine—, los cuales fueron optimizados mediante Grid Search y Optimización Bayesiana, ajustando hiperparámetros críticos como la profundidad de los árboles, los coeficientes de regularización y la selección de kernels. Con el fin de incorporar el desbalance de clases, se analizaron tres configuraciones específicas de distribución (~95,3/4,7 %, ~97,6/2,4 % y ~98,4/1,6 % de transacciones no fraudulentas y fraudulentas, respectivamente). Estas configuraciones se obtuvieron a partir de la selección de muestras del conjunto de datos original utilizando criterios basados en el índice Gini, la entropía y la ganancia de información, lo que dio lugar a datasets con diferentes características, tales como niveles de impureza, proximidad a la frontera de decisión y grado de separabilidad entre clases. Asimismo, el diseño experimental incluyó la aplicación de diversas técnicas de balanceo de datos —SMOTE, Tomek Links y Edited Nearest Neighbors (ENN)—, así como distintas proporciones de división train/test (70/30, 80/20 y 90/10), con el objetivo de evaluar su impacto en la estabilidad y capacidad de generalización de los modelos. Los resultados del análisis multifactorial se compararon mediante métricas apropiadas para la detección de fraude, tales como Precisión, Recall, AUC-ROC y F1-score. Adicionalmente, las configuraciones con mejor desempeño fueron validadas sobre un conjunto de datos independiente correspondiente al año 2023, a fin de cuantificar su capacidad de generalización".