Modelo de predicción de compra de tarjeta de crédito

El trabajo muestra el desarrollo completo de un modelo de clasificación binario, aplicado a un problema real dentro de la industria bancaria, que presenta gran cantidad de datos (2.380.000 registros y 1.400 variables) y gran desbalanceo (1,8 %). La variable respuesta es si el cliente compra o no una...

Descripción completa

Detalles Bibliográficos
Autor principal: Stivala, Ignacio José (Autor, autor)
Otros Autores: Rodríguez, Daniela Andrea (Orientador), Venturini, Ludmila V. (Orientador, codir), Valdora, Marina Silvia (jurado), Martos Venturini, Gabriel (jurado), Solovey, Guillermo (jurado)
Formato: Tesis Libro
Lenguaje:Español
Publicado: 10/04/2023
Materias:
Acceso en línea:Registro en la Biblioteca Digital
PDF
Handle
Aporte de:Registro referencial: Solicitar el recurso aquí
LEADER 04893nam a22006377a 4500
003 AR-BaUEN
005 20230829093428.0
008 230721s2023 ag ad||f m||| 000 0|spa d
040 |a AR-BaUEN  |b spa  |c AR-BaUEN 
041 0 |b spa  |b eng 
044 |a ag 
084 |a EST 007343 
100 1 |4 aut  |a Stivala, Ignacio José  |e autor  |g ignacio.stivala@hotmail.com 
245 1 0 |a Modelo de predicción de compra de tarjeta de crédito 
246 3 1 |a Credit card purchase prediction model 
260 |c 10/04/2023 
300 |a 48 h. :   |b il., gráfs. color 
502 |b Magíster de la Universidad de Buenos Aires en el área de Estadística Matemática  |c Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales  |d 2023-06-21 
506 |2 openaire  |e Autorización del autor  |f info:eu-repo/semantics/openAccess 
518 |o Fecha de publicación en la Biblioteca Digital FCEN-UBA  |d 2023-08-28 
520 3 |a El trabajo muestra el desarrollo completo de un modelo de clasificación binario, aplicado a un problema real dentro de la industria bancaria, que presenta gran cantidad de datos (2.380.000 registros y 1.400 variables) y gran desbalanceo (1,8 %). La variable respuesta es si el cliente compra o no una tarjeta de crédito, y el parámetro de interés la probabilidad de dicha compra. Se desarrolló en un contexto macro económico de alta inflación, requiriendo trabajar con variables monetarias. Las etapas desarrolladas son armado de base, limpieza y preprocesamiento, selección de variables/reducción de dimensión, aplicación de algoritmos, evaluación y selección del modelo final. Se utilizan diversas técnicas con el objetivo de obtener la mejor predicción: regresión logística, Lasso, Ridge, Partial Least Squares-Discriminant Analysis (PLS-DA), Random Forest, Gradient Boosting Tree y Light Gradient Boosting Machine (light GBM). Para la explicación de las variables se utilizan SHapley Additive exPlanations (SHAP). Además, se muestra un análisis que permite decidir si es conveniente trabajar con un modelo global o dos modelos distintos separando al universo por una variable independiente.  |l spa 
520 3 |a This work shows the complete development of a binary classification model, applied to a real problem in the banking industry, which presents a large amount of data (2,380,000 records and 1,400 variables) and a large imbalance (1.8 %). The response is whether or not the customer buys a credit card, and the interest variable is the probability of that purchase. It was developed in a macroeconomic context of high inflation, requiring work with monetary variables. The stages developed are collecting data, cleaning and preprocessing, variable selection/dimension reduction, application of algorithms, evaluation and selection of the final model. Various techniques are used in order to obtain the best prediction: logistic regression, Lasso, Ridge, Partial Least Squares-Discriminant Analysis (PLS-DA), Random Forest, Gradient Boosting Tree and Light Gradient Boosting Machine (light GBM). SHapley Additive exPlanations (SHAP) are used for the explanation of the variables. In addition, an analysis is shown that allows deciding if it is convenient to work with a global model or two different models splitting the universe by an independent variable.  |l eng 
540 |2 cc  |f https://creativecommons.org/licenses/by-nc-sa/2.5/ar 
653 1 0 |a CLASIFICACION BINARIA 
653 1 0 |a DESBALANCEO 
653 1 0 |a SELECCION DE VARIABLES 
653 1 0 |a REDUCCION DE DIMENSION 
653 1 0 |a REGRESION LOGISTICA 
653 1 0 |a PLS-DA 
653 1 0 |a RANDOM FOREST 
653 1 0 |a LIGHT GBM 
653 1 0 |a SHAP 
690 1 0 |a BINARY CLASSIFICATION 
690 1 0 |a IMBALANCE DATA 
690 1 0 |a VARIABLE SELECTION 
690 1 0 |a DIMENSION REDUCTION 
690 1 0 |a LOGISTIC REGRESSION 
690 1 0 |a PLS-DA 
690 1 0 |a RANDOM FOREST 
690 1 0 |a LIGHT GBM 
690 1 0 |a SHAP 
700 1 |4 ths  |a Rodríguez, Daniela Andrea  |e dir 
700 1 |4 ths  |a Venturini, Ludmila V.  |e codir 
700 1 |a Valdora, Marina Silvia  |e jurado 
700 1 |a Martos Venturini, Gabriel  |e jurado 
700 1 |a Solovey, Guillermo  |e jurado 
856 4 1 |q application/pdf  |u https://bibliotecadigital.exactas.uba.ar/collection/tesis/document/tesis_n7343_Stivala  |x registro  |y Registro en la Biblioteca Digital 
856 4 1 |q application/pdf  |u https://bibliotecadigital.exactas.uba.ar/download/tesis/tesis_n7343_Stivala.pdf  |x derivado  |y PDF 
856 4 1 |q application/pdf  |u https://hdl.handle.net/20.500.12110/tesis_n7343_Stivala  |x hdl  |y Handle 
901 |l 58336  |m Valentina Conde  |n 56678  |q Lucía Bongiovanni 
931 |a DM 
942 |2 z  |c TEM  |n 0 
961 |b tesis  |e ND  |a tesis_n7343_Stivala  |c PU 
962 |a info:eu-repo/semantics/masterThesis  |a info:ar-repo/semantics/tesis de maestría  |b info:eu-repo/semantics/publishedVersion 
976 |a AEX 
999 |c 99657  |d 99657