Modelo de predicción de compra de tarjeta de crédito

Mostrar todas las versiones(4)

El trabajo muestra el desarrollo completo de un modelo de clasificación binario, aplicado a un problema real dentro de la industria bancaria, que presenta gran cantidad de datos (2.380.000 registros y 1.400 variables) y gran desbalanceo (1,8 %). La variable respuesta es si el cliente compra o no una...

Descripción completa

Detalles Bibliográficos
Autor principal:	Stivala, Ignacio José
Otros Autores:	Rodríguez, Daniela Andrea
Formato:	Tesis de maestría publishedVersion
Lenguaje:	Español
Publicado:	Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales 2023
Materias:	CLASIFICACION BINARIA DESBALANCEO SELECCION DE VARIABLES REDUCCION DE DIMENSION REGRESION LOGISTICA PLS-DA RANDOM FOREST LIGHT GBM SHAP BINARY CLASSIFICATION IMBALANCE DATA VARIABLE SELECTION DIMENSION REDUCTION LOGISTIC REGRESSION
Acceso en línea:	https://hdl.handle.net/20.500.12110/tesis_n7343_Stivala https://repositoriouba.sisbi.uba.ar/gsdl/cgi-bin/library.cgi?a=d&c=aextesis&d=tesis_n7343_Stivala_oai
Aporte de:	Repositorio Digital de la Universidad de Buenos Aires (UBA) de Universidad de Buenos Aires

id	I28-R145-tesis_n7343_Stivala_oai
record_format	dspace
spelling	I28-R145-tesis_n7343_Stivala_oai2024-09-02 Rodríguez, Daniela Andrea Venturini, Ludmila V. Stivala, Ignacio José 2023-06-21 El trabajo muestra el desarrollo completo de un modelo de clasificación binario, aplicado a un problema real dentro de la industria bancaria, que presenta gran cantidad de datos (2.380.000 registros y 1.400 variables) y gran desbalanceo (1,8 %). La variable respuesta es si el cliente compra o no una tarjeta de crédito, y el parámetro de interés la probabilidad de dicha compra. Se desarrolló en un contexto macro económico de alta inflación, requiriendo trabajar con variables monetarias. Las etapas desarrolladas son armado de base, limpieza y preprocesamiento, selección de variables/reducción de dimensión, aplicación de algoritmos, evaluación y selección del modelo final. Se utilizan diversas técnicas con el objetivo de obtener la mejor predicción: regresión logística, Lasso, Ridge, Partial Least Squares-Discriminant Analysis (PLS-DA), Random Forest, Gradient Boosting Tree y Light Gradient Boosting Machine (light GBM). Para la explicación de las variables se utilizan SHapley Additive exPlanations (SHAP). Además, se muestra un análisis que permite decidir si es conveniente trabajar con un modelo global o dos modelos distintos separando al universo por una variable independiente. This work shows the complete development of a binary classification model, applied to a real problem in the banking industry, which presents a large amount of data (2,380,000 records and 1,400 variables) and a large imbalance (1.8 %). The response is whether or not the customer buys a credit card, and the interest variable is the probability of that purchase. It was developed in a macroeconomic context of high inflation, requiring work with monetary variables. The stages developed are collecting data, cleaning and preprocessing, variable selection/dimension reduction, application of algorithms, evaluation and selection of the final model. Various techniques are used in order to obtain the best prediction: logistic regression, Lasso, Ridge, Partial Least Squares-Discriminant Analysis (PLS-DA), Random Forest, Gradient Boosting Tree and Light Gradient Boosting Machine (light GBM). SHapley Additive exPlanations (SHAP) are used for the explanation of the variables. In addition, an analysis is shown that allows deciding if it is convenient to work with a global model or two different models splitting the universe by an independent variable. Fil: Stivala, Ignacio José. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. application/pdf https://hdl.handle.net/20.500.12110/tesis_n7343_Stivala spa Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar CLASIFICACION BINARIA DESBALANCEO SELECCION DE VARIABLES REDUCCION DE DIMENSION REGRESION LOGISTICA PLS-DA RANDOM FOREST LIGHT GBM SHAP BINARY CLASSIFICATION IMBALANCE DATA VARIABLE SELECTION DIMENSION REDUCTION LOGISTIC REGRESSION PLS-DA RANDOM FOREST LIGHT GBM SHAP Modelo de predicción de compra de tarjeta de crédito Credit card purchase prediction model info:eu-repo/semantics/masterThesis info:ar-repo/semantics/tesis de maestría info:eu-repo/semantics/publishedVersion https://repositoriouba.sisbi.uba.ar/gsdl/cgi-bin/library.cgi?a=d&c=aextesis&d=tesis_n7343_Stivala_oai
institution	Universidad de Buenos Aires
institution_str	I-28
repository_str	R-145
collection	Repositorio Digital de la Universidad de Buenos Aires (UBA)
language	Español
orig_language_str_mv	spa
topic	CLASIFICACION BINARIA DESBALANCEO SELECCION DE VARIABLES REDUCCION DE DIMENSION REGRESION LOGISTICA PLS-DA RANDOM FOREST LIGHT GBM SHAP BINARY CLASSIFICATION IMBALANCE DATA VARIABLE SELECTION DIMENSION REDUCTION LOGISTIC REGRESSION PLS-DA RANDOM FOREST LIGHT GBM SHAP
spellingShingle	CLASIFICACION BINARIA DESBALANCEO SELECCION DE VARIABLES REDUCCION DE DIMENSION REGRESION LOGISTICA PLS-DA RANDOM FOREST LIGHT GBM SHAP BINARY CLASSIFICATION IMBALANCE DATA VARIABLE SELECTION DIMENSION REDUCTION LOGISTIC REGRESSION PLS-DA RANDOM FOREST LIGHT GBM SHAP Stivala, Ignacio José Modelo de predicción de compra de tarjeta de crédito
topic_facet	CLASIFICACION BINARIA DESBALANCEO SELECCION DE VARIABLES REDUCCION DE DIMENSION REGRESION LOGISTICA PLS-DA RANDOM FOREST LIGHT GBM SHAP BINARY CLASSIFICATION IMBALANCE DATA VARIABLE SELECTION DIMENSION REDUCTION LOGISTIC REGRESSION PLS-DA RANDOM FOREST LIGHT GBM SHAP
description	El trabajo muestra el desarrollo completo de un modelo de clasificación binario, aplicado a un problema real dentro de la industria bancaria, que presenta gran cantidad de datos (2.380.000 registros y 1.400 variables) y gran desbalanceo (1,8 %). La variable respuesta es si el cliente compra o no una tarjeta de crédito, y el parámetro de interés la probabilidad de dicha compra. Se desarrolló en un contexto macro económico de alta inflación, requiriendo trabajar con variables monetarias. Las etapas desarrolladas son armado de base, limpieza y preprocesamiento, selección de variables/reducción de dimensión, aplicación de algoritmos, evaluación y selección del modelo final. Se utilizan diversas técnicas con el objetivo de obtener la mejor predicción: regresión logística, Lasso, Ridge, Partial Least Squares-Discriminant Analysis (PLS-DA), Random Forest, Gradient Boosting Tree y Light Gradient Boosting Machine (light GBM). Para la explicación de las variables se utilizan SHapley Additive exPlanations (SHAP). Además, se muestra un análisis que permite decidir si es conveniente trabajar con un modelo global o dos modelos distintos separando al universo por una variable independiente.
author2	Rodríguez, Daniela Andrea
author_facet	Rodríguez, Daniela Andrea Stivala, Ignacio José
format	Tesis de maestría Tesis de maestría publishedVersion
author	Stivala, Ignacio José
author_sort	Stivala, Ignacio José
title	Modelo de predicción de compra de tarjeta de crédito
title_short	Modelo de predicción de compra de tarjeta de crédito
title_full	Modelo de predicción de compra de tarjeta de crédito
title_fullStr	Modelo de predicción de compra de tarjeta de crédito
title_full_unstemmed	Modelo de predicción de compra de tarjeta de crédito
title_sort	modelo de predicción de compra de tarjeta de crédito
publisher	Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publishDate	2023
url	https://hdl.handle.net/20.500.12110/tesis_n7343_Stivala https://repositoriouba.sisbi.uba.ar/gsdl/cgi-bin/library.cgi?a=d&c=aextesis&d=tesis_n7343_Stivala_oai
work_keys_str_mv	AT stivalaignaciojose modelodepredicciondecompradetarjetadecredito AT stivalaignaciojose creditcardpurchasepredictionmodel
_version_	1824355203920429056

Modelo de predicción de compra de tarjeta de crédito

Ejemplares similares