-estimadores penalizados para regresión logística

El modelo de regresión logística es ampliamente utilizado en problemas de clasificación cuando se tienen covariables que permiten explicar la pertenencia a alguno de los dos grupos en consideración. En estos modelos asegurar una buena clasificación e identificar variables con capacidad predictora es...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autor principal: Chebi, Gonzalo
Otros Autores: Bianco, Ana
Formato: Tesis doctoral publishedVersion
Lenguaje:Español
Publicado: Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales 2019
Materias:
Acceso en línea:https://hdl.handle.net/20.500.12110/tesis_n6891_Chebi
Aporte de:
id tesis:tesis_n6891_Chebi
record_format dspace
institution Universidad de Buenos Aires
institution_str I-28
repository_str R-134
collection Biblioteca Digital - Facultad de Ciencias Exactas y Naturales (UBA)
language Español
orig_language_str_mv spa
topic CLASIFICACION
M-ESTIMADORES
PENALIZACION
REGRESION LOGISTICA
ROBUSTEZ
CLASSIFICATION
M-ESTIMATORS
PENALIZATION
LOGISTIC REGRESSION
ROBUSTNESS
spellingShingle CLASIFICACION
M-ESTIMADORES
PENALIZACION
REGRESION LOGISTICA
ROBUSTEZ
CLASSIFICATION
M-ESTIMATORS
PENALIZATION
LOGISTIC REGRESSION
ROBUSTNESS
Chebi, Gonzalo
-estimadores penalizados para regresión logística
topic_facet CLASIFICACION
M-ESTIMADORES
PENALIZACION
REGRESION LOGISTICA
ROBUSTEZ
CLASSIFICATION
M-ESTIMATORS
PENALIZATION
LOGISTIC REGRESSION
ROBUSTNESS
description El modelo de regresión logística es ampliamente utilizado en problemas de clasificación cuando se tienen covariables que permiten explicar la pertenencia a alguno de los dos grupos en consideración. En estos modelos asegurar una buena clasificación e identificar variables con capacidad predictora es de suma importancia. En particular, el problema de selección de variables es relevante cuando el vector de coeficientes de regresión es ralo, es decir, cuando en el modelo verdadero unas pocas covariables son suficientes para poder predecir la variable respuesta. En el modelo de regresión lineal, un método efectivo para estimar modelos ralos consiste en agregar un término de penalización a la suma de cuadrados de los residuos a minimizar. En esta tesis, se aborda el problema de estimación y selección de variables en el modelo de regresión logística ralo mediante métodos robustos que resisten la presencia de datos atípicos. Más precisamente, consideramos un modelo de regresión logística en el cual se observan p covariables, pero sólo hay un número k (desconocido) de variables explicativas activas que se desean identificar. Además de seleccionar variables, nuestro inter ́es consiste en proveer inferencias estables cuando existe en la muestra un pequeño porcentaje de observaciones mal clasificadas que, si además corresponden a puntos de alta palanca, pueden tener una gran influencia. Para resolver estos problemas, se consideran versiones penalizadas y pesadas de los estimadores propuestos por Bianco y Yohai (1996). Por un lado, se muestra que la familia de pérdidas introducidas en dicho trabajo incluye otros estimadores considerados en la literatura. Por otra parte, se considera una amplia variedad de funciones de penalización y se propone la llamada penalidad Signo, que mejora sustancialmente el sesgo introducido por penalizaciones como Ridge o LASSO. Bajo condiciones de regularidad, se obtienen resultados de consistencia y expresiones para la distribución asintótica de los estimadores propuestos. Se deducen además resultados que aseguran que los estimadores seleccionan variables de manera consistente. Se analiza por separado el caso en que la cantidad de covariables p es fija y cuando p diverge a infinito junto con el tamaño de la muestran. Específicamente, en este ́ultimo escenario mostramos que, bajo ciertas condiciones sobre la distribución de covariables y la penalidad utilizada, los estimadores propuestos son consistentes si p/n → 0 y tienen la llamada propiedad oráculo si pk/n → 0, donde k es la cantidad de covariables activas en el modelo de regresión logística. Se propone un algoritmo que permite encontrar una solución aproximada de los problemas de minimización para las funciones de pérdida y penalización consideradas en la tesis. Se define además un procedimiento de convalidación cruzada robusto para elegir el parámetro de regularidad. Un extenso estudio de simulación permite investigar, para muestras finitas, el desempeño de los estimadores propuestos para distintas elecciones tanto de la función de pérdida como de la penalidad para conjuntos de observaciones con datos atípicos y sin ellos. En particular, los M−estimadores pesados con penalizaciones acotadas muestran sus ventajas bajo los diferentes esquemas de contaminación considerados. Finalmente, se aplican los métodos propuestos en esta tesis a conjuntos de datos reales.
author2 Bianco, Ana
author_facet Bianco, Ana
Chebi, Gonzalo
format Tesis doctoral
Tesis doctoral
publishedVersion
author Chebi, Gonzalo
author_sort Chebi, Gonzalo
title -estimadores penalizados para regresión logística
title_short -estimadores penalizados para regresión logística
title_full -estimadores penalizados para regresión logística
title_fullStr -estimadores penalizados para regresión logística
title_full_unstemmed -estimadores penalizados para regresión logística
title_sort -estimadores penalizados para regresión logística
publisher Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publishDate 2019
url https://hdl.handle.net/20.500.12110/tesis_n6891_Chebi
work_keys_str_mv AT chebigonzalo estimadorespenalizadospararegresionlogistica
AT chebigonzalo penalizedestimatorsforlogisticregression
_version_ 1782022625505050624
spelling tesis:tesis_n6891_Chebi2023-10-02T20:23:03Z -estimadores penalizados para regresión logística Penalized -estimators for logistic regression Chebi, Gonzalo Bianco, Ana Boente, Graciela CLASIFICACION M-ESTIMADORES PENALIZACION REGRESION LOGISTICA ROBUSTEZ CLASSIFICATION M-ESTIMATORS PENALIZATION LOGISTIC REGRESSION ROBUSTNESS El modelo de regresión logística es ampliamente utilizado en problemas de clasificación cuando se tienen covariables que permiten explicar la pertenencia a alguno de los dos grupos en consideración. En estos modelos asegurar una buena clasificación e identificar variables con capacidad predictora es de suma importancia. En particular, el problema de selección de variables es relevante cuando el vector de coeficientes de regresión es ralo, es decir, cuando en el modelo verdadero unas pocas covariables son suficientes para poder predecir la variable respuesta. En el modelo de regresión lineal, un método efectivo para estimar modelos ralos consiste en agregar un término de penalización a la suma de cuadrados de los residuos a minimizar. En esta tesis, se aborda el problema de estimación y selección de variables en el modelo de regresión logística ralo mediante métodos robustos que resisten la presencia de datos atípicos. Más precisamente, consideramos un modelo de regresión logística en el cual se observan p covariables, pero sólo hay un número k (desconocido) de variables explicativas activas que se desean identificar. Además de seleccionar variables, nuestro inter ́es consiste en proveer inferencias estables cuando existe en la muestra un pequeño porcentaje de observaciones mal clasificadas que, si además corresponden a puntos de alta palanca, pueden tener una gran influencia. Para resolver estos problemas, se consideran versiones penalizadas y pesadas de los estimadores propuestos por Bianco y Yohai (1996). Por un lado, se muestra que la familia de pérdidas introducidas en dicho trabajo incluye otros estimadores considerados en la literatura. Por otra parte, se considera una amplia variedad de funciones de penalización y se propone la llamada penalidad Signo, que mejora sustancialmente el sesgo introducido por penalizaciones como Ridge o LASSO. Bajo condiciones de regularidad, se obtienen resultados de consistencia y expresiones para la distribución asintótica de los estimadores propuestos. Se deducen además resultados que aseguran que los estimadores seleccionan variables de manera consistente. Se analiza por separado el caso en que la cantidad de covariables p es fija y cuando p diverge a infinito junto con el tamaño de la muestran. Específicamente, en este ́ultimo escenario mostramos que, bajo ciertas condiciones sobre la distribución de covariables y la penalidad utilizada, los estimadores propuestos son consistentes si p/n → 0 y tienen la llamada propiedad oráculo si pk/n → 0, donde k es la cantidad de covariables activas en el modelo de regresión logística. Se propone un algoritmo que permite encontrar una solución aproximada de los problemas de minimización para las funciones de pérdida y penalización consideradas en la tesis. Se define además un procedimiento de convalidación cruzada robusto para elegir el parámetro de regularidad. Un extenso estudio de simulación permite investigar, para muestras finitas, el desempeño de los estimadores propuestos para distintas elecciones tanto de la función de pérdida como de la penalidad para conjuntos de observaciones con datos atípicos y sin ellos. En particular, los M−estimadores pesados con penalizaciones acotadas muestran sus ventajas bajo los diferentes esquemas de contaminación considerados. Finalmente, se aplican los métodos propuestos en esta tesis a conjuntos de datos reales. The logistic regression model is widely used in classification problems where explanatory covariates with capability to explain the group membership are available. For these models, ensuring good classification properties and selecting a subset of variables with high prediction ability is a fundamental task. In particular, variable selection is specially important when the true underlying model has a sparse representation, i.e., when only a few explanatory variables are enough to predict the response variable. In the linear regression model, an effective method to estimate sparse models is to add a suitable penalization term to the residuals sum of squares that is minimized. In this thesis, we address the problem of estimating and selecting variables under a sparse logistic regression model through methods that are robust against the presence of outliers. To be more precise, we consider logistic regression models in which p covariates are observed, but only k of them are active. Both the quantity k and the subset of active covariates are unknown and need to be estimated. Besides selecting variables, we aim to provide stable procedures against a small proportion of observations wrongly classified. In particular, these observations may be extremely harmful when they correspond to high leverage points. To solve these problems, we consider penalized and weighted versions of the estimators proposed by Bianco and Yohai (1996). On the one hand, we show that the family of loss functions introduced in that paper includes other estimators in the literature. On the other one, we consider a wide range of penalization functions and we propose the so called Sign Penalty, which substantially improves the bias introduced by popular penalizations such as Ridge or LASSO. Under regularity conditions, we obtain consistency results and arrive to expressions for the asymptotic distribution of the proposed estimators. Moreover, we derive results ensuring that these estimators perform variable selection consistently. We separately analyse the case where the number of covariates p is fixed and the situation where p diverges to infinity with the sample size n. More precisely, in the latter scenario, we show that, under mild assumptions for the covariate distribution and the penalization function, the proposed estimators are consistent if p/n → 0 and have the oracle property if pk/n → 0, where k is the number of active covariates in the true logistic regression model. We propose an algorithm that allows to find an approximate solution of the minimization problem, for the loss and penalty functions considered here. Moreover, we define a robust cross-validation procedure to select the tuning parameter. An extensive numerical study allows to investigate the performance of the proposed estimators for different loss and penalty choices. We consider the case of clean samples following a logistic regression model and also that the situation where misclassified data are added according to different contamination scenarios. In particular, the obtained results show the advantages of using weighted M−estimators combined with bounded penalty functions, under the considered outlier schemes. Finally, the proposed methods are illustrated on some real data. Fil: Chebi, Gonzalo. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales 2019-12-20 info:eu-repo/semantics/doctoralThesis info:ar-repo/semantics/tesis doctoral info:eu-repo/semantics/publishedVersion application/pdf spa info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar https://hdl.handle.net/20.500.12110/tesis_n6891_Chebi