Una evaluación del desempeño en la clasificación binaria mediante simulación: Árboles de clasificación y Bosques aleatorios

En este trabajo se propone el estudio de estas las técnicas estadísticas multivariadas Árboles de clasificación y Bosques aleatorios siendo de interés evaluar el desempeño de las mismas cuando son utilizadas en datos que difieren en la estructura de correlaciones entre las variables intervinientes y...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autores principales: Beltrán, Celina, Barbona, Ivana
Formato: article artículo publishedVersion
Lenguaje:Español
Publicado: GRUPO IANUS 2022
Materias:
Acceso en línea:http://hdl.handle.net/2133/24321
http://hdl.handle.net/2133/24321
Aporte de:
id I15-R121-2133-24321
record_format dspace
institution Universidad Nacional de Rosario
institution_str I-15
repository_str R-121
collection Repositorio Hipermedial de la Universidad Nacional de Rosario (UNR)
language Español
topic redes neuronales
simulación
bosques aleatorios
spellingShingle redes neuronales
simulación
bosques aleatorios
Beltrán, Celina
Barbona, Ivana
Una evaluación del desempeño en la clasificación binaria mediante simulación: Árboles de clasificación y Bosques aleatorios
topic_facet redes neuronales
simulación
bosques aleatorios
description En este trabajo se propone el estudio de estas las técnicas estadísticas multivariadas Árboles de clasificación y Bosques aleatorios siendo de interés evaluar el desempeño de las mismas cuando son utilizadas en datos que difieren en la estructura de correlaciones entre las variables intervinientes y los tamaños de muestras. Una herramienta para evaluar estos desempeños es mediante simulación. Se definieron 4 escenarios para la simulación de datos con las siguientes características: Escenario 1: Variable respuesta altamente correlacionada con las predictoras y las variables predictoras poco correlacionadas entre sí. Escenario 2: Variable respuesta poco correlacionada con las predictoras y las variables predictoras muy correlacionadas entre sí. Escenario 3: Variable respuesta muy correlacionada con las predictoras y las variables predictoras también muy correlacionadas entre sí. Escenario 4: Variable respuesta poco correlacionada con las predictoras y asimismo las variables predictoras poco correlacionadas entre sí. REV En los escenarios 1 y 3, la situación planteada se corresponde con grupos “separables” en función de los valores de los predictores; mientras que en los escenarios 2 y 4 los grupos están solapados respecto a las variables predictoras, dificultando la tarea de discriminarlos en función de las mismas. Se generaron mediante simulación 500 archivos de datos para cada uno de los siguientes tamaños de muestra: 30, 75, 200, 400, 600, 1000. Se “marcó” el 20% de las observaciones para ser utilizadas como grupo de test y el restante 80% para la estimación de los modelos evaluados en cada caso. Como resultado principal se evidencia que, en aquellos escenarios donde es favorable la clasificación por la estructura de correlaciones de las variables que suponen una separación de los grupos (Escenarios 1 y 3), la evidencia en favor de la técnica de Bosques Aleatorios es significativa, independientemente del tamaño de muestra. Sin embargo, en los casos en que la variable respuesta no fue generada correlacionada con las explicativas, y por lo tanto los grupos no son capaces de ser discriminados por los valores de dichas variables (Escenarios 2 y 4), no hay evidencia de superioridad de la técnica de Bosques excepto en aislados casos. Este comportamiento de los Bosques Aleatorio concuerda con lo que se observa al evaluar el error medio porcentual del bosque según el número de árboles estimados. Es posible distinguir comportamientos diferentes según escenario. En los escenarios más favorables para la clasificación (Escenarios 1 y 3) el error medio porcentual disminuye claramente al incrementar el tamaño del bosque y el tamaño de muestra; mientras que en casos donde la separación de grupos no es lograda por las variables explicativas, el error porcentual medio parece mantenerse constante sin mostrar una ventaja independientemente del tamaño del bosque y del conjunto de datos. Estos resultados ponen cierta luz al momento de elegir la técnica estadística conveniente para clasificar unidades cuando las variables en consideración están o no correlacionadas y los grupos respuesta se encuentran solapados o no respecto a los valores de las mismas.
format article
artículo
publishedVersion
author Beltrán, Celina
Barbona, Ivana
author_facet Beltrán, Celina
Barbona, Ivana
author_sort Beltrán, Celina
title Una evaluación del desempeño en la clasificación binaria mediante simulación: Árboles de clasificación y Bosques aleatorios
title_short Una evaluación del desempeño en la clasificación binaria mediante simulación: Árboles de clasificación y Bosques aleatorios
title_full Una evaluación del desempeño en la clasificación binaria mediante simulación: Árboles de clasificación y Bosques aleatorios
title_fullStr Una evaluación del desempeño en la clasificación binaria mediante simulación: Árboles de clasificación y Bosques aleatorios
title_full_unstemmed Una evaluación del desempeño en la clasificación binaria mediante simulación: Árboles de clasificación y Bosques aleatorios
title_sort una evaluación del desempeño en la clasificación binaria mediante simulación: árboles de clasificación y bosques aleatorios
publisher GRUPO IANUS
publishDate 2022
url http://hdl.handle.net/2133/24321
http://hdl.handle.net/2133/24321
work_keys_str_mv AT beltrancelina unaevaluaciondeldesempenoenlaclasificacionbinariamediantesimulacionarbolesdeclasificacionybosquesaleatorios
AT barbonaivana unaevaluaciondeldesempenoenlaclasificacionbinariamediantesimulacionarbolesdeclasificacionybosquesaleatorios
bdutipo_str Repositorios
_version_ 1764820412159492097