Comparación de dos técnicas de clasificación supervisada en la categorización de textos y evaluación en datos simulados: Árboles de clasificación y Regresión Logística

En este trabajo se compara el desempeño de dos métodos de clasificación: Árboles de Clasificación (AC) y Regresión Logística (RL). Dicha comparación se realiza 1) sobre una aplicación en categorización de textos y 2) una evaluación sobre datos simulados bajo distintos escenarios. 1) Para ambos mét...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autores principales: Beltrán, Celina, Barbona, Ivana
Formato: article artículo publishedVersion
Lenguaje:Español
Publicado: INFOSUR 2021
Materias:
Acceso en línea:http://hdl.handle.net/2133/21728
http://hdl.handle.net/2133/21728
Aporte de:
id I15-R121-2133-21728
record_format dspace
institution Universidad Nacional de Rosario
institution_str I-15
repository_str R-121
collection Repositorio Hipermedial de la Universidad Nacional de Rosario (UNR)
language Español
topic Clasificación supervisada
Clasificación de textos
Árboles de clasificación
Regresión logística
Estadística
spellingShingle Clasificación supervisada
Clasificación de textos
Árboles de clasificación
Regresión logística
Estadística
Beltrán, Celina
Barbona, Ivana
Comparación de dos técnicas de clasificación supervisada en la categorización de textos y evaluación en datos simulados: Árboles de clasificación y Regresión Logística
topic_facet Clasificación supervisada
Clasificación de textos
Árboles de clasificación
Regresión logística
Estadística
description En este trabajo se compara el desempeño de dos métodos de clasificación: Árboles de Clasificación (AC) y Regresión Logística (RL). Dicha comparación se realiza 1) sobre una aplicación en categorización de textos y 2) una evaluación sobre datos simulados bajo distintos escenarios. 1) Para ambos métodos se evalúa la funcionalidad y desempeño en la clasificación de textos describiendo cómo es posible utilizarlos para categorizar y eventualmente caracterizar los textos. En este caso, el criterio de clasificación es el género al que pertenece el texto (Científico / No Científico). La caracterización de los textos está basada en la distribución de frecuencias de las categorías morfo-sintácticas. Los textos se clasificaron teniendo en cuenta simultáneamente las mediciones realizadas sobre ellos. El desempeño de las técnicas fue medido con la tasa de mala clasificación (TMC) calculada sobre una muestra de textos no incluidos en la estimación del modelo y construcción del árbol. El árbol de clasificación presentó una TMC inferior a la del modelo logístico logrando clasificar con mayor precisión los textos científicos. Para el AC la TMC resultó 4% para los textos científicos y 28% para los textos no científicos. Para el modelo de RL la TMC resultó 14% para los textos científicos y 26% para los textos no científicos. 2) En el estudio por simulación, se observó como resultado principal, que en condiciones donde las variables predictoras están altamente correlacionadas con la respuesta, si bien los AC mostraron un porcentaje de error significativamente menor en la clasificación, ambas metodologías funcionan satisfactoriamente. Sin embargo, cuando las condiciones para obtener una clasificación satisfactoria son desfavorables (predictores poco correlacionados con la respuesta) los AC logran un porcentaje de clasificación correcta notablemente superior a la RL, con la desventaja de obtener un árbol con numerosos nodos terminales utilizando la información de prácticamente todas las variables explicativas. En el caso desbalanceado, la clase mayoritaria presenta un porcentaje de clasificación correcta superior en la regresión logística a costa de un peor desempeño en la clase minoritaria. Este comportamiento es más marcado en RL que en los AC.
format article
artículo
publishedVersion
author Beltrán, Celina
Barbona, Ivana
author_facet Beltrán, Celina
Barbona, Ivana
author_sort Beltrán, Celina
title Comparación de dos técnicas de clasificación supervisada en la categorización de textos y evaluación en datos simulados: Árboles de clasificación y Regresión Logística
title_short Comparación de dos técnicas de clasificación supervisada en la categorización de textos y evaluación en datos simulados: Árboles de clasificación y Regresión Logística
title_full Comparación de dos técnicas de clasificación supervisada en la categorización de textos y evaluación en datos simulados: Árboles de clasificación y Regresión Logística
title_fullStr Comparación de dos técnicas de clasificación supervisada en la categorización de textos y evaluación en datos simulados: Árboles de clasificación y Regresión Logística
title_full_unstemmed Comparación de dos técnicas de clasificación supervisada en la categorización de textos y evaluación en datos simulados: Árboles de clasificación y Regresión Logística
title_sort comparación de dos técnicas de clasificación supervisada en la categorización de textos y evaluación en datos simulados: árboles de clasificación y regresión logística
publisher INFOSUR
publishDate 2021
url http://hdl.handle.net/2133/21728
http://hdl.handle.net/2133/21728
work_keys_str_mv AT beltrancelina comparaciondedostecnicasdeclasificacionsupervisadaenlacategorizaciondetextosyevaluacionendatossimuladosarbolesdeclasificacionyregresionlogistica
AT barbonaivana comparaciondedostecnicasdeclasificacionsupervisadaenlacategorizaciondetextosyevaluacionendatossimuladosarbolesdeclasificacionyregresionlogistica
bdutipo_str Repositorios
_version_ 1764820411308048385