Una revisión de las técnicas de clasificación supervisada en la clasificación automática de textos

El presente artículo es una revisión de tema cuyo objetivo es el examen de técnicas de análisis multivariado usadas para clasificar unidades. En este trabajo se compara el desempeño de los métodos de clasificación: Vecino más Cercano, Sistema Bagging, Árboles de Clasificación, Support Vector Machine...

Descripción completa

Detalles Bibliográficos
Autores principales: Beltrán, Celina, Barbona, Ivana
Formato: article artículo publishedVersion
Lenguaje:Español
Publicado: Grupo IANUS 2018
Materias:
Acceso en línea:http://hdl.handle.net/2133/13776
http://hdl.handle.net/2133/13776
Aporte de:
id I15-R121-2133-13776
record_format dspace
institution Universidad Nacional de Rosario
institution_str I-15
repository_str R-121
collection Repositorio Hipermedial de la Universidad Nacional de Rosario (UNR)
language Español
orig_language_str_mv spa
topic Clasificación
Supervisada
Textos
spellingShingle Clasificación
Supervisada
Textos
Beltrán, Celina
Barbona, Ivana
Una revisión de las técnicas de clasificación supervisada en la clasificación automática de textos
topic_facet Clasificación
Supervisada
Textos
description El presente artículo es una revisión de tema cuyo objetivo es el examen de técnicas de análisis multivariado usadas para clasificar unidades. En este trabajo se compara el desempeño de los métodos de clasificación: Vecino más Cercano, Sistema Bagging, Árboles de Clasificación, Support Vector Machine, Sequential Minimal Optimization, Regresión Logística, Redes Neuronales y Análisis Discriminante. Para todos los métodos se presenta su funcionalidad y desmpeño en la clasificación de textos describiendo cómo es posible utilizarlos para clasificar y eventualmente caracterizar textos de distintos géneros o disciplinas. El criterio de clasificación es el género al que pertenece el texto (Científico / No Científico). La caracterización de los textos está basada en la distribución de frecuencias de las categorías morfo-sintácticas. Los textos se clasificaron teniendo en cuenta simultáneamente las mediciones realizadas sobre ellos. Se considera como medida para la comparación entre métodos el error de mala clasificación calculada sobre una muestra de textos no incluidos en el proceso de construcción de la regla de clasificación. De los métodos aplicados, Redes Neuronales presenta el mejor desempeño (3% de mala clasificación). El siguiente en buen desempeño es el del Vecino más Cercano (13% de mala clasificación) teniendo como principales ventajas la simpleza de su aplicación y la estabilidad de su comportamiento. También presentaron desempeños aceptables los métodos Árboles de Clasificación (14% de mala clasificación) y Análisis Discriminante Cuadrático (16,67 % de mala clasificación). Cabe destacar, que debido que los grupos presentan estructuras de covariancias distintas, es de esperar que el Análisis Discriminante Cuadrático clasifique mejor que el Análisis Discriminante Lineal (18% de mala clasificación). Por otro lado, no es posible conocer en de qué manera afecta la presencia de estructuras de covariancias distintas entre los grupos para los métodos restantes.
format article
artículo
publishedVersion
author Beltrán, Celina
Barbona, Ivana
author_facet Beltrán, Celina
Barbona, Ivana
author_sort Beltrán, Celina
title Una revisión de las técnicas de clasificación supervisada en la clasificación automática de textos
title_short Una revisión de las técnicas de clasificación supervisada en la clasificación automática de textos
title_full Una revisión de las técnicas de clasificación supervisada en la clasificación automática de textos
title_fullStr Una revisión de las técnicas de clasificación supervisada en la clasificación automática de textos
title_full_unstemmed Una revisión de las técnicas de clasificación supervisada en la clasificación automática de textos
title_sort una revisión de las técnicas de clasificación supervisada en la clasificación automática de textos
publisher Grupo IANUS
publishDate 2018
url http://hdl.handle.net/2133/13776
http://hdl.handle.net/2133/13776
work_keys_str_mv AT beltrancelina unarevisiondelastecnicasdeclasificacionsupervisadaenlaclasificacionautomaticadetextos
AT barbonaivana unarevisiondelastecnicasdeclasificacionsupervisadaenlaclasificacionautomaticadetextos
bdutipo_str Repositorios
_version_ 1764820407683121152