Aplicación del análisis de regresión logística multinomial en la clasificación de textos académicos: Biometría, Filosofía y Lingüística informática

Este trabajo pretende continuar la aplicación del análisis estadístico multivariado llevada a cabo en Beltrán (2010). Se utiliza la información resultante del análisis automático de textos académicos provenientes de distintas áreas científicas (Biometría, Filosofía y Lingüística informática) para c...

Descripción completa

Detalles Bibliográficos
Autor principal: Beltrán, Celina
Formato: article artículo publishedVersion
Lenguaje:Español
Publicado: Grupo Infosur 2019
Materias:
Acceso en línea:http://hdl.handle.net/2133/14278
http://hdl.handle.net/2133/14278
Aporte de:
id I15-R121-2133-14278
record_format dspace
institution Universidad Nacional de Rosario
institution_str I-15
repository_str R-121
collection Repositorio Hipermedial de la Universidad Nacional de Rosario (UNR)
language Español
orig_language_str_mv spa
topic regresión logística multinomial
análisis multivariado
análisis automático de textos
spellingShingle regresión logística multinomial
análisis multivariado
análisis automático de textos
Beltrán, Celina
Aplicación del análisis de regresión logística multinomial en la clasificación de textos académicos: Biometría, Filosofía y Lingüística informática
topic_facet regresión logística multinomial
análisis multivariado
análisis automático de textos
description Este trabajo pretende continuar la aplicación del análisis estadístico multivariado llevada a cabo en Beltrán (2010). Se utiliza la información resultante del análisis automático de textos académicos provenientes de distintas áreas científicas (Biometría, Filosofía y Lingüística informática) para conformar una base de datos sobre la cual se aplica la técnica de regresión logística multinomial. Mientras en un trabajo anterior se utilizó regresión logística para variable respuesta dicotómica para clasificar dos tipos de textos, en este trabajo se generaliza el análisis para tres categorías. El estudio permite un análisis en el cual se evidencian aquellas características que discriminan los corpus de textos analizados trabajando con las frecuencias absolutas de las distintas categorías morfosintácticas. Las variables significativas que conforman el modelo propuesto corresponden a tres categorías: adverbios, nombres, determinantes, verbos, clíticos y la interacción de estas dos últimas categorías. Los odds ratio estimados para comparar cada corpus con el de Biometría (corpus de referencia en el modelo) evidencian: • La chance de clasificar a un texto dentro del corpus de Filosofía versus Biometría se incrementa en un 43% al aumentar en número de adverbios en una unidad, mientras que la chance de clasificarlo en el corpus de Biometría versus Lingüística aumenta un 18% al incrementarse en una unidad el número de adverbios. • La chance de clasificar a un texto dentro del corpus de Biometría versus Lingüística se incrementa en un 16% al aumentar en número de nombres en una unidad. El número de nombres no discrimina los corpus de Biometría y Filosofía. • La chance de clasificar a un texto dentro del corpus de Filosofía versus Biometría se incrementa en un 11% al aumentar en número de determinantes en una unidad, mientras que la chance de clasificarlo en el corpus de Biometría versus Lingüística aumenta un 15% al incrementarse en una unidad el número de determinantes. • La chance de clasificar un texto dentro del corpus de Filosofía versus Biometría respecto al número de clíticos se ve afectado por el número de verbos (interacción). Cuando la frecuencia de verbos en el texto es superior al 15%, la chance de clasificar en Filosofía versus Biometría se incrementa con el número de clíticos. Sin embargo, cuando el texto presenta una frecuencia baja de verbos, el efecto es inverso. Con respecto a la clasificación en Lingüística versus Biometría la situación es la misma. La tasa de error global estimada por validación cruzada es del 14%.
format article
artículo
publishedVersion
author Beltrán, Celina
author_facet Beltrán, Celina
author_sort Beltrán, Celina
title Aplicación del análisis de regresión logística multinomial en la clasificación de textos académicos: Biometría, Filosofía y Lingüística informática
title_short Aplicación del análisis de regresión logística multinomial en la clasificación de textos académicos: Biometría, Filosofía y Lingüística informática
title_full Aplicación del análisis de regresión logística multinomial en la clasificación de textos académicos: Biometría, Filosofía y Lingüística informática
title_fullStr Aplicación del análisis de regresión logística multinomial en la clasificación de textos académicos: Biometría, Filosofía y Lingüística informática
title_full_unstemmed Aplicación del análisis de regresión logística multinomial en la clasificación de textos académicos: Biometría, Filosofía y Lingüística informática
title_sort aplicación del análisis de regresión logística multinomial en la clasificación de textos académicos: biometría, filosofía y lingüística informática
publisher Grupo Infosur
publishDate 2019
url http://hdl.handle.net/2133/14278
http://hdl.handle.net/2133/14278
work_keys_str_mv AT beltrancelina aplicaciondelanalisisderegresionlogisticamultinomialenlaclasificaciondetextosacademicosbiometriafilosofiaylinguisticainformatica
bdutipo_str Repositorios
_version_ 1764820408343724033