Estudio comparativo de métodos de clasificación no supervisada en contextos de grandes bases de datos

Fil: Ciardullo, Emanuel. Universidad Nacional de Rosario; Argentina.

Guardado en:
Detalles Bibliográficos
Autores principales: Ciardullo, Emanuel, Quaglino, Marta
Formato: poster
Lenguaje:Español
Publicado: 2020
Materias:
Acceso en línea:http://hdl.handle.net/11086/16851
Aporte de:
id I10-R141-11086-16851
record_format dspace
spelling I10-R141-11086-168512023-08-30T13:14:48Z Estudio comparativo de métodos de clasificación no supervisada en contextos de grandes bases de datos Ciardullo, Emanuel Quaglino, Marta Clasificación Clustering Variación de la información Fil: Ciardullo, Emanuel. Universidad Nacional de Rosario; Argentina. Fil: Quaglino, Marta. Universidad Nacional de Rosario; Argentina. En estadística se conoce como análisis clúster al estudio formal de los métodos para el agrupamiento de objetos según las características intrínsecas de los mismos. Estos métodos, tienen por objetivo obtener grupos dentro de los cuales los individuos, que a priori conforman un grupo heterogéneo, sean homogéneos entre si y distintos de los pertenecientes a otro grupo. Se pueden encontrar cientos de algoritmos de clustering propuestos a través de las distintas disciplinas científicas, además de las modificaciones y adaptaciones de estos a casos particulares. En general cuando se pretende agrupar objetos no existe una forma única de lograrlo. Distintos métodos pueden derivar en diferentes configuraciones. El presente trabajo compara los métodos K – means, K – medoid, DBSCAN y algoritmo EM a fin de descubrir ventajas y desventajas en su aplicación. Para evaluar la capacidad de las distintas estrategias de clasificación escogidas para identificar grupos que representen a ciertas estructuras que pueden aparecer en casos reales, se realiza un estudio por simulación. Se simularon cuatro escenarios considerando 10 variables cuantitativas continuas y cuatro poblaciones en cada uno. En todos ellos, los grupos de observaciones provienen de distintas poblaciones gaussianas mixtas con y sin contaminación, y distintos niveles de solapamiento entre las poblaciones. Todos los casos se simularon con una cantidad total de observaciones a clasificar de 1.000, 5.000, 10.000, 50.000, 100.000, 250.000, 500.000, 1.000.000 y 5.000.000 de observaciones. Los tamaños de grupo se mantuvieron iguales en todas las simulaciones. Para evaluar la bondad de la clasificación en cada caso se utilizó el criterio denominado Variación de la Información propuesto por Marina Meila (2003), y la proporción de datos correctamente clasificados. Los mejores resultados se obtienen con el algoritmo EM. Además, el método demuestra ser estable con la calidad de los resultados obtenidos al aumentar el tamaño de los grupos a clasificar. Fil: Ciardullo, Emanuel. Universidad Nacional de Rosario; Argentina. Fil: Quaglino, Marta. Universidad Nacional de Rosario; Argentina. 2020-11-20T22:18:46Z 2020-11-20T22:18:46Z 2020-10 poster http://hdl.handle.net/11086/16851 spa Atribución-NoComercial 4.0 Internacional http://creativecommons.org/licenses/by-nc/4.0/
institution Universidad Nacional de Córdoba
institution_str I-10
repository_str R-141
collection Repositorio Digital Universitario (UNC)
language Español
topic Clasificación
Clustering
Variación de la información
spellingShingle Clasificación
Clustering
Variación de la información
Ciardullo, Emanuel
Quaglino, Marta
Estudio comparativo de métodos de clasificación no supervisada en contextos de grandes bases de datos
topic_facet Clasificación
Clustering
Variación de la información
description Fil: Ciardullo, Emanuel. Universidad Nacional de Rosario; Argentina.
format poster
author Ciardullo, Emanuel
Quaglino, Marta
author_facet Ciardullo, Emanuel
Quaglino, Marta
author_sort Ciardullo, Emanuel
title Estudio comparativo de métodos de clasificación no supervisada en contextos de grandes bases de datos
title_short Estudio comparativo de métodos de clasificación no supervisada en contextos de grandes bases de datos
title_full Estudio comparativo de métodos de clasificación no supervisada en contextos de grandes bases de datos
title_fullStr Estudio comparativo de métodos de clasificación no supervisada en contextos de grandes bases de datos
title_full_unstemmed Estudio comparativo de métodos de clasificación no supervisada en contextos de grandes bases de datos
title_sort estudio comparativo de métodos de clasificación no supervisada en contextos de grandes bases de datos
publishDate 2020
url http://hdl.handle.net/11086/16851
work_keys_str_mv AT ciardulloemanuel estudiocomparativodemetodosdeclasificacionnosupervisadaencontextosdegrandesbasesdedatos
AT quaglinomarta estudiocomparativodemetodosdeclasificacionnosupervisadaencontextosdegrandesbasesdedatos
_version_ 1782014994055954432