Evaluación del algoritmo K-Means en la asignación de centroides: desarrollo de un prototipo simulador

El presente trabajo de investigación se centra en un estudio comparativo de la calidad del agrupamiento obtenido por el algoritmo K-Means respecto a una extensión de este mismo, conocido como K-Means++. El trabajo se basa en la resolución del problema que implica segmentar un corpus voluminoso. Apli...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autores principales: Srpositto, Osvaldo Mario, Bossero, Julio, Ledesma, Viviana, Matteo, Lorena, Quevedo, Sebastián
Formato: Objeto de conferencia
Lenguaje:Español
Publicado: 2024
Materias:
Acceso en línea:http://sedici.unlp.edu.ar/handle/10915/176252
Aporte de:
Descripción
Sumario:El presente trabajo de investigación se centra en un estudio comparativo de la calidad del agrupamiento obtenido por el algoritmo K-Means respecto a una extensión de este mismo, conocido como K-Means++. El trabajo se basa en la resolución del problema que implica segmentar un corpus voluminoso. Aplicar este método ayuda a agrupar documentos similares en conjuntos, o clústers, para facilitar la organización y exploración eficiente de los mismos. Para poder comparar los algoritmos, se desarrolló un prototipo simulador en lenguaje C# que, configurando diferentes parámetros, genera un modelo vectorial. Este modelo se basa en matrices que representan la relación entre términos y documentos, donde cada posición de la matriz (i, j), representa el valor de la frecuencia con la que el término j aparece en el documento i. La evaluación de la comparativa entre los métodos se realizó empleado la métrica del “coeficiente de silueta” (Silhouette) y los resultados indican que ambos algoritmos tienen coeficientes positivos, lo que indica una correcta agrupación de los objetos. El método K-Means++ obtuvo un mejor coeficiente para este lote de prueba.