Un nuevo método para clustering de tweets Basado en métodos de ensambles y técnicas de hashing

Este trabajo tiene como objetivo abordar un nuevo método de clustering basado en métodos de ensambles aplicados a datos no estructurados provenientes de la red social Twitter. Se aplicó particularmente el método de clustering por acumulación de evidencia (EAC). Dicha técnica brinda la posibilidad y...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autores principales: Kraiselburd, Cecilia, Gentile, Matias, Varani, Bruno, Neirotti, Fabricio, Amar, Eduardo, Moine, Juan, Bigatti, Cristian
Otros Autores: Congreso Nacional de Ingeniería en Informática / Sistemas de información (4° : 2016 nov. 17-18 : Salta)
Formato: Documento de conferencia
Lenguaje:Español
Publicado: Universidad Católica de Salta. Facultad de Ingeniería (Salta) 2016
Materias:
Acceso en línea:https://bibliotecas.ucasal.edu.ar/opac_css/index.php?lvl=cmspage&pageid=24&id_notice=61981
Aporte de:
Descripción
Sumario:Este trabajo tiene como objetivo abordar un nuevo método de clustering basado en métodos de ensambles aplicados a datos no estructurados provenientes de la red social Twitter. Se aplicó particularmente el método de clustering por acumulación de evidencia (EAC). Dicha técnica brinda la posibilidad y ventaja de generar una matriz de distancia entre tweets para la posterior aplicación de algoritmos de clustering sobre la misma con una combinación óptima de parámetros. Previamente a su aplicación se utilizó la técnica de Minhash mediante el desglose de tweets en n-gramas para optimizar el cálculo. Los resultados obtenidos son prometedores, mostrando la utilidad del método aplicado para descubrir grupos temáticos de tweets a partir de un conjunto grande de datos obtenidos de Twitter.