Clustering de un flujo de datos usando MapReduce

Las técnicas de agrupamiento (clustering) sobre flujo de datos (data stream) son una poderosa herramienta para determinar las características que tienen en común los datos provenientes del flujo. Para obtener buenos resultados es necesario almacenar gran parte de éste en una ventana temporal. En est...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autores principales: Basgall, María José, Hasperué, Waldo, Estrebou, César Armando, Naiouf, Marcelo
Formato: Objeto de conferencia
Lenguaje:Español
Publicado: 2016
Materias:
Acceso en línea:http://sedici.unlp.edu.ar/handle/10915/56748
Aporte de:
id I19-R120-10915-56748
record_format dspace
institution Universidad Nacional de La Plata
institution_str I-19
repository_str R-120
collection SEDICI (UNLP)
language Español
topic Ciencias Informáticas
big data
stream processing
spellingShingle Ciencias Informáticas
big data
stream processing
Basgall, María José
Hasperué, Waldo
Estrebou, César Armando
Naiouf, Marcelo
Clustering de un flujo de datos usando MapReduce
topic_facet Ciencias Informáticas
big data
stream processing
description Las técnicas de agrupamiento (clustering) sobre flujo de datos (data stream) son una poderosa herramienta para determinar las características que tienen en común los datos provenientes del flujo. Para obtener buenos resultados es necesario almacenar gran parte de éste en una ventana temporal. En este artículo medimos una técnica que maneja el tamaño de la ventana temporal de manera dinámica utilizando un algoritmo de clustering implementado en el framework MapReduce. Los resultados obtenidos demuestran que esta técnica alcanza una ventana de gran tamaño logrando así que cada dato del flujo se utilice en más de una iteración del algoritmo de clustering permitiendo conseguir resultados similares independientemente de la velocidad de los datos del flujo. Los centroides resultantes de cada flujo de datos son semejantes a los que se consiguen haciendo un clustering sobre el conjunto de datos completo.
format Objeto de conferencia
Objeto de conferencia
author Basgall, María José
Hasperué, Waldo
Estrebou, César Armando
Naiouf, Marcelo
author_facet Basgall, María José
Hasperué, Waldo
Estrebou, César Armando
Naiouf, Marcelo
author_sort Basgall, María José
title Clustering de un flujo de datos usando MapReduce
title_short Clustering de un flujo de datos usando MapReduce
title_full Clustering de un flujo de datos usando MapReduce
title_fullStr Clustering de un flujo de datos usando MapReduce
title_full_unstemmed Clustering de un flujo de datos usando MapReduce
title_sort clustering de un flujo de datos usando mapreduce
publishDate 2016
url http://sedici.unlp.edu.ar/handle/10915/56748
work_keys_str_mv AT basgallmariajose clusteringdeunflujodedatosusandomapreduce
AT hasperuewaldo clusteringdeunflujodedatosusandomapreduce
AT estreboucesararmando clusteringdeunflujodedatosusandomapreduce
AT naioufmarcelo clusteringdeunflujodedatosusandomapreduce
bdutipo_str Repositorios
_version_ 1764820477556031491