Benchmark de Big Data utilizando software libre y hardware de bajo costo

Resumen: El campo de la computación distribuida ha tenido una gran influencia sobre los sistemas actuales. La capacidad de realizar procesamientos complejos bajo el marco de la computación distribuida sobre grandes cantidades de datos, en lo que se llamaría “Big Data”, ha dado un nuevo valor a lo...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autor principal: Estol, Marcelo Gastón
Otros Autores: Di Pasquale, Ricardo
Formato: Tesis de grado
Lenguaje:Español
Publicado: 2022
Materias:
Acceso en línea:https://repositorio.uca.edu.ar/handle/123456789/13409
Aporte de:
Descripción
Sumario:Resumen: El campo de la computación distribuida ha tenido una gran influencia sobre los sistemas actuales. La capacidad de realizar procesamientos complejos bajo el marco de la computación distribuida sobre grandes cantidades de datos, en lo que se llamaría “Big Data”, ha dado un nuevo valor a los datos, solucionado algunas problemáticas comúnmente encontradas en sistemas con gran cantidad de flujo de datos online. El área de la computación denominada “Big Data” está cobrando un gran auge en los sistemas actuales, por esa razón parece oportuno realizar una investigación de las diferente tecnologías comúnmente usadas y sus oportunidades de aplicación. Este trabajo se concentra en tomar un algoritmo y llevarlo a un programa funcional bajo distintos softwares de Apache, en concreto Hadoop y Spark. Estos sistemas son usados comúnmente por organizaciones con plataformas online para realizar pruebas de aceptación de usuarios, realizar consultas no estructuradas de forma ágil y eficaz, montar motores de bases de datos sobre registros del sistema y otros archivos no estructurados, entre otras áreas de aplicación. Se investigaron otras tecnologías diferentes a Spark y Hadoop, pero se ha decidido no incluir las mismas en este documento. Entre ellas se puede mencionar Hbase, Titan DB, Amazon MapReduce (entre otros servicios), Spatial and Graph.