Benchmark de Big Data utilizando software libre y hardware de bajo costo
Resumen: El campo de la computación distribuida ha tenido una gran influencia sobre los sistemas actuales. La capacidad de realizar procesamientos complejos bajo el marco de la computación distribuida sobre grandes cantidades de datos, en lo que se llamaría “Big Data”, ha dado un nuevo valor a lo...
Guardado en:
| Autor principal: | |
|---|---|
| Otros Autores: | |
| Formato: | Tesis de grado |
| Lenguaje: | Español |
| Publicado: |
2022
|
| Materias: | |
| Acceso en línea: | https://repositorio.uca.edu.ar/handle/123456789/13409 |
| Aporte de: |
| Sumario: | Resumen: El campo de la computación distribuida ha tenido una gran influencia sobre los
sistemas actuales. La capacidad de realizar procesamientos complejos bajo el marco de
la computación distribuida sobre grandes cantidades de datos, en lo que se llamaría
“Big Data”, ha dado un nuevo valor a los datos, solucionado algunas problemáticas
comúnmente encontradas en sistemas con gran cantidad de flujo de datos online.
El área de la computación denominada “Big Data” está cobrando un gran auge en los
sistemas actuales, por esa razón parece oportuno realizar una investigación de las
diferente tecnologías comúnmente usadas y sus oportunidades de aplicación.
Este trabajo se concentra en tomar un algoritmo y llevarlo a un programa funcional
bajo distintos softwares de Apache, en concreto Hadoop y Spark. Estos sistemas son
usados comúnmente por organizaciones con plataformas online para realizar pruebas
de aceptación de usuarios, realizar consultas no estructuradas de forma ágil y eficaz,
montar motores de bases de datos sobre registros del sistema y otros archivos no
estructurados, entre otras áreas de aplicación.
Se investigaron otras tecnologías diferentes a Spark y Hadoop, pero se ha decidido no
incluir las mismas en este documento. Entre ellas se puede mencionar Hbase, Titan DB,
Amazon MapReduce (entre otros servicios), Spatial and Graph. |
|---|