Apache Pig en Hadoop sobre Cassandra

Los sistemas distribuidos en la web y las tecnologías informáticas distribuidas como cluster y cloud, permiten diseñar un entorno de entidades distribuidas que cooperen para resolver un problema que no puede ser resuelto individualmente. La variedad de estos sistemas pueden incluir servidores de ap...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autores principales: Chávez, Susana Beatriz, Martín, Adriana Elizabeth, Rodríguez, Nelson R., Murazzo, María Antonia
Formato: Objeto de conferencia
Lenguaje:Español
Publicado: 2017
Materias:
Acceso en línea:http://sedici.unlp.edu.ar/handle/10915/61629
Aporte de:
id I19-R120-10915-61629
record_format dspace
institution Universidad Nacional de La Plata
institution_str I-19
repository_str R-120
collection SEDICI (UNLP)
language Español
topic Ciencias Informáticas
Apache Pig
Hadoop
Nosql
cloud computing
Distributed Systems
spellingShingle Ciencias Informáticas
Apache Pig
Hadoop
Nosql
cloud computing
Distributed Systems
Chávez, Susana Beatriz
Martín, Adriana Elizabeth
Rodríguez, Nelson R.
Murazzo, María Antonia
Apache Pig en Hadoop sobre Cassandra
topic_facet Ciencias Informáticas
Apache Pig
Hadoop
Nosql
cloud computing
Distributed Systems
description Los sistemas distribuidos en la web y las tecnologías informáticas distribuidas como cluster y cloud, permiten diseñar un entorno de entidades distribuidas que cooperen para resolver un problema que no puede ser resuelto individualmente. La variedad de estos sistemas pueden incluir servidores de aplicaciones, cloud privados, pequeños centros de datos y cluster para almacenamiento y búsqueda de datos. Esto explica por qué ha crecido enormemente la habilidad de recolectar y almacenar datos en las últimas décadas, incluso hoy en día, se pude decir que este apetito por los datos no muestra signos de satisfacción. Los científicos quieren ser capaces de almacenar más datos con el fin de construir mejores modelos matemáticos del mundo. Los vendedores quieren mejores datos para entender los deseos y hábitos de compra de sus clientes. Los analistas financieros quieren entender mejor el funcionamiento de sus mercados. Y todo el mundo quiere mantener todas sus fotografías, videos, correos electrónicos, etc. En consecuencia, es primordial encontrar la mejor solución para el procesamiento y análisis de esta gran escala de enormes cantidades de datos. En este sentido, un RDBMS como SQL Server o MySQL es una buena opción si el conjunto de datos de trabajo nunca va a crecer más allá de 40-50GB a lo largo de su vida útil. Incluso no necesitan ser distribuidos ya que pueden ser procesados en la memoria de una sola máquina. Sin embargo, si se construye una aplicación que tiene un conjunto de datos que crece rápidamente y ráfagas de cargas impredecibles, será necesario optar por una solución que sacrifique cierta velocidad o consistencia en pos de poder distribuirse y así procesar el gran volumen de datos. En los últimos años han surgido las bases de datos NoSQL que rompen una o más de las reglas de los sistemas de bases de datos relacionales. No esperan que los datos sean normalizados. En su lugar, los datos a los que accede una aplicación viven en una gran tabla, de modo que pocos o ningún joins son necesarios. Estos sistemas están diseñados para administrar terabytes de datos. A esto, se suma el desarrollo de muchos sistemas alternativos de procesamiento de datos como Apache Hadoop. Este proyecto ha impulsado el desarrollo de lenguajes existentes y la construcción de nuevas herramientas como Apache Pig. Esta herramienta proporciona un mayor nivel de abstracción para los usuarios de datos, dando acceso a la flexibilidad y potencia de Hadoop sin necesidad de tener que escribir extensas aplicaciones de procesamiento de datos en código Java de bajo nivel. Las bases de datos NoSql que se han integrado con Pig incluyen HBase, Accumulo y Cassandra. En este trabajo se propone realizar pruebas experimentales con Apache Pig sobre Apache Hadoop y como motor NoSql se elige Cassandra, ya que coincide muy bien con la naturaleza distribuida de Hadoop, para ejecutar consultas sobre datos que abarcan múltiples nodos.
format Objeto de conferencia
Objeto de conferencia
author Chávez, Susana Beatriz
Martín, Adriana Elizabeth
Rodríguez, Nelson R.
Murazzo, María Antonia
author_facet Chávez, Susana Beatriz
Martín, Adriana Elizabeth
Rodríguez, Nelson R.
Murazzo, María Antonia
author_sort Chávez, Susana Beatriz
title Apache Pig en Hadoop sobre Cassandra
title_short Apache Pig en Hadoop sobre Cassandra
title_full Apache Pig en Hadoop sobre Cassandra
title_fullStr Apache Pig en Hadoop sobre Cassandra
title_full_unstemmed Apache Pig en Hadoop sobre Cassandra
title_sort apache pig en hadoop sobre cassandra
publishDate 2017
url http://sedici.unlp.edu.ar/handle/10915/61629
work_keys_str_mv AT chavezsusanabeatriz apachepigenhadoopsobrecassandra
AT martinadrianaelizabeth apachepigenhadoopsobrecassandra
AT rodrigueznelsonr apachepigenhadoopsobrecassandra
AT murazzomariaantonia apachepigenhadoopsobrecassandra
bdutipo_str Repositorios
_version_ 1764820479355387904