Big Data con Spark

Big Data con Spark
19.99 USD
Buy Now

Apache Spark es un framework de programacin para procesamiento de datos distribuidos diseado para ser rpido y de propsito general. Como su propio nombre indica, ha sido desarrollada en el marco del proyecto Apache, lo que garantiza su licencia Open Source. Adems, podremos contar con que su mantenimiento y evolucin se llevarn a cabo por grupos de trabajo de gran prestigio, y existir una gran flexibilidad e interconexin con otros mdulos de Apache como Hadoop, Hive o Kafka. Parte de la esencia de Spark es su carcter generalista. Consta de diferentes APIs y mdulos que permiten que sea utilizado por una gran variedad de profesionales en todas las etapas del ciclo de vida del dato. Dichas etapas pueden incluir desde soporte para anlisis interactivo de datos con SQL a la creacin de complejos pipelines de machine learning y procesamiento en streaming, todo usando el mismo motor de procesamiento y las mismas APIs. Apache Spark: Su relacin con HadoopUna de las grandes preguntas sobre Spark es su relacin con Hadoop. Se trata de otra tecnologa competencia del famoso framework? En realidad, Spark es la evolucin natural de Hadoop, cuya funcionalidad es muy rgida y limitada en el sentido de que no aprovecha al mximo las capacidades del procesamiento distribuido. Algunas de las evoluciones que supone Spark frente a su predecesor son el procesamiento en memoria que disminuye las operaciones de lectura/escritura, la posibilidad de anlisis interactivo con SQL (similar a Hive en cierto modo) y la facilidad para interactuar con mltiples sistemas de almacenamiento persistente. Apache Spark: Cmo funciona?Apache Spark es un motor de procesamiento distribuido responsable de orquestar, distribuir y monitorizar aplicaciones que constan de mltiples tareas de procesamiento de datos sobre varias mquinas de trabajo, que forman un cluster. Como ya hemos mencionado, es posible leer los datos desde diferentes soluciones de almacenamiento persistente como Amazon S3 o Google Storage, sistemas de almacenamiento distribuido como HDFS, sistemas key-value como Apache Cassandra, o buses de mensajes como Kafka.A pesar de ello, Spark no almacena datos en s mismo, sino que tiene el foco puesto en el procesamiento. Este es uno de los puntos que lo diferencian de Hadoop, que incluye tanto un almacenamiento persistente (HDFS) como un sistema de procesamiento (MapReduce) de un manera muy integrada. Es importante hablar de la velocidad de procesamiento: la clave es la posibilidad que ofrece Spark para realizar el procesamiento en memoria. Esto, y la extensin del popular MapReduce para permitir de manera eficiente otros tipos de operaciones: Queries interactivas y Procesamiento en Streaming.