Solr

Solr es un plataforma de búsqueda basado en Lucene, es altamentente fiable, escalable y tolerante a fallos, proporcionando indexación distribuida, replicación, reparto de carga en consultas, conmutación de errores y recuperación automatizada. Solr mejora la búsqueda y la navegabilidad de los sitios de internet más grandes del mundo.

Apache Tez

El objetivo con el que nace Tez es el de construir un framework que permita realizar el cambio entre tareas de procesamiento de datos mapreduce por un gráfico acíclico dirigido (DAG) de tareas. Actualmente está construido sobre YARN.

Apache Kudu

En septiembre de 2015, Cloudera anunció la versión Beta de Apache Kudu, y dos meses más tarde, decidió donar el proyecto en su totalidad a la Apache Software Foundation para abrirla a toda la comunidad de desarrolladores open-source. En Enero de 2017 Cloudera lanza la versión Enterprise 5.10 y una de las principales diferencias con... Leer más →

Apache Spark

Spark es un sistema de computación distribuida open-source que opera sobre conjunto de máquinas. Fue creado por M.Zaharias y compañeros de trabajo en AMPLab, después cedieron el proyecto a la fundación Apache y en el 2014 fundaron la empresa Databricks ofreciendo una plataforma de analítica en la nube teniendo como núcleo central de su producto... Leer más →

Apache Flume

Apache Flume es un sistema distribuido, confiable y disponible para recoger, agregar y mover grandes cantidades de datos en logs desde diferentes orígenes a un almacén centralizado. Si tenemos una situación en la que los datos no se generan regularmente y queremos hacer una carga masiva de ellos, quizás Flume sea excesivo para esa tarea.... Leer más →

Apache Kafka

El desarrollo  de Kafka comenzó en el año 2009 en la empresa LinkedIn. En el 2011 fue donado a la fundación Apache, y estuvo en la incubadora hasta Octubre de 2012 donde se graduó y paso a formar parte de los proyectos Top Level. En Noviembre de 2012 varios miembros del equipo de desarrollo de... Leer más →

Apache Sqoop

Lo empezó a desarrollar Aaron Kimball en el 2009 por la multitud de conectores que se estaban realizando para ingestar datos en Hadoop y unificar el acceso a bases de datos para importar y exportar datos. Cloudera lo propuso para la incubadora de proyectos. Apache lo aceptó en el 2011 y en 2012 se graduó... Leer más →

Zookeeper

Cuando se implementa estos servicios, gran parte del tiempo se va en depurar errores y en comprobar condiciones de carrera1. Debido a su complejidad las aplicaciones no dedican, inicialmente, el tiempo necesario a esta tarea, lo que las hace más frágiles frente a los cambios y difíciles de manejar. Incluso en los casos en que se realice correctamente, las diferentes implementaciones de los servicios harán compleja su administración

Introdución a Hadoop

Hadoop surge por la necesidad cada vez mayor de disponer de espacio de almacenamiento ilimitado y poder guardar cualquier cosa, estructurada o no. Asociado a esto, se necesitan algoritmos que puedan procesar toda esta información en un tiempo razonable. Hadoop tiene dos partes: una que se ocupa del almacenamiento de datos de distintos tipos (HDFS) y otra... Leer más →

Sitio web ofrecido por WordPress.com.

Subir ↑