Kafka vs Flume vs Spark

Si se necesitan los procesos en tiempo real, optaría por Spark Streaming, si el tiempo no fuera un factor importante entonces utilizaría trabajos Spark. El consumidor Kafka es muy simple de utilizar pero proporciona poca funcionalidad. Estos consumidores serán sustituidos por los nuevos Kafka Streams que permiten leer, procesar y analizar datos almacenados en Kafka.

Elasticsearch

Hace años, un desarrollador recién casado y sin trabajo llamado Shay Bannon se fue con su mujer a Londres, donde ella estaba estudiando para ser chef. Mientras buscaba un empleo, empezó a jugar con las primeras versiones de Lucene con la intención de construir un motor de búsqueda de recetas para su mujer. Índice Historia... Leer más →

Apache Flume

Apache Flume es un sistema distribuido, confiable y disponible para recoger, agregar y mover grandes cantidades de datos en logs desde diferentes orígenes a un almacén centralizado. Si tenemos una situación en la que los datos no se generan regularmente y queremos hacer una carga masiva de ellos, quizás Flume sea excesivo para esa tarea.... Leer más →

Apache Sqoop

Lo empezó a desarrollar Aaron Kimball en el 2009 por la multitud de conectores que se estaban realizando para ingestar datos en Hadoop y unificar el acceso a bases de datos para importar y exportar datos. Cloudera lo propuso para la incubadora de proyectos. Apache lo aceptó en el 2011 y en 2012 se graduó... Leer más →

Sitio web ofrecido por WordPress.com.

Subir ↑