Kafka vs Flume vs Spark

Si se necesitan los procesos en tiempo real, optaría por Spark Streaming, si el tiempo no fuera un factor importante entonces utilizaría trabajos Spark. El consumidor Kafka es muy simple de utilizar pero proporciona poca funcionalidad. Estos consumidores serán sustituidos por los nuevos Kafka Streams que permiten leer, procesar y analizar datos almacenados en Kafka.

Regresión logística

La regresión logística es una de las técnicas estadístico‐inferenciales más empleadas en la producción científica contemporánea. Surge en la década de los 60, su generalización dependía de la solución que se diera al problema de la estimación de los coeficientes. El algoritmo de Walker‐Duncan para la obtención de los estimadores de máxima verosimilitud

Regresión lineal

La regresión es sin duda el caballo de batalla de la estadística, existe un gran número de métodos estadísticos que se llaman regresión o fundamentados en la idea principal de la regresión que no es más que la relación lineal entre dos o más variables.

Solr

Solr es un plataforma de búsqueda basado en Lucene, es altamentente fiable, escalable y tolerante a fallos, proporcionando indexación distribuida, replicación, reparto de carga en consultas, conmutación de errores y recuperación automatizada. Solr mejora la búsqueda y la navegabilidad de los sitios de internet más grandes del mundo.

Apache Tez

El objetivo con el que nace Tez es el de construir un framework que permita realizar el cambio entre tareas de procesamiento de datos mapreduce por un gráfico acíclico dirigido (DAG) de tareas. Actualmente está construido sobre YARN.

Apache Kudu

En septiembre de 2015, Cloudera anunció la versión Beta de Apache Kudu, y dos meses más tarde, decidió donar el proyecto en su totalidad a la Apache Software Foundation para abrirla a toda la comunidad de desarrolladores open-source. En Enero de 2017 Cloudera lanza la versión Enterprise 5.10 y una de las principales diferencias con... Leer más →

Spark Streaming

Spark Streaming es una extensión de la API core de Spark que ofrece procesamiento de datos en streaming de manera escalable, alto rendimiento y tolerancia a fallos. Los datos pueden ser ingestados de diferentes fuentes como Kafka, Flume, Kinesis o sockets TCP, etc. Los datos ingestados pueden ser procesados utilizando algoritmos complejos expresados como funciones... Leer más →

Ranger vs Sentry

Apache Ranger, propiedad de Hortonworks, ofrece un enfoque integral de seguridad para un clúster Hadoop. Apache Sentry, propiedad de Cloudera, ofrece un enfoque de seguridad similar a Ranger. Apache Ranger Proporciona una plataforma centralizada para definir, administrar y generar políticas de seguridad de manera consistente en cada uno de sus componentes. Es un framework que... Leer más →

Elasticsearch

Hace años, un desarrollador recién casado y sin trabajo llamado Shay Bannon se fue con su mujer a Londres, donde ella estaba estudiando para ser chef. Mientras buscaba un empleo, empezó a jugar con las primeras versiones de Lucene con la intención de construir un motor de búsqueda de recetas para su mujer. Índice Historia... Leer más →

Apache Spark

Spark es un sistema de computación distribuida open-source que opera sobre conjunto de máquinas. Fue creado por M.Zaharias y compañeros de trabajo en AMPLab, después cedieron el proyecto a la fundación Apache y en el 2014 fundaron la empresa Databricks ofreciendo una plataforma de analítica en la nube teniendo como núcleo central de su producto... Leer más →

Sitio web ofrecido por WordPress.com.

Subir ↑