Elasticsearch

Elasticsearch es un servidor de búsqueda y analítica distribuido y RESTful basado en Lucene que es capaz de cubrir multitud de casos de uso. Una de las partes fundamentales de Elastic es la centralización de datos de forma indexada.

Kafka Streams

Si estás trabajando con grandes cantidades de datos, posiblemente hayas oído hablar de Kafka, a alto nivel, es un sistema distribuido de mensajería de suscripción-publicación tolerante a fallos diseñado para procesar datos rápidamente y que tiene la capacidad de manejar cientos de miles de mensajes.

Bases de datos orientadas a grafos

Este tipo de bases de datos utiliza la topología de un grafo con nodos como vértices y relaciones como aristas y propiedades, utilizada para almacenar y representar datos conectados sin necesidad de utilizar un índice (que es el método tradicional de simular una relación en una base de datos relacional).

Solr

Solr es un plataforma de búsqueda basado en Lucene, es altamentente fiable, escalable y tolerante a fallos, proporcionando indexación distribuida, replicación, reparto de carga en consultas, conmutación de errores y recuperación automatizada. Solr mejora la búsqueda y la navegabilidad de los sitios de internet más grandes del mundo.

Apache Kudu

En septiembre de 2015, Cloudera anunció la versión Beta de Apache Kudu, y dos meses más tarde, decidió donar el proyecto en su totalidad a la Apache Software Foundation para abrirla a toda la comunidad de desarrolladores open-source. En Enero de 2017 Cloudera lanza la versión Enterprise 5.10 y una de las principales diferencias con... Leer más →

Apache HBase

HBase es un proyecto open-source mantenido por la Apache Foundation que proporciona una base de datos columnar distribuida creada sobre el sistema de ficheros de Hadoop que puede escalar horizontalmente. Índice Introducción Características Modelo de datos Arquitectura Lectura y escritura ¿Como implementa el servidor de regiones las divisiones? Fallo y recuperación Hotspotting Shell API Java... Leer más →

Apache Hive

El desarrollo de Hive comenzó en 2009 cuando Sen Sarma, que trabajaba para Facebook, se dio cuenta después de escribir trabajos con la API de MapReduce.

Formatos de Fichero

Apache Avro es un sistema de compresión diseñado por Apache para el proyecto Hadoop para la serialización de datos. Parquet Es un formato de almacenamiento columnar para ecosistemas Hadoop. Los archivos de secuencia almacenan registros con pares de claves-valor codificados en binario. Índice Apache Avro Parquet SequenceFile Optimized Row Columnar (ORC) Benchmark 1. Apache Avro... Leer más →

Sitio web ofrecido por WordPress.com.

Subir ↑