Apache Flume

Apache Flume es un sistema distribuido, confiable y disponible para recoger, agregar y mover grandes cantidades de datos en logs desde diferentes orígenes a un almacén centralizado. Si tenemos una situación en la que los datos no se generan regularmente y queremos hacer una carga masiva de ellos, quizás Flume sea excesivo para esa tarea.... Leer más →

Apache Kafka

El desarrollo  de Kafka comenzó en el año 2009 en la empresa LinkedIn. En el 2011 fue donado a la fundación Apache, y estuvo en la incubadora hasta Octubre de 2012 donde se graduó y paso a formar parte de los proyectos Top Level. En Noviembre de 2012 varios miembros del equipo de desarrollo de... Leer más →

Apache Sqoop

Lo empezó a desarrollar Aaron Kimball en el 2009 por la multitud de conectores que se estaban realizando para ingestar datos en Hadoop y unificar el acceso a bases de datos para importar y exportar datos. Cloudera lo propuso para la incubadora de proyectos. Apache lo aceptó en el 2011 y en 2012 se graduó... Leer más →

Apache HBase

HBase es un proyecto open-source mantenido por la Apache Foundation que proporciona una base de datos columnar distribuida creada sobre el sistema de ficheros de Hadoop que puede escalar horizontalmente. Índice Introducción Características Modelo de datos Arquitectura Lectura y escritura ¿Como implementa el servidor de regiones las divisiones? Fallo y recuperación Hotspotting Shell API Java... Leer más →

Impala

Impala ofrece una tecnología de base de datos escalable y paralela sobre Hadoop permitiendo a los usuarios realizar consultas SQL con baja latencia sobre los datos guardados en el HDFS o en HBase sin necesidad de moverlos o transformarlos. Impala esta integrado con Hadoop para que utilice los mismos ficheros, formatos, metadatos, seguridad y frameworks... Leer más →

Métodos de regresión, clasificación y clustering

Índice Regresión lineal Regresión logística Árboles. CART Clustering 1. Regresión lineal El análisis de regresión linean es una técnica estadística utilizada para estudiar la relación entre variables. En el ámbito de la investigación se utiliza para predecir un amplio rango de fenómenos. Consiste en un modelo matemático usado para aproximar la relación de dependencia entre... Leer más →

Apache Hive

El desarrollo de Hive comenzó en 2009 cuando Sen Sarma, que trabajaba para Facebook, se dio cuenta después de escribir trabajos con la API de MapReduce.

Formatos de Fichero

Apache Avro es un sistema de compresión diseñado por Apache para el proyecto Hadoop para la serialización de datos. Parquet Es un formato de almacenamiento columnar para ecosistemas Hadoop. Los archivos de secuencia almacenan registros con pares de claves-valor codificados en binario. Índice Apache Avro Parquet SequenceFile Optimized Row Columnar (ORC) Benchmark 1. Apache Avro... Leer más →

Kerberos

Es un un protocolo que permite autenticación segura sobre una red insegura donde las comunicaciones entre hosts pueden ser interceptadas. Los servidores de autenticación, los servidores de aplicaciones (imap, pop, smtp, telnet, ftp,ssh, ...) y los clientes deben mantenerse constantemente actualizados para que la autenticidad de las solicitudes de usuario y proveedores de servicios sea fiable.

Zookeeper

Cuando se implementa estos servicios, gran parte del tiempo se va en depurar errores y en comprobar condiciones de carrera1. Debido a su complejidad las aplicaciones no dedican, inicialmente, el tiempo necesario a esta tarea, lo que las hace más frágiles frente a los cambios y difíciles de manejar. Incluso en los casos en que se realice correctamente, las diferentes implementaciones de los servicios harán compleja su administración

Sitio web ofrecido por WordPress.com.

Subir ↑