TECNOLOGÍA
Compártelo
Todo lo que se debe saber de Hadoop Distributed File System

Todo lo que se debe saber de Hadoop Distributed File System

Hadoop Distributed File System (HDFS), es un sistema de archivos Hadoop distribuido para almacenar ficheros de gran tamaño con la posibilidad de acceso a la información en streaming, que se divide en nodos del cluster de computación, que pueden consistir en cualquier hardware. El Sistema de Archivo Distribuido Hadoop como cualquier sistema de archivos es una jerarquía de directorios con subdirectorios y archivos alojados en ellos.

Aplicación del sistema de archivos distribuidos Hadoop

El HDFS es una parte integral de Hadoop, el proyecto de alto nivel de la Fundación de Software Apache, y la fundación de la infraestructura de Big Data. Sin embargo, Hadoop también soporta otros sistemas de archivos distribuidos, como Amazon S3 y CloudStore. También algunas distribuciones Hadoop, por ejemplo, MapR, implementan su análogo sistema de archivos distribuidos: MapR File System.

big-data

El HDFS puede utilizarse no sólo para lanzar las tareas de MapReduce, sino también como un sistema de archivos distribuido de uso general que proporciona el funcionamiento de la base de datos distribuida y de los sistemas de aprendizaje automático escalables (Apache Mahout).

Arquitectura del HDFS

El clúster HDFS incluye los siguientes componentes:

  • Nodo de control, nodo de nombre o servidor de nombre (NameNode): es un servidor separado y único en el clúster con código de programa para administrar el espacio de nombres en el sistema de archivos, almacenando el sistema de archivos así como los metadatos de los archivos y directorios. NameNode es un componente obligatorio del clúster HDFS que se encarga de abrir y cerrar archivos, crear y borrar directorios, controlar el acceso de clientes externos y hacer coincidir archivos y bloques duplicados (replicados) en los nodos de datos. El servidor de nombres revela la ubicación de los bloques de datos en las máquinas del clúster a todo el mundo.
  • El Nodo de Nombre Secundario, un nodo de nombre secundario es un servidor separado, el único en el clúster que copia el registro de transacciones de la imagen HDFS y del bloque de archivos a una carpeta temporal, aplica los cambios acumulados en el registro de transacciones a la imagen HDFS, y lo escribe en el nodo de Nombre y borra el registro de transacciones. El NameNode secundario es necesario para una rápida recuperación manual del NameNode en caso de que falle.
  • Un nodo o servidor de datos (DataNode o Node) es uno de los muchos servidores del clúster con código de programa responsable de las operaciones de archivo y del trabajo con bloques de datos. El DataNode es un componente obligatorio de un cluster HDFS que se encarga de escribir y leer datos, ejecutar comandos desde el NameNode para crear, borrar y replicar bloques, así como enviar periódicamente mensajes de estado (latidos) y procesar peticiones de lectura y escritura de los clientes del sistema de archivos HDFS. Cabe señalar que los datos pasan de los otros nodos del clúster hasta el cliente y más allá del nodo NameNode.
  • El cliente, es el usuario o la aplicación que se comunica a través de una interfaz especial (API - Application Programming Interface) con el sistema de archivos distribuidos. Si el cliente tiene suficientes permisos, se permiten las siguientes operaciones con archivos y directorios: crear, borrar, leer, escribir, renombrar y mover. Al crear un archivo, el cliente puede especificar explícitamente el tamaño del bloque de archivos (64 Mb de forma predeterminada) y el número de réplicas creadas (el valor por defecto es 3).

Características distintivas del HDFS

Al replicar los bloques a los nodos de datos, el sistema de archivos distribuidos Hadoop proporciona una gran fiabilidad en el almacenamiento de datos y en la velocidad de cálculo. Además, el HDFS tiene varias características distintivas:

  • Tamaño de bloque grande comparado con otros sistemas de archivos (>64MB), porque el HDFS está diseñado para almacenar un gran número de archivos enormes (>10GB).
  • Se centran en servidores baratos y por lo tanto no los más fiables: la tolerancia a fallos de todo el clúster está garantizada por la replicación de datos.
  • La duplicación y la replicación se hacen a nivel de grupo, no a nivel de nodo de datos.
  • La replicación tiene lugar en modo asíncrono: la información se distribuye a varios servidores justo en el momento del arranque, por lo que el fallo de los nodos de datos individuales no provocará la pérdida total de los mismos.
  • El HDFS está optimizado para la lectura de archivos de flujo, por lo que no es apropiado usarlo para lecturas irregulares y aleatorias.
  • Los clientes pueden leer y escribir archivos HDFS directamente a través de la interfaz del programa Java.
  • Los archivos se escriben una vez, lo que excluye cualquier cambio arbitrario en ellos.
  • El principio WORM (escribir una vez y leer muchas) libera completamente al sistema de los bloqueos de escritura y lectura. La escritura en un archivo a la vez sólo está disponible para un proceso, lo que elimina los conflictos de múltiples registros.
  • El HDFS está optimizado para la transmisión de datos.
  • La compresión de los datos y el uso eficiente del espacio en disco ha reducido la carga de los canales de datos, que suelen ser cuellos de botella en los entornos distribuidos.
  • Autodiagnóstico, cada DataNode envía mensajes de diagnóstico a ciertos intervalos al NameNode, que escribe registros de operaciones de archivo en un registro especial.
  • Todos los metadatos del servidor de nombres se almacenan en la RAM.

transmisión-de-datos

Conoce nuestro Máster en Ciberseguridad

Artículo Anterior ¿Qué habilidades desarrollar para un liderazgo?
Artículo Siguiente ¿Qué es el marketing mix?
Compártelo
 

Comentarios

No hay comentarios por el momento. Se el primero en enviar un comentario.
Invitado
Miércoles, 20 Octubre 2021
            

Síguenos

LinkedIn Youtube Twitter Instagram Facebook

Suscríbete a nuestro Magazine

Recibe Artículos, Conferencias
y Master Class

(*) He leído y acepto la Politica de Privacidad

Masterclass Tecnología

Tecnología

Caso Práctico - Protocolo MQTT

Tecnología

Brokers MQTT

Tecnología

Session Hijacking

Recibe tu
Pase Anual de
Conferencias
#conferenciaceupe
INSCRÍBETE

Noticias más populares

CEUPE Ecuador y el CIEEPI firman convenio de colaboración académica
CEUPE – Ecuador firma el pasado 26 de mayo de 2021 en Quito, Ecuador, el convenio de cooperación académica interinstitucional con el CIEEPI - Colegio de Ingenieros Eléctricos y Electrónicos de Pichinc...
Objetivos y beneficios de la externalización logística
👉Frente a la elevada competencia en el mercado y la tendencia a reducir costes y recortar gastos, los empresarios se centran en su actividad principal y subcontratan la gestión de actividades secundar...
Métodos de análisis de la inversión
El análisis de la inversión forma parte de la teoría de la inversión. La inversión como proceso de aumento del capital del inversor requiere comprender y evaluar la viabilidad de invertir en un proyec...
5 pasos para iniciar en el marketing de afiliación
El marketing de afiliación permite ganar dinero en línea, incluso si no se cuenta con un blog o un sitio web. Después de unos simples pasos se puede comenzar a trabajar e inmediatamente ganar las prim...

EMPRESAS

¿Cómo cambiar la estructura organizativa de una empresa?
Con frecuencia, la decisión de cambiar la estructura organizativa de una empresa es tomada por sus directivos. La primera etapa antes de iniciar la ad...
¿Cómo configurar la ventaja competitiva en la estrategia empresarial?
Con frecuencia, la ventaja competitiva se interpreta como algún tipo de superioridad de la empresa sobre sus competidores. Pero la ventaja competitiva...
¿Qué habilidades debe tener un analista de negocio?
A fin de aportar valor a las empresas con éxito, un analista de negocios debe poseer habilidades duras y blandas por igual. Habilidades blandas en el ...
¿Qué es un proyecto actual y un proyecto de desarrollo?
La gestión de proyectos se ha vuelto últimamente muy recurrente y tiene una explicación. Aunque la actividad actual de la empresa se basa en un proces...

MARKETING

Clasificación y modos de recopilar bases de datos de retargeting
Es importante tener en cuenta que el retargeting no consiste únicamente en mostrar anuncios a aquellos que han estado en tu sitio web, aunque la confi...
¿Qué es la capacidad del mercado?
Se trata de un indicador que aproxima la capacidad de un mercado para consumir un tipo de producto. Definición de la capacidad del mercado En general,...

CIENCIAS

Síguenos

LinkedIn Youtube Twitter Instagram Facebook

Masterclass Tecnología

Tecnología

Caso Práctico - Protocolo MQTT

Tecnología

Brokers MQTT

Tecnología

Session Hijacking

Recibe tu
Pase Anual de
Conferencias
#conferenciaceupe
INSCRÍBETE

Conferencias más vistas

Thumbail
Thumbail
Thumbail
Thumbail
Thumbail

LOGÍSTICA

RRHH

TURISMO

PSICOLOGÍA

TECNOLOGÍA

FINANZAS