By Blog de CEUPE on Jueves, 15 Octubre 2020
Category: TECNOLOGÍA

Todo lo que se debe saber de Hadoop Distributed File System

Hadoop Distributed File System (HDFS), es un sistema de archivos Hadoop distribuido para almacenar ficheros de gran tamaño con la posibilidad de acceso a la información en streaming, que se divide en nodos del cluster de computación, que pueden consistir en cualquier hardware. El Sistema de Archivo Distribuido Hadoop como cualquier sistema de archivos es una jerarquía de directorios con subdirectorios y archivos alojados en ellos.

Aplicación del sistema de archivos distribuidos Hadoop

El HDFS es una parte integral de Hadoop, el proyecto de alto nivel de la Fundación de Software Apache, y la fundación de la infraestructura de Big Data. Sin embargo, Hadoop también soporta otros sistemas de archivos distribuidos, como Amazon S3 y CloudStore. También algunas distribuciones Hadoop, por ejemplo, MapR, implementan su análogo sistema de archivos distribuidos: MapR File System.

El HDFS puede utilizarse no sólo para lanzar las tareas de MapReduce, sino también como un sistema de archivos distribuido de uso general que proporciona el funcionamiento de la base de datos distribuida y de los sistemas de aprendizaje automático escalables (Apache Mahout).

Arquitectura del HDFS

El clúster HDFS incluye los siguientes componentes:

Características distintivas del HDFS

Al replicar los bloques a los nodos de datos, el sistema de archivos distribuidos Hadoop proporciona una gran fiabilidad en el almacenamiento de datos y en la velocidad de cálculo. Además, el HDFS tiene varias características distintivas:

Conoce nuestro Máster en Ciberseguridad

Leave Comments