TECNOLOGÍA
Compártelo
¿Qué es un data lake?

¿Qué es un data lake?

En la actualidad, todos hablan de las ventajas del big data. Por ello, las empresas intentan trabajar con bases de datos a gran escala, pero se enfrentan al problema de que todos los datos son heterogéneos y no están estructurados, además de que se necesita mucho tiempo para procesarlos antes de cargarlos en las bases de datos. Como resultado, trabajar con big data resulta demasiado complicado, caro, y a veces parte de los datos se pierden, aunque podría ser útil en el futuro.

Para ello se pueden utilizar data lakes, que ayudan a manejar grandes cantidades de datos no estructurados de forma rápida y económica.

Definición de data lake

En español, el data lake se traduce como lago de datos. Se trata de un enorme repositorio en el que se almacenan diversos datos en bruto, es decir, sin ordenar ni procesar. Así, los data lake son como un pez en un lago que proviene de un río: no se sabe exactamente qué tipo de pez es y dónde está. Y para cocinar el pescado, es decir, procesar los datos, hay que pescarlo.

Los datos no estructurados son los que más a menudo se encuentran en la vida cotidiana. Los vídeos, los libros, las revistas, los documentos de Word y PDF, las grabaciones de audio y las fotos son datos no estructurados, y todos ellos pueden almacenarse en el data lake.

Funcionamiento de un data lake

Data lake es un enorme depósito que acepta cualquier archivo y en todos los formatos. La fuente de los datos también es irrelevante. El data lake puede aceptar datos de sistemas CRM o ERP, catálogos de productos, software bancario, sensores o dispositivos inteligentes, es decir, cualquier sistema que utilice la empresa.

Una vez almacenados los datos, se puede trabajar con ellos: extraerlos según una plantilla específica en bases de datos clásicas, además de analizarlos y tratarlos directamente en el data lake.

Para ello se puede utilizar Hadoop, un software que permite procesar grandes cantidades de datos de diferentes tipos y estructuras. Permite distribuir y estructurar los datos recogidos, establecer análisis para construir modelos o probar suposiciones, y utilizar el aprendizaje automático.

Además, los sistemas de BI permiten a las empresas resolver problemas de análisis en profundidad (minería de datos), modelización predictiva y visualización de los resultados obtenidos. El campo de aplicación es polifacético: desde la gestión financiera hasta la gestión de riesgos y el marketing.

Diferencias entre los data lakes y las bases de datos convencionales

La principal diferencia entre los data lakes y las bases de datos convencionales es la estructura. En las bases de datos sólo se almacenan datos claramente estructurados, mientras que en los data lakes se almacenan datos no estructurados ni ordenados.

Si se trata de una base de datos convencional, hay que definir el tipo de datos, analizarlos, estructurarlos y, a continuación, escribirlos en un lugar bien definido de la base de datos. Es posible crear un algoritmo que funcione con celdas específicas porque sabemos claramente lo que se almacena en esas celdas.

En el caso de los data lake, la información está estructurada a la salida, cuando se necesita extraer los datos o analizarlos. Este proceso de análisis no afecta a los datos del lago en sí: siguen sin estar estructurados, de modo que también pueden almacenarse convenientemente y utilizarse para otros fines.

Para simplificar, se puede imaginar que el lago de datos es un disco duro donde se almacenan todos los archivos. Y la base de datos es la tabla en la que se contabilizan todos estos archivos.

¿Quieres saber más sobre los data lake? Revisa nuestro Master Data Science

Artículo Anterior ¿Qué habilidades debe tener un analista de negocio...
Artículo Siguiente Investigación y clasificación del mercado del mark...
Compártelo
 

Comentarios

No hay comentarios por el momento. Se el primero en enviar un comentario.
Invitado
Domingo, 17 Octubre 2021
            

Síguenos

LinkedIn Youtube Twitter Instagram Facebook

Suscríbete a nuestro Magazine

Recibe Artículos, Conferencias
y Master Class

(*) He leído y acepto la Politica de Privacidad

Masterclass Tecnología

Tecnología

Caso Práctico - Protocolo MQTT

Tecnología

Brokers MQTT

Tecnología

Session Hijacking

Recibe tu
Pase Anual de
Conferencias
#conferenciaceupe
INSCRÍBETE

Noticias más populares

CEUPE Ecuador y el CIEEPI firman convenio de colaboración académica
CEUPE – Ecuador firma el pasado 26 de mayo de 2021 en Quito, Ecuador, el convenio de cooperación académica interinstitucional con el CIEEPI - Colegio de Ingenieros Eléctricos y Electrónicos de Pichinc...
Objetivos y beneficios de la externalización logística
👉Frente a la elevada competencia en el mercado y la tendencia a reducir costes y recortar gastos, los empresarios se centran en su actividad principal y subcontratan la gestión de actividades secundar...
Métodos de análisis de la inversión
El análisis de la inversión forma parte de la teoría de la inversión. La inversión como proceso de aumento del capital del inversor requiere comprender y evaluar la viabilidad de invertir en un proyec...
5 pasos para iniciar en el marketing de afiliación
El marketing de afiliación permite ganar dinero en línea, incluso si no se cuenta con un blog o un sitio web. Después de unos simples pasos se puede comenzar a trabajar e inmediatamente ganar las prim...

EMPRESAS

¿Cómo cambiar la estructura organizativa de una empresa?
Con frecuencia, la decisión de cambiar la estructura organizativa de una empresa es tomada por sus directivos. La primera etapa antes de iniciar la ad...
¿Cómo configurar la ventaja competitiva en la estrategia empresarial?
Con frecuencia, la ventaja competitiva se interpreta como algún tipo de superioridad de la empresa sobre sus competidores. Pero la ventaja competitiva...
¿Qué habilidades debe tener un analista de negocio?
A fin de aportar valor a las empresas con éxito, un analista de negocios debe poseer habilidades duras y blandas por igual. Habilidades blandas en el ...
¿Qué es un proyecto actual y un proyecto de desarrollo?
La gestión de proyectos se ha vuelto últimamente muy recurrente y tiene una explicación. Aunque la actividad actual de la empresa se basa en un proces...

MARKETING

Clasificación y modos de recopilar bases de datos de retargeting
Es importante tener en cuenta que el retargeting no consiste únicamente en mostrar anuncios a aquellos que han estado en tu sitio web, aunque la confi...
¿Qué es la capacidad del mercado?
Se trata de un indicador que aproxima la capacidad de un mercado para consumir un tipo de producto. Definición de la capacidad del mercado En general,...

CIENCIAS

Síguenos

LinkedIn Youtube Twitter Instagram Facebook

Masterclass Tecnología

Tecnología

Caso Práctico - Protocolo MQTT

Tecnología

Brokers MQTT

Tecnología

Session Hijacking

Recibe tu
Pase Anual de
Conferencias
#conferenciaceupe
INSCRÍBETE

Conferencias más vistas

Thumbail
Thumbail
Thumbail
Thumbail
Thumbail

LOGÍSTICA

RRHH

TURISMO

PSICOLOGÍA

TECNOLOGÍA

FINANZAS