¿Qué es un lago de datos?

Publicado 16 de septiembre de 2019 •

Los lagos de datos son un tipo de repositorio donde se almacenan conjuntos grandes y diversos de datos sin procesar en su formato original. Permiten obtener un panorama general de los datos. Se trata de una estrategia de gestión cada vez más frecuente en las empresas que desean almacenar los datos en un repositorio extenso e integral.

Los datos sin procesar son aquellos que aún no se han analizado ni tratado con un propósito en particular. Los datos que se encuentran en un lago de datos no se definen hasta que se consultan. Los analistas pueden acceder a los datos sin procesar cuando lo necesiten utilizando herramientas analíticas más avanzadas o modelos predictivos.

Cuando se utiliza este tipo de repositorio, se conservan todos los datos, es decir que no se elimina ni se filtra ninguno antes del almacenamiento, así que se pueden analizar a la brevedad, en el futuro o nunca.También se pueden utilizar los datos varias veces para propósitos diferentes. En cambio, cuando se procesan para un fin en particular, es difícil volver a utilizarlos de otra forma.

James Dixon, el director de tecnología de Pentaho, fue quien acuñó la expresión "lago de datos" para referirse al repositorio que almacena un conjunto de datos en su estado natural, como una masa de agua que no se ha filtrado ni envasado. Los datos fluyen desde varias fuentes hacia el lago y se almacenan en su formato original.

Los datos de un lago solo se transforman cuando es necesario analizarlos: se aplica un "esquema de lectura", que debe su nombre al hecho de que los datos no se procesan hasta que estén listos para utilizarse.

Los usuarios pueden acceder a los datos y analizarlos como deseen, sin tener que trasladarlos a otro sistema. Por lo general, la información y los informes que se obtienen de un lago de datos se generan según se requiera, en lugar de extraer un informe analítico de otra plataforma u otro tipo de repositorio de datos de manera regular. Sin embargo, los usuarios podrían aplicar el esquema y la automatización para posibilitar la duplicación de un informe, en caso de ser necesario.

Los lagos requieren control y mantenimiento constante para permitir el uso de los datos y el acceso a ellos. Sin el mantenimiento, se corre el riesgo de que se vuelvan inaccesibles, difíciles de manejar, costosos e inútiles. Los lagos de datos a los que los usuarios no pueden acceder se denominan "pantanos de datos".

Obtenga más información sobre el almacenamiento de los datos

Si bien ambos términos suelen confundirse, los lagos de datos y los almacenes de datos no son iguales y se utilizan para distintos propósitos. La única similitud entre ambos es que son repositorios de almacenamiento de datos para el big data. Muchas empresas utilizan ambas soluciones para satisfacer sus necesidades y objetivos específicos.

La principal diferencia entre un almacén y un lago de datos es que el primero ofrece un modelo de datos estructurados diseñado para generar informes, mientras que el segundo almacena datos no estructurados y sin procesar, sin un propósito definido.

Los datos deben procesarse antes de colocarlos en un almacén, así que se debe decidir cuáles se incluirán, lo que se conoce como "esquema de escritura".

Procesar los datos antes de llevarlos al almacén puede ser difícil y requerir mucho tiempo. A veces, se necesitan meses o incluso años, lo cual también impide su recopilación inmediata. En cambio con un lago puede comenzar a recopilar datos de inmediato y decidir qué hacer con ellos en el futuro.

Los analistas de las empresas y las personas que utilizan los sistemas saben de antemano qué datos necesitan para elaborar informes periódicos, así que utilizan los almacenes de datos con mayor frecuencia debido a su estructura. En cambio, los analistas utilizan más el otro tipo de repositorio, ya que realizan investigaciones utilizando los datos, y necesitan aplicarles filtros y análisis más avanzados para que puedan ser de utilidad.

Además, los lagos de datos y los almacenes de datos suelen utilizar diferentes sistemas de hardware para el almacenamiento. Los almacenes de datos pueden ser costosos, mientras que los lagos de datos siguen siendo económicos, pese a su gran tamaño, ya que generalmente utilizan un sistema de hardware básico.

Un lago de datos tiene una arquitectura plana, ya que los datos pueden ser no estructurados, semiestructurados o estructurados, y recopilarse de varias fuentes en toda la empresa. En cambio, en el almacén de datos se guardan en archivos o carpetas. El lago de datos puede estar en las instalaciones o en la nube.

Debido a su arquitectura, se pueden ampliar hasta alcanzar los exabytes, lo cual es importante porque cuando se crean, generalmente no se sabe con antelación el volumen de datos que deberán albergar. Los sistemas tradicionales de almacenamiento de datos no pueden expandirse tanto.

Esta arquitectura representa un beneficio para los analistas, quienes pueden extraer y analizar los datos de toda la empresa, además de compartirlos y realizar referencias cruzadas con ellos, así como los datos heterogéneos pertenecientes a campos diferentes, para plantear preguntas y obtener información nueva. Además, pueden aprovechar el aprendizaje automático y el análisis del big data para examinar los datos que se almacenan en un lago.

A pesar de que los datos no tienen un esquema fijo antes de almacenarlos en los lagos, es importante tener control sobre ellos para evitar que se transformen en un pantano. Se deben etiquetar con metadatos cuando se colocan en el lago, para garantizar el acceso a ellos más adelante.

Gestión mejorada de las aplicaciones de IA/ML

En esta serie de webinars, conocerá la opinión de los especialistas sobre la manera de simplificar la implementación y la gestión del ciclo de vida de las aplicaciones de inteligencia artificial y aprendizaje automático (IA/ML), lo cual le permitirá diseñar y compartir modelos de ML y aplicaciones de IA, así como colaborar con ellos, con mayor rapidez.

Solicite acceso a la serie de webinars

Las soluciones de almacenamiento abiertas y definidas por software de Red Hat le permiten trabajar más, crecer más rápido y tener la tranquilidad de que sus datos se almacenan de forma segura, desde los documentos financieros importantes hasta el contenido multimedia.

Gracias al almacenamiento definido por software, escalable y rentable, puede analizar grandes lagos de datos para obtener una mejor visión de la empresa. Todas las soluciones de almacenamiento definido por software de Red Hat se basan en la tecnología de open source y aprovechan las innovaciones de la comunidad de desarrolladores, partners y clientes. Gracias a ello, usted tendrá un control exacto sobre cómo se formatea y se utiliza su almacenamiento según las cargas de trabajo, las necesidades y los entornos únicos de su empresa.

Conozca las soluciones de almacenamiento con Red Hat

Plataformas

Pruebe y compre

Destacados

Por categoría

Por tipo de empresa

Por cliente

Servicios

Capacitación y certificación

Destacados

Temas

Artículos

Vea también

Para los clientes

Para los partners

Quiénes somos

Open source

Detalles de la empresa

Comunidades

Recomendaciones

Seleccionar idioma

Seleccionar idioma

Gestión mejorada de las aplicaciones de IA/ML

Productos

Artículos relacionados

Contenido adicional

EBOOK

DESCRIPCIÓN GENERAL

INFORME DE ANALISTAS

RESUMEN

PODCAST

Productos

Herramientas

Realice pruebas, compras y ventas

Comunicarse

Acerca de Red Hat

Seleccionar idioma

Red Hat legal and privacy links

Red Hat legal and privacy links