Inteligencia Artificial

Diferencias entre un lago de datos y un pantano de datos.

A medida que las empresas van recopilando meta-datos de las actividades diarias que realizan, corren el riesgo de estar creando pantanos de datos en lugar de lagos debido a la organización de la información. Ambos son conceptos que se refieren al almacén de datos pero en el caso de los pantanos los datos están desorganizados.

Un lago de datos permite, en cambio, a las empresas recuperar y utilizar los metadatos almacenados para utilizarlos de forma efectiva. Lo cual no es posible realizar si la información no esta correctamente organizada y categorizada para dicha tarea, lo cual puede hacerla extremadamente compleja o incluso imposible.

A continuación comentaremos 5 signos que indican claramente que un lago de datos se ha convertido finalmente en un pantano de datos:

1. Falta de metadatos

Los metadatos son información que describe otros datos. Cuando se usan adecuadamente en un lago de datos, actúan como un sistema de etiquetado que permite a las personas buscar diferentes tipos de datos. Estos metadatos pueden también crear una estructura de almacenamiento en niveles que impide que un lago se convierta en un pantano. Las empresas pueden etiquetar sus metadatos de forma que indiquen la fuente de los mismos o cómo se relaciona el mismo con un evento concreto de la empresa.

También merece la pena utilizar estos metadatos para ayudar a describir los plazos o la antigüedad de los datos. Si una organización por ejemplo creó una etiqueta de metadatos titulada «Formularios de contacto de usuarios de 2019», esos metadatos describirán tanto el tipo como el espacio en el tiempo de esos datos. Algunas otras etiquetas de metadatos son menos específicas como por ejemplo «Twitter«. Aunque incluso en ese caso se pueden utilizar etiquetas adicionales para dicha información, agregando así contexto a los metadatos.

Los pantanos de datos no tienen metaetiquetas. Luego, las personas que acceden a dichos datos se encuentran un escenario problemático en el que saben exactamente el tipo de información que desean encontrar pero no tienen herramientas para hacerlo.

2. Contienen datos irrelevantes

A veces en las empresas hay demasiado entusiasmo con el hecho de que ahora es relativamente fácil recopilar datos, que comienzan a hacerlo sin tener un objetivo claro en mente. Un lago de datos puede convertirse en un pantano de datos cuando las empresas no establecen parámetros sobre los tipos de datos que desean recopilar y con qué finalidad.

Cuando las empresas no pueden o no establecen límites en las cantidades de datos, podrían descubrir que lo que una vez quiso ser un lago de datos bien organizado ahora es un pantano de datos inundado de información que tal vez nunca necesiten. Los silos corporativos pueden agravar el problema común de recopilar datos sin razón.

Es posible que existan discrepancias entre los departamentos sobre qué tipo de datos son mas útiles para una empresa en un momento dado. Por ejemplo, el departamento de marketing probablemente querría un tipo diferente de información que la que más valora el departamento de recursos humanos. Aportar relevancia a los datos y garantizar que vayan a un lago de datos en lugar de a un pantano significa poner a todos en la misma página sobre cuándo, por qué y cómo adquirirlos.

Los responsables de estas decisiones en las empresas también deberían adoptar la recopilación de datos de mentalidades orientadas al futuro. Pero, al hacerlo, deben tener cuidado de no caer en la trampa de recopilar datos «por si acaso». Establecer objetivos claramente definidos sobre el uso de datos ayuda a evitar el exceso de entusiasmo al recopilar la información.

3. Sin gobierno de datos

El gobierno de datos define cómo se deben tratar los datos, quién debe hacerlo, dónde van los datos, cuánto tiempo las empresas retienen la información. El óptimo gobierno de los datos es lo que permite a las organizaciones mantener un alto nivel de calidad de los datos durante todo el ciclo de vida de los mismos. Los pantanos de datos carecen de gobierno de datos.

La ausencia de reglas que estipulen cómo deben manejarse los datos significa que todo se almacena en un solo lugar sin pensar en cómo afecta negativamente dicha práctica a su uso futuro. Una de las ventajas de los sistemas de software líderes que permiten el acceso a la base de datos es que permiten a los usuarios acceder al contenido sin escribir consultas complejas. Dicha facilidad de uso es una característica excelente que hace que el uso de datos sea más sencillo. Pero, la gobernanza de datos implica a su vez controlar quién accede a esa información.

Hacer que la gobernanza de datos sea una prioridad tan pronto como las empresas comiencen a recopilar datos es crucial. Gracias a la gobernanza de datos, los datos tienen una estructura sistemática y principios de gestión aplicados. Entonces, es más fácil usar los datos de formas que aporten valor a la compañía, ajustándose a las necesidades del negocio.

4. No existen tareas de automatización

Si la organización en cuestión no ha considerado la idea de aplicar la automatización para ayudar a mantener un lago de datos, podría convertirse en un pantano antes de que las personas se den cuenta de lo que esta ocurriendo. La automatización se está volviendo cada vez mas crucial para los lagos de datos. Puede hacer cosas como estandarizar las prácticas de uso de datos en todas las plataformas y procesar todos los datos «sin procesar» de la misma forma.

Sin embargo, incorporar la automatización a la ecuación no disculpa a los líderes de la compañía de urdir un plan sobre cómo usar los datos. Primero deben resolver ese aspecto y luego descubrir cómo la automatización puede ayudarlos a alcanzar los objetivos identificados.

5. Falta de una estrategia de limpieza de datos

Ninguna empresa tiene la intención de hacer un pantano de datos. El problema es que los lagos de datos pueden deteriorarse y convertirse en pantanos de datos a menos que las empresas hagan y cumplan con los planes para limpiar sus datos, será difícil para los líderes de la empresa o las partes interesadas confiar en la información.

Y, los datos sucios pueden hacer que las empresas lleguen a conclusiones incorrectas. Entonces, los datos contribuyen a la mala toma de decisiones. Peor aún, podrían pasar años o incluso meses antes de que alguien se dé cuenta de que los datos no eran tan precisos como parecía, si es que alguna vez lo hacen. Construir una estrategia de gobernanza de datos como se sugirió anteriormente debería reducir muchos problemas de calidad de datos.

Pero, las empresas también deben ir un paso mas allá y decidir qué cosas específicas deben hacer regularmente para mantener limpio el lago de datos. Los datos se vuelven turbios sin ese tipo de previsión. La gente rápidamente se siente abrumada por la idea de intentar restablecer el orden en un lago de datos previamente prístino que se transformó en un pantano. Priorizar la limpieza de los datos evita problemas y hace que la información sea de máxima utilidad.

Puede evitar las molestias de un pantano de datos.

Con estos cinco básicos puntos describimos las características comunes de los pantanos de datos, pero también proporcionamos formas de evitar los problemas que podrían crearlos. Un lago de datos permite un acceso directo a datos significativos.

Con estas directrices en mente podremos reconocer las razones por las cuales un lago podría convertirse en un pantano y así poder evitarlo.

Software developer and self-taught computer security.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *