Un catálogo de datos de aprendizaje automático puede beneficiar a una empresa de diversas formas, desde aumentar el acceso a los datos necesarios hasta mantener sus fuentes de datos actualizadas.
por Andy Hayler
La frase “los datos son un activo” es una especie de cliché corporativo. Sin embargo, es cada vez más cierto a medida que las empresas de industria tras industria se someten a programas para digitalizar sus negocios.
Es obvio que Netflix es un negocio altamente digital con datos en su corazón, pero ¿qué pasa con empresas más prácticas como la fabricación o la energía? Incluso en la industria petrolera , en estos días se habla del campo petrolero digital, donde se capturan y analizan grandes cantidades de datos de sensores sobre la operación de una plataforma petrolera para que la producción del campo se pueda ajustar en tiempo real.
Sin embargo, para extraer valor de sus datos, primero debe saber qué tiene y dónde está, y este punto de partida aparentemente obvio es un obstáculo importante en una gran corporación. Una empresa global tendrá muchas aplicaciones independientes con datos sobre finanzas , ventas, recursos humanos, producción, distribución, marketing y cualquier número de temas específicos de la industria. Los datos sobre un tema, como clientes o productos, surgen en muchos sistemas, a veces en diferentes formas y no siempre de manera consistente.
Idealmente, habría un lugar que enumerara todas las aplicaciones, qué datos se almacenan en qué aplicaciones y cómo se vinculan entre sí: una especie de mapa del tesoro de sus datos corporativos. Una buena analogía para esta configuración sería un índice de libros en una biblioteca: un lugar que documente qué libros hay en la biblioteca, el autor y el editor, dónde encontrarlos e incluso quién ha prestado qué libros. Sin embargo, construir un catálogo de este laberinto de datos es un problema espinoso y de larga data.
Trabajé por primera vez en un proyecto de catálogo de datos en 1984 cuando trabajaba en Exxon, documentando aplicaciones y sistemas en lo que ahora parece un antiguo software de IBM. Treinta y seis años después, IBM todavía está en el negocio del catálogo de datos y, a lo largo de los años, se han desarrollado muchos productos rivales para abordar el mismo problema. El mercado de los catálogos de datos sigue siendo un asunto de nicho, y todo el mercado vale unos insignificantes 200 millones de dólares, según el informe de analista que lea.
El desafío de los catálogos de datos
El problema clave con los catálogos de datos sigue siendo el mismo que encontré en 1984: mantener actualizado el desdichado. Tan pronto como documente las aplicaciones, quién las posee y qué datos tienen, surgen nuevos sistemas en la empresa. A veces, los datos clave provienen de terceros y no están bajo su control y, a veces, obtiene hosts de nuevos sistemas cuando su empresa adquiere o se fusiona con otra.
Quien esté a cargo del catálogo de datos tiene una tarea ingrata. Las personas que ejecutan proyectos que instalan nuevos sistemas generalmente no tienen ningún incentivo para decirle al equipo del catálogo de datos lo que están haciendo, por lo que inevitablemente queda desactualizado. Cuando los usuarios comerciales consultan el catálogo de datos y descubren que no tiene una lista actualizada de activos de datos, comienzan a desconfiar de él y van a otra parte para encontrar lo que necesitan. A medida que esto sucede, el catálogo de datos se usa menos, se actualiza con menos precisión y se vuelve aún menos confiable en un círculo vicioso de negligencia.
¿Qué es un catálogo de datos de aprendizaje automático?
En los últimos años, algunos proveedores han adaptado técnicas para automatizar catálogos de datos con aprendizaje automático. Así como Google tiene herramientas que combinan la web e indexan lo que existe, un catálogo de datos de aprendizaje automático está conectado a los numerosos sistemas de origen que tiene una corporación.
Un catálogo de datos de aprendizaje automático rastrea e indexa los activos de datos almacenados en bases de datos corporativas y archivos de big data, ingiriendo metadatos técnicos, descripciones comerciales y más, y los cataloga automáticamente.
Este proceso es continuo y no un proyecto aislado. Siempre que el software del catálogo de datos tenga acceso a las diversas bases de datos y archivos de la corporación, puede volver a visitar los metadatos almacenados en la empresa de forma regular, al igual que Google encuentra sitios web recién creados y los indexa.
Beneficios de un catálogo de datos de aprendizaje automático
Los mejores catálogos de datos de aprendizaje automático tienen conectores prediseñados para los metadatos de los principales proveedores de bases de datos, lo que hace que el proceso de indexación sea razonablemente eficiente. A menudo tienen interfaces de usuario intuitivas , lo que permite a los usuarios comerciales hacer preguntas sobre empresas en lenguaje natural, en lugar de lo que harían con una búsqueda de Google, por ejemplo, “¿Dónde están los datos de ingresos por ventas del año pasado?”
Esta aplicación de aprendizaje automático y automatización ofrece una esperanza genuina de que el mayor desafío de mantener actualizados los catálogos de datos sea finalmente un problema que pueda abordarse.
Proveedores líderes
Los proveedores en el mercado del catálogo de datos de aprendizaje automático incluyen Alation , Unifi y Cambridge Semantics. También hay capacidades de catálogo automatizadas de varios otros proveedores, incluidos Infogix, Collibra, Informatica, Oracle e IBM.
Desafíos de un catálogo de datos de aprendizaje automático
Los proveedores todavía tienen problemas con los que lidiar. En 1984, los datos corporativos estaban perfectamente guardados en los mainframes corporativos de un centro de datos. Ahora, cantidades cada vez mayores de datos corporativos clave se almacenan en bases de datos en la nube o configuraciones híbridas. El software de catálogo de datos de aprendizaje automático tiene que realizar un seguimiento de los datos corporativos en la nube, así como de los lagos de datos, no solo dentro de las bases de datos relacionales corporativas relativamente bien entendidas.
No obstante, el desarrollo de catálogos de datos de aprendizaje automático tiene el potencial de resolver un problema que ha persistido durante décadas y finalmente cumplir la promesa que los catálogos de datos han prometido durante mucho tiempo.