Sin linaje de datos, realmente no conoce sus datos.

por Scott Clark

A medida que las empresas se basan más en los datos, comprender de dónde provienen los datos, cómo se mueven y cómo cambian ya no es opcional: es esencial, especialmente cuando se usa junto con la IA. Ahí es donde entra en juego el linaje de datos.

El linaje de datos es el proceso de seguimiento de datos a medida que fluyen a través de varios sistemas, ofreciendo visibilidad de su origen, movimiento, uso y cambios. Ya sea que esté garantizando el cumplimiento normativo, depurando canalizaciones rotas o generando confianza en los modelos de IA, el linaje de datos proporciona la transparencia y la trazabilidad necesarias para administrar de manera efectiva los ecosistemas de datos modernos.

¿Qué es el linaje de datos?

El linaje de datos es un registro detallado de dónde provienen los datos, cómo se mueven a través de los sistemas y cómo cambian en el camino. En esencia, es el mapa basado en metadatos que rastrea el viaje de un activo de datos, desde su punto de origen hasta su uso final en cosas como informes, análisis, modelos de aprendizaje automático o divulgaciones regulatorias.

Como lo explicó Xavier de Boisredon, director de operaciones de Castor: “El linaje de datos es como un árbol genealógico pero para datos”.

Los cuatro elementos del linaje de datos: origen, movimiento, transformaciones, dependencias
Grupo de medios más simple

El proceso de linaje de datos captura cuatro elementos clave:

  • Origen: dónde se crearon o ingirieron los datos
  • Movimiento: los sistemas por los que fluye
  • Transformaciones: cómo se filtra, agrupa o cambia
  • Dependencias: qué sistemas ascendentes o descendentes dependen de él

El papel del linaje de datos en los ecosistemas de datos modernos

En las arquitecturas de datos modernas, donde los datos pueden pasar a través de docenas de canalizaciones, aplicaciones y entornos, el linaje proporciona una capa crucial de transparencia de datos, haciendo que los datos estén fácilmente disponibles, sean claramente interpretables y procesables para las partes interesadas, lo que genera una mayor confianza.

El linaje de datos ayuda a los equipos a responder preguntas vitales como:

  • ¿De dónde vino este número?
  • ¿Se ha transformado este campo?
  • ¿Sigue siendo confiable esta métrica?

Más allá de la depuración y el control de calidad, el linaje de datos juega un papel fundamental en el cumplimiento, la gobernanza y la confianza. Ayuda a las empresas a cumplir con regulaciones como GDPR o HIPAA al mostrar quién accedió a qué datos, cuándo y con qué propósito. Y a medida que las empresas aumentan sus esfuerzos de análisis e inteligencia artificial, conocer el contexto completo detrás de un conjunto de datos es esencial para mantener la integridad y la responsabilidad de los datos.

Por qué es importante el linaje de datos

El linaje de datos es una necesidad estratégica para las empresas que dependen de datos precisos y confiables para tomar decisiones críticas. Al rastrear el origen, el movimiento y la transformación de los datos en todos los sistemas, el linaje permite la transparencia en cada paso del ciclo de vida de los datos.

Esta visibilidad respalda una amplia gama de necesidades comerciales y regulatorias, incluida la garantía de calidad de los datos, la eficiencia operativa, el cumplimiento de GDPR / CCPA y la confiabilidad del modelo de IA.

Valor comercial del linaje de datos

Caso de usoCómo ayuda el linaje de datos
Depuración de canalizaciones de datosRastrea rápidamente los errores hasta las causas raíz y reduce el tiempo de inactividad del sistema
Cumplimiento normativoProporciona trazabilidad para cumplir con los requisitos de auditoría de GDPR, HIPAA y CCPA
Garantía de calidad de datosMuestra el historial de transformación y ayuda a validar métricas confiables
Desarrollo responsable de la IAAdmite pistas de auditoría, rastreo de sesgos y explicabilidad en el entrenamiento de modelos
Toma de decisiones ejecutivasProporciona transparencia detrás de los KPI e informes para informar la estrategia

Principales casos de uso de linaje de datos

Reparación de canalizaciones de datos rotas

Uno de los casos de uso más comunes es la depuración de canalizaciones de datos rotas. Cuando los paneles se oscurecen o las métricas caen repentinamente, el linaje ayuda a los equipos a identificar rápidamente dónde ocurrió el problema. En lugar de peinar los sistemas manualmente, los equipos de datos pueden rastrear el flujo de datos en minutos, lo que reduce el tiempo de inactividad y mejora la capacidad de respuesta.

Mantenimiento del cumplimiento normativo

El linaje de datos también juega un papel central en el cumplimiento normativo. Regulaciones como GDPR, HIPAA, la Ley de IA de la UE, las leyes estatales de IA y más requieren que las empresas demuestren cómo se recopilan, almacenan y utilizan los datos personales. El linaje de datos proporciona la trazabilidad necesaria para auditorías internas o reguladores externos. Cuando se combina con controles de acceso basados en roles y clasificación de datos, se convierte en una herramienta poderosa para hacer cumplir la gobernanza de datos.

Mejorar la calidad y la confianza de los datos

El linaje de datos mejora la calidad y la confianza de los datos en general. Al mostrar el historial completo de un conjunto de datos (qué contiene, de dónde proviene, cómo se alteró), los equipos pueden validar su integridad antes de confiar en él para informes o modelos.

Esto es particularmente importante en entornos donde varias partes interesadas tocan los mismos datos, como en grandes empresas o equipos de datos federados. Este modelo descentralizado promueve la agilidad y la propiedad específica del dominio, al tiempo que mantiene la coherencia a través de estándares y herramientas centralizados.

Aumentar la integridad y evitar riesgos

En sectores regulados como la atención médica, comprender cómo se recopilan, almacenan y utilizan los datos es crucial no solo para el cumplimiento, sino también para la integridad clínica y la mitigación de riesgos.

Kyle Sobko, CEO de SonderCare, una empresa que trabaja regularmente con datos personales confidenciales, nos dijo que el linaje de datos le da a su empresa cierta visibilidad sobre el flujo de todos sus datos (a veces denominado “procedencia de datos”). “Establece si la información que aprovechamos para las decisiones de atención es adecuada para su propósito y nos da la confianza de que existe un historial completo vinculado a la información con la que actuamos”.

Desarrollar IA de manera responsable

El linaje también es fundamental para el desarrollo responsable de la IA. A medida que madura la gobernanza de la IA, las empresas necesitan registros de auditoría que muestren no solo cómo se entrenó un modelo, sino también qué datos se utilizaron y por qué. El linaje ayuda a identificar posibles fuentes de sesgo, garantiza la transparencia en la toma de decisiones y proporciona el tipo de documentación que los marcos regulatorios requerirán cada vez más.

“La sabiduría convencional es que la IA necesita ser gobernada, y un elemento importante de eso es comprender los datos con los que se entrena y produce”, dijo John Wills, fundador y director de Prentice Gate Advisors. “Estoy de acuerdo al 100%. El linaje de datos debe desempeñar un papel esencial en el gobierno de la IA”.

Mejora del análisis y la toma de decisiones

El linaje de datos mejora el análisis y la toma de decisiones comerciales al dar contexto a los números. En lugar de tratar los informes como resultados estáticos, los responsables de la toma de decisiones pueden comprender las suposiciones, las fuentes y la lógica detrás de los conocimientos. Esto reduce la dependencia de las conjeturas, acelera la resolución de problemas y genera confianza organizacional en las decisiones basadas en datos. Además, el linaje de datos convierte los datos de una caja negra en un activo claro y rastreable, algo en lo que las empresas modernas pueden confiar, auditar y actuar.

Aumentar el valor comercial

Más importante aún, el linaje de datos no es solo una preocupación técnica, sino que tiene implicaciones financieras. Sin integridad de datos, las herramientas de IA corren el riesgo de fallar y la toma de decisiones se ve afectada. La investigación muestra que las empresas que priorizan la gestión estructurada de la información obtienen ventajas de ingresos medibles.

Swami Jayaraman, vicepresidente sénior y arquitecto empresarial jefe de Iron Mountain, dijo que las fallas de datos pueden tener amplias implicaciones y amenazar el potencial de las herramientas de IA, e incluso afectar los resultados de una empresa. J

“Se descubrió que las empresas que obtuvieron los mejores resultados en nuestro estudio tenían muchas más probabilidades de tener controles y equilibrios de integridad de datos, especialmente en tres áreas críticas: eliminar datos redundantes, obsoletos o triviales (ROT); automatizar la extracción de datos; y cifrar datos e instalar sistemas de seguridad”, dijo Jayaraman.

Tipos de linaje de datos

Diagrama de flujo que ilustra los tres tipos de linaje de datos: el linaje empresarial muestra el movimiento de datos de alto nivel entre departamentos; el linaje técnico detalla los flujos y transformaciones de datos de sistema a sistema; El linaje operativo realiza un seguimiento de la actividad y el rendimiento de las tuberías en tiempo real.

El linaje de datos se puede documentar y visualizar en múltiples niveles de abstracción, según la audiencia y el caso de uso. En términos generales, se divide en tres categorías:

  1. Linaje empresarial
  2. Linaje técnico
  3. Linaje operativo.

Cada uno juega un papel distinto para ayudar a las empresas a comprender y administrar el flujo de datos.

Tipos de linaje de datos y su propósito

Tipo de linajeÁrea de enfoqueUsuarios principales
Linaje de negociosVista de alto nivel de datos en todos los departamentos e informesEjecutivos, auditores, equipos de cumplimiento
Linaje técnicoSeguimiento detallado de datos a través de canalizaciones y transformacionesIngenieros de datos, arquitectos, analistas
Linaje operativoSeguimiento en tiempo real del movimiento de datos para la observabilidadSRE, DevOps, equipos de operaciones de datos

Linaje de negocios

El linaje empresarial proporciona una visión de alto nivel y amigable para las partes interesadas del movimiento de datos entre departamentos y sistemas. Se centra en el qué y el por qué de los datos, mostrando cómo se deriva una métrica, un informe o un objeto de negocio concreto de fuentes ascendentes. Este tipo de linaje está diseñado para usuarios no técnicos que necesitan comprender de dónde provienen los datos críticos para el negocio sin perderse en los detalles de la infraestructura.

Linaje técnico

El linaje técnico profundiza en el cómo. Rastrea el flujo exacto de datos a través de sistemas, tablas, scripts y transformaciones, desde el origen hasta el destino. Esta versión es utilizada a menudo por ingenieros y científicos de datos que necesitan realizar un seguimiento de las dependencias, validar la lógica de los datos y comprender el comportamiento del sistema. Los diagramas de linaje técnico a menudo incluyen flujos de metadatos, cambios de esquema, procesos ETL e información de control de versiones.

Linaje operativo

El linaje operativo ofrece una vista en tiempo real o casi en tiempo real de cómo se mueven los datos a través de los sistemas en vivo. Este tipo de linaje es invaluable para la resolución de problemas y el monitoreo, ya que ayuda a los equipos de datos a identificar canalizaciones fallidas, cuellos de botella de rendimiento o anomalías inesperadas a medida que ocurren. Responde preguntas como:

  • ¿La canalización de datos se está ejecutando como se esperaba en este momento?
  • ¿Se actualizó este conjunto de datos?

El linaje operativo suele estar integrado en plataformas de observabilidad o paneles de monitoreo.

Cada uno de estos tipos de linaje desempeña un papel en la creación de una imagen completa del flujo de datos. Un programa de gobernanza de datos bien integrado a menudo combina los tres, superponiéndolos según las necesidades de las partes interesadas.

Cómo funciona el linaje de datos: técnicas, modos y canalizaciones clave

En esencia, el linaje de datos responde a la pregunta: ¿De dónde provienen estos datos y cómo llegaron aquí? Para hacer eso, las herramientas de linaje se basan en una combinación de técnicas, modos y canalizaciones.

4 Técnicas de linaje de datos

Técnica de linaje de datosCómo funciona
Escaneo de metadatosExtrae información a nivel de esquema, tabla y columna de bases de datos, almacenes y herramientas de BI
Análisis de códigoAnaliza scripts SQL, Python o ETL para mapear cómo se transforman los datos en los flujos de trabajo
Etiquetado de datosAgrega identificadores únicos a los conjuntos de datos, lo que permite rastrear su movimiento desde el origen hasta el destino
Análisis de registrosUtiliza registros de plataformas de datos (por ejemplo, Apache Spark, dbt, Airflow) para reconstruir la ruta real que tomaron los datos a través de las canalizaciones

2 modos de linaje de datos

Además, las herramientas de linaje suelen funcionar en uno de estos dos modos:

  • El linaje pasivo recopila información mediante el escaneo de activos y registros existentes. Es de baja sobrecarga y más fácil de implementar, pero es posible que no siempre refleje cambios en tiempo real o casos extremos.
  • El linaje activo incorpora el seguimiento en la canalización de datos, capturando transformaciones y eventos a medida que ocurren. Esto proporciona información más precisa y granular, especialmente en entornos donde los datos cambian constantemente, pero a menudo requiere una integración más profunda.

2 Canalizaciones de linaje de datos

El linaje se aplica de forma diferente en función de si los datos se mueven por lotes o en tiempo real:

  • En las canalizaciones por lotes, el linaje suele basarse en eventos, capturando instantáneas de cómo fluyen y transforman los datos a intervalos programados.
  • En las canalizaciones de streaming en tiempo real, el linaje debe realizar un seguimiento de los cambios de alta frecuencia, lo que requiere soporte especializado para flujos de eventos, agentes de mensajes o marcos de procesamiento incremental.

El linaje de datos moderno rara vez es una función independiente. Está cada vez más integrado en plataformas de gobernanza de datos y herramientas de orquestación más amplias. Estas herramientas permiten a los equipos visualizar el linaje junto con las métricas de calidad de los datos, los patrones de uso y los controles de acceso.

Herramientas de linaje de datos

A medida que los ecosistemas de datos se vuelven más complejos, han surgido herramientas especialmente diseñadas para automatizar y escalar el seguimiento del linaje en todos los entornos. Estas plataformas varían en enfoque, pero todas tienen como objetivo proporcionar visibilidad sobre cómo los datos se mueven, transforman e impactan en los procesos posteriores.

Herramientas de código abierto y para desarrolladores

  • Linaje abiertoSe centra en la interoperabilidad y el seguimiento de metadatos en tiempo real. Se integra con herramientas de orquestación como Apache Airflow y dbt (herramienta de compilación de datos) para capturar eventos de linaje de forma nativa.
  • Márquez: Basado en OpenLineage, Márquez proporciona un servicio de metadatos centralizado para capturar y visualizar el linaje. Es ideal para equipos de ingeniería de datos que buscan agregar observabilidad a sus canalizaciones sin comprometerse con una plataforma comercial.

Soluciones de linaje nativas de la plataforma

  • Catálogo de Databricks UnityDiseñado para el ecosistema de Databricks Lakehouse, incluye un seguimiento de linaje nativo en cuadernos, trabajos y tablas de Delta Lake. Admite controles de acceso detallados y se integra con flujos de trabajo de gobernanza.
  • Apache Atlas: A menudo utilizado en entornos Hadoop y Hive, Atlas proporciona una gestión escalable de linaje, clasificación y metadatos. Se implementa comúnmente en grandes empresas con infraestructura de big data existente.

Plataformas de gobernanza de datos empresariales

  • Informatica: Conocida por sus completas capacidades de gestión de datos, Informatica ofrece seguimiento de linaje automatizado, aplicación de políticas e informes de auditoría en entornos de nube híbrida.
  • Collibra: Combina la catalogación de datos con visualizaciones detalladas del linaje. Los equipos de gobernanza lo utilizan ampliamente para respaldar el cumplimiento y la administración de datos.
  • Alación: Se centra en los metadatos activos y la capacidad de búsqueda, con características de linaje que se vinculan a casos de uso de descubrimiento y colaboración más amplios.
  • MontecarloAunque se posiciona principalmente como una herramienta de observabilidad de datos, Monte Carlo ofrece linaje automatizado como parte de su pila más amplia, ayudando a los equipos a rastrear los incidentes hasta las causas raíz en tiempo real.

Qué buscar en una herramienta de linaje de datos

La elección de la tecnología de linaje adecuada depende de las prioridades de los equipos de una empresa, ya sea la observabilidad del desarrollador, la preparación para auditorías, la confianza en la inteligencia empresarial o el cumplimiento normativo.

Al evaluar las plataformas de linaje, tenga en cuenta lo siguiente:

  • Escalabilidad: ¿Puede la herramienta manejar entornos complejos de múltiples nubes con miles de canalizaciones y activos de datos?
  • Integración: ¿Se conecta con la pila existente: almacenes de datos, herramientas ETL, sistemas de orquestación, catálogos y plataformas de BI?
  • Visualización: ¿Puede sacar a la luz el linaje de una manera que tenga sentido tanto para los usuarios técnicos como para las partes interesadas del negocio?
  • Acceso y extensibilidad de la API: ¿Ofrece API abiertas para integraciones personalizadas o incrusta datos de linaje en paneles internos o portales de gobernanza?

Las soluciones más efectivas a menudo combinan múltiples herramientas, lo que permite a las empresas personalizar las capacidades de linaje según su arquitectura y nivel de madurez.

Principales desafíos en la implementación del linaje de datos

Si bien los beneficios del linaje de datos son claros, implementarlo a escala está lejos de ser sencillo. Muchas empresas se enfrentan a desafíos del mundo real, tanto técnicos como organizativos, que pueden obstaculizar la adopción y limitar el impacto si no se abordan a tiempo.

Escala y complejidad

Los matices de implementar el linaje de datos en arquitecturas complejas pueden ser difíciles, dijo Sobko. “Obviamente, las instalaciones y la nube con problemas de privacidad van a ser más difíciles que solo la nube, etc.”

Al crear visibilidad de los datos en todas las plataformas de su empresa, Sobko dijo que se necesitaba un pensamiento sustancialmente más centrado para ser coherente. “Me di cuenta de que la combinación de capacidades de procesamiento de linaje de datos con herramientas de observabilidad aumenta la gobernanza y genera una confianza respetable en IA / ML, etc.” Las herramientas que crean una hoja de ruta visual de los flujos de datos, y se actualizan automáticamente, les permitieron administrar su escalado y complejidad.

Mapas de linaje fragmentados

Los ecosistemas de datos actuales rara vez están centralizados. La mayoría de las empresas operan en una combinación de plataformas en la nube, sistemas locales, bases de datos heredadas y herramientas SaaS de terceros. La captura del linaje en esta pila fragmentada requiere la integración de múltiples fuentes, a menudo con estándares de metadatos inconsistentes o restricciones de acceso. El resultado es que los mapas de linaje suelen estar incompletos o sesgados hacia sistemas específicos.

Metadatos poco confiables

El linaje depende de los metadatos, pero no todos los sistemas lo generan de manera consistente o con el nivel requerido de granularidad. En algunos casos, las transformaciones críticas se producen en código personalizado u hojas de cálculo que quedan fuera de las canalizaciones de datos tradicionales. Sin una captura de metadatos confiable, los diagramas de linaje pueden volverse irregulares o engañosos, erosionando la confianza en el sistema.

“En entornos complejos o híbridos, unir el linaje de sistemas dispares, a menudo propietarios (aplicaciones locales, multinube, SaaS) se convierte en una pesadilla manual que requiere muchos recursos sin una estrategia coherente para la integración y los metadatos unificados”, dijo Andrey Meshcheryakov Alexa, consultor senior de la firma de estrategia de datos Recombinators.

Conclusión final: el linaje ahora es crítico para el negocio

El linaje de datos es un elemento fundamental de las operaciones de datos confiables, compatibles y escalables. Si bien la implementación no está exenta de desafíos, la capacidad de rastrear los flujos de datos a través de sistemas complejos ahora es fundamental para el análisis, la preparación regulatoria y la gobernanza de la IA. Las empresas que incorporan el linaje en su estrategia de datos hoy estarán mejor equipadas para administrar el riesgo y ganar una confianza duradera en sus datos.

Preguntas comunes sobre el linaje de datos

¿Cuál es la diferencia entre linaje de datos y procedencia de datos?

Los términos a menudo se usan indistintamente, pero hay una diferencia: la procedencia se centra en el origen de los datos (dónde se crearon y cómo han evolucionado), mientras que el linaje rastrea todo el viaje, incluido el origen, el movimiento, las transformaciones y las dependencias.

La procedencia es un subconjunto del linaje, no un reemplazo.

¿El linaje de datos requiere IA o aprendizaje automático para funcionar?

No necesariamente. La mayoría de las herramientas de linaje se basan en el escaneo de metadatos, el análisis de código o el análisis de registros, no en la IA. Sin embargo, las plataformas más nuevas están comenzando a usar IA para sugerir enlaces de linaje faltantes y predecir impactos posteriores cuando algo se rompe.

¿Cómo utilizan las empresas el linaje de datos?

Las empresas utilizan el linaje de datos para:

Admite mejores informes, reduce el tiempo de inactividad, mejora la confianza y ayuda a la gobernanza responsable de datos en entornos de nube híbrida.

¿Puede el linaje de datos ayudar a reducir los costos de almacenamiento o en la nube?

Sí. Al exponer datos redundantes, conjuntos de datos no utilizados o canalizaciones abandonadas, el linaje ayuda a los equipos a eliminar los datos ROT (redundantes, obsoletos, triviales) y a desactivar los flujos de trabajo que ya no son necesarios. Muchas empresas utilizan el linaje para ajustar el gasto en la nube al comprender qué sistemas e informes dependen realmente de un conjunto de datos.

Sobre el autor

Scott Clark

Scott Clark is a seasoned journalist based in Columbus, Ohio, who has made a name for himself covering the ever-evolving landscape of customer experience, marketing and technology. He has over 20 years of experience covering Information Technology and 27 years as a web developer. His coverage ranges across customer experience, AI, social media marketing, voice of customer, diversity & inclusion and more. Scott is a strong advocate for customer experience and corporate responsibility, bringing together statistics, facts, and insights from leading thought leaders to provide informative and thought-provoking articles.

Fuente: https://www.vktr.com/information-management/data-lineage-explained-how-to-build-trustworthy-compliant-reliable-data/

Deja una respuesta