Calidad de la Información

por Jelani Harper


La calidad de la información es fundamental para una gobernanza de datos eficaz. Es tanto la base fundamental como el resultado óptimo de las personas, los protocolos y los procesos necesarios para mantener los sistemas de TI. Su contribución a los procesos basados ​​en datos es inestimable: sin datos de calidad, dicha información es inútil para lograr cualquier objetivo comercial.

Calidad de la Información
Calidad de la Información

Las métricas de calidad de la información más generalizadas incluyen las siguientes:

♦ Integridad: la información de calidad tiene todos los campos completados y no le faltan elementos.

♦ Puntualidad: esta dimensión de la calidad de la información garantiza que los usuarios accedan a los datos más recientes y más significativos temporalmente para las implementaciones.

♦ Singularidad: la información acreditable no contiene duplicaciones costosas que potencialmente oscurezcan su importancia para el uso empresarial.

♦ Precisión: esta métrica se centra en la corrección general de la información, que debe estar libre de errores.

♦ Coherencia: la información de calidad es coherente en la forma en que se representa. Por ejemplo, las fechas que aparecen en formato de seis dígitos para el mes, el día y el año, en ese orden.

♦ Validez: la validez se refiere a la propensión de los datos a ajustarse a requisitos específicos, lo que ayuda a disminuir el potencial de los datos de volverse obsoletos con el tiempo.

♦ Lineage: Lineage proporciona detalles del recorrido de los datos a través de la empresa desde la ingestión o creación inicial. A menudo se encuentra en forma de metadatos, incluye aspectos de transformación y usos previos de conjuntos de datos que ilustran “cómo han evolucionado los datos; cómo ha cambiado con el tiempo ”, explicó Ravi Shankar, vicepresidente senior y CMO de Denodo. 

Según Jean-Michel Franco, director senior de gobernanza de datos de Talend, estas características técnicas “representan las características de los datos que pueden evaluarse para medir la calidad de los datos”, lo que generalmente se juzga por su reducción de riesgos en áreas de cumplimiento normativo. , análisis y ciencia de datos.

No obstante, hay un aspecto de la calidad de la información que está decididamente orientado a los negocios que es menos perceptible, pero mucho más lucrativo para la empresa. Al centrarse en lo que Jitesh Ghai, vicepresidente senior y director general de calidad de datos, seguridad y gobernanza de Informatica, denominó “la lógica empresarial” de la calidad de la información, las organizaciones pueden aumentar drásticamente la funcionalidad de misión crítica, las conversiones y, lo que es más significativo, márgenes de beneficio.

Lógica de negocios

Desde una perspectiva comercial, las facetas técnicas de la calidad de la información identificadas anteriormente son tan efectivas como se relacionen con los objetivos comerciales comunes, como ventas, marketing y otros. Por lo tanto, corresponde a las organizaciones “convertir estas definiciones técnicas amplias y diferentes en una definición comercial común”, observó Shankar. El aspecto técnico de la calidad de la información puede estar relacionado con la adherencia de los datos a la forma en que un negocio específico (con múltiples subsidiarias, como Citi, por ejemplo) está representado en los sistemas de TI. En este caso de uso, se evalúa la presentación de la información en columnas y tablas. Pero cuando se ve a través de la lente de la lógica empresarial, se vuelve necesario “extraer datos de donde están”, señaló Ghai. “Solo estás viendo una entidad comercial, como un contrato”.

Esas reglas, y sus efectos, pueden ser tan básicas como garantizar que los datos iniciales de un contrato estén antes de su fecha de finalización. En otros casos, pueden ser tan profundos como estipular estándares para la integridad de los datos que mejoran significativamente los ingresos por ventas. Ghai citó un caso de uso en el que CVS Pharmacy utilizó “lógica empresarial de calidad de datos para ayudarles a fijar un precio mejor y más preciso para sus medicamentos genéricos recetados. Algunos tenían un precio inferior, otros eran demasiado caros. La calidad de los datos les ayudó a llegar a un punto de elasticidad de precio más óptimo, lo que resultó en un aumento de ingresos de $ 300 millones ”.

Perfilado de datos

Estas ganancias astronómicas de monetización atribuidas a la lógica empresarial de la calidad de la información se derivan de sus dimensiones técnicas. El caso de uso de CVS “se redujo a la integridad en el cálculo de los datos en los que se basaban para fijar el precio de su producto”, explicó Ghai. Aunque existen numerosos medios para influir en la calidad de los datos, casi todos comienzan con la elaboración de perfiles de datos, que produce información estadística sobre los datos. “Necesita conocer el estado de sus datos, la calidad de sus datos, en todas las dimensiones, y eso es lo que está haciendo la creación de perfiles con el descubrimiento”, comentó Ghai. “Una vez que sabes eso, es como una boleta de calificaciones: sabes qué remediar”. La elaboración de perfiles de datos es parte integral del proceso de descubrimiento de datos que genera medidas de calidad de la información, que también incluyen lo siguiente:

♦ Definición de reglas comerciales : los usuarios comerciales deben tener información sobre los estándares específicos aplicados a las diferentes categorías de calidad de la información, como métricas aceptables para la puntualidad o el formato específico que se utilizará para representar ubicaciones, por ejemplo. Shankar citó un caso de uso en el que “algunas personas explican Estados Unidos, pero usted quiere que sea Estados Unidos. Por lo tanto, puede definir las reglas de manera muy específica para estandarizar los datos a un cierto nivel de calidad”.

♦ Aplicar transformaciones de limpieza de datos: una vez que estas definiciones se crean con relevancia para los objetivos comerciales, las organizaciones deben aplicarlas a través de la limpieza de datos en las áreas de los datos que necesitan corrección. La limpieza de datos es el proceso de detectar datos que están por debajo de cierto nivel de calidad y luego eliminarlos o corregirlos, especificó Franco. “Corregir consiste en aplicar las reglas para transformar los datos”.

♦ Medir y monitorear los resultados presentes y futuros: el valor comercial de la calidad de la información es inherentemente numérico, al igual que esta faceta del gobierno de datos en sí. Posteriormente, el paso final es “medir y monitorear para asegurar que con el tiempo su calidad solo aumente; no se degrada ”, explicó Ghai. “Y si se degrada, puede recibir una alerta y continuar con este proceso”.

Mejores prácticas para escalar la calidad

El principal desafío para implementar estos diversos pasos de calidad de datos es hacerlo a escala empresarial en la era de la IA posterior al big data. Cuando los datos estaban contenidos de forma segura en las instalaciones en entornos relacionales tradicionales, los enfoques manuales para la calidad de la información eran suficientes. Hoy, sin embargo, “los datos se están disparando y el número de fuentes está disparando”, dijo Shankar. A raíz de esta inundación masiva de datos y la necesidad de extraer información útil de ellos, han surgido múltiples enfoques para producir información de calidad a escala. Algunos de los más útiles incluyen los siguientes:

♦ Integración de datos: aunque las transformaciones para la calidad de la información son distintas de las de la integración de datos (que generalmente involucran ETL o ELT), no es raro aprovechar el mismo motor para ambos. En este caso, la calidad de los datos se aplica a los datos antes de transformarlos para su integración como parte de un proceso de ingeniería de datos más grande para almacenes de datos o lagos de datos. “Dado que los datos provienen de varios sistemas (ERP, CRM, etc.), mientras incorporamos esos datos, también implementamos un control de calidad de datos para una transformación de la calidad de los datos antes de que lleguen al lago de datos”, Ghai dijo.

♦ Computación cognitiva:Una multitud de enfoques de computación cognitiva son útiles para escalar los controles de calidad de los datos. El aprendizaje automático puede crear reglas a partir de la entrada manual sobre la calidad en sistemas que “presentan una muestra de posibles coincidencias a personas que conocen bien los datos y les preguntan si las posibles coincidencias son verdaderas o falsas”, señaló Franco. Luego, el aprendizaje automático se puede aplicar y ejecutar la comparación en millones de registros de forma automatizada, dijo Franco. En otros casos, las técnicas de computación cognitiva pueden triangular aspectos del proceso de descubrimiento de dominios iniciando la calidad de la información al “escanear lagos de datos y extraer metadatos, las etiquetas sobre las columnas, el esquema”, afirmó Ghai. “También estamos perfilando los datos a escala: estamos perfilando las columnas; los estamos probando de forma inteligente para comprender la forma de los datos. Con IA y ML, ahora podemos realizar un descubrimiento de dominios inteligente. Podemos decirle qué tipo de datos son “.

♦ Centralización: con estos métodos de integración y computación cognitiva, se requiere que los datos se muevan. Con enfoques de centralización que aprovechan las tecnologías de virtualización de datos, los datos pueden permanecer donde estén, en su formato, estructura y modelo de datos originales, mientras se abstraen en una capa centralizada para el acceso empresarial. “Tiene una vista unificada de los datos en toda la empresa, por lo que todos los datos se normalizan, se estandarizan con la mejor calidad y luego están disponibles para cualquier herramienta de consumo”, dijo Shankar.

La capacidad de escalar la calidad de los datos está lejos de ser un tema de interés académico. Franco detalló un caso de uso de marketing en el que un minorista con una base de datos de 10 millones de registros de clientes se dirigía a compradores de 18 a 34 años (una cuarta parte de sus clientes) que vivían dentro de las 5 millas (aproximadamente el 10% de estos adultos jóvenes) de una tienda específica. Con datos impecables, la campaña podría llegar a 250.000 clientes. Pero, si el 20% de los datos de contacto de la lista de correo electrónico no fueran precisos, y si el 50% del atributo de edad no estuviera definido, y el 20% de las direcciones no pudieran estandarizarse para calcular la distancia desde la tienda, solo habría sido posible para llegar a 80.000 clientes, razonó Franco.

La división no estructurada

La perspectiva más desalentadora sobre la avalancha de datos a la que se refirió Shankar es que la mayoría involucra datos no estructurados o, en el mejor de los casos, datos semiestructurados. “En estos días, la explosión de datos está en el lado de los datos no estructurados, y muchas de las herramientas [tradicionales] no funcionan realmente bien desde la perspectiva no estructurada”, dijo Shankar. “Cuando se trata de datos no estructurados, es decir, estructuras XML y documentos de Word, no son tan buenos”.

Al unir la semántica subyacente de los datos, independientemente de la variación en la estructura, el formato o los modelos de datos, con lo que Shankar denominó “una capa semántica unificada”, las organizaciones pueden reforzar la calidad de la información en una multitud de formas que involucran lo siguiente:

♦ Catálogos de datos: las opciones de virtualización están preparadas para trabajar con datos no estructurados porque proporcionan una capa de abstracción que unifica la semántica de diversos tipos de datos al tiempo que permite a las organizaciones ingresar reglas comerciales para estándares de calidad. Para esta funcionalidad es fundamental el papel de un catálogo de datos que ofrece una representación uniforme de datos dispares, ilustra las relaciones entre ellos y contiene su linaje de datos. “Todas las funciones unificadoras expresadas en términos de relaciones se muestran de una manera mucho más gráfica”, dijo Shankar. “El catálogo de datos puede representar eso”.

♦ Gráficos semánticos y modelos de datos comunes:Los gráficos semánticos se buscan cada vez más por su capacidad para alinear datos semiestructurados y no estructurados con datos estructurados. También admiten una serie de funciones para mapear estos datos en un modelo de datos común, que incluye innumerables medidas para implementar transformaciones de calidad de datos. Según el CEO de Lore IO, Digvijay Lamba, el mapeo estandariza los datos en los nombres de columnas y conjuntos de valores, presentando la primera oportunidad para implementar la calidad de la información. Acompañando al proceso de mapeo está la noción de dominar los datos a través de combinaciones y fusiones, lo que también rectifica las diferencias en la representación de los datos. La limpieza de datos se puede aplicar en bibliotecas de transformación aprovechando las reglas de negocio y la computación cognitiva para detectar, por ejemplo, “en qué forma entran las direcciones y qué transformaciones se van a aplicar”, dijo Lamba.

♦ SHACL y validación de datos: Shapes Constraint Language (SHACL) es un medio muy utilitario de validar datos en gráficos semánticos que se adhieren a los estándares universales del Resource Description Framework (RDF). En estos entornos, SHACL es “el estándar para la representación de reglas y datos”, dijo Irene Polikoff, directora ejecutiva de TopQuadrant. Las organizaciones pueden ingresar sus diversas reglas para la calidad de los datos en este mecanismo que las usa como base para la validación de datos. Posteriormente, dijo Polikoff, las organizaciones pueden aprovechar estas reglas de calidad de la información con SHACL definido explícitamente como parte del gráfico de conocimiento, validando así los datos no estructurados tan fácilmente como lo hacen con los datos estructurados.

Monetización de la calidad de los datos

La mala calidad de la información desperdicia recursos monetarios, derrocha el valor subyacente de los datos para la empresa y aumenta significativamente el riesgo en forma de cumplimiento normativo o litigio. Sin embargo, la calidad de la información efectiva mejora sustancialmente las oportunidades de monetización para ventas, marketing, desarrollo de productos y más.

Perfeccionar la lógica empresarial de este elemento básico del gobierno de datos, perfeccionando sus implementaciones técnicas, es fundamental para capitalizar la información derivada de una gestión prudente de datos. Además, transforma una empresa de una basada en la mitigación de riesgos a una optimizada para la rentabilidad.

Fuente: https://www.kmworld.com/Articles/Editorial/Features/The-centerpiece-of-data-governance-Making-information-quality-pay-off-141620.aspx

Deja una respuesta