La ingeniería de datos es el héroe anónimo de la IA. Un nuevo estudio demuestra que es crucial para el éxito; sin embargo, la mayoría de los equipos carecen de personal y financiación suficientes.

por Myles Suer


Convertirse en una organización impulsada por IA se basa en datos, lo que convierte a la ingeniería de datos en una disciplina crucial. La ingeniería de datos abarca un conjunto de buenas prácticas y tecnologías para desarrollar flujos de trabajo y canales de datos diseñados que conectan las infraestructuras de datos operativos y analíticos. Esto incluye la orquestación, integración y transformación de datos, garantizando que los datos sean fáciles de usar en toda la organización.

Sin embargo, como destacan los autores de ” Rewired “, el acceso y la preparación de los datos sigue siendo un gran desafío para muchas empresas establecidas, y hasta el 70% de los esfuerzos de desarrollo de IA se dedican a ordenar y armonizar datos.

Una ingeniería de datos eficaz empieza por identificar los datos adecuados para las soluciones digitales. Esto implica priorizar los dominios de datos (grupos de datos relacionados que respaldan la gobernanza y la arquitectura) y desarrollar productos de datos reutilizables que ayuden a los equipos a abordar retos empresariales específicos. Para garantizar que estos datos sean fiables y procesables, los ingenieros de datos deben evaluar su disponibilidad en función de factores clave como:

  • Exactitud
  • Oportunidad
  • Consistencia
  • Seguridad

Con esto en mano, la arquitectura de datos actúa como un sistema de tuberías que dirige el flujo de datos desde las fuentes hasta la ingesta, el almacenamiento, el procesamiento y el consumo.

Las organizaciones deben considerar ahora marcos arquitectónicos modernos como lagos de datos nativos de la nube, almacenes, modelos de casas de lago, malla de datos y tejido de datos para gestionar los datos eficazmente. A medida que crece la adopción de la IA, es fundamental mantenerse informado sobre los últimos avances en ingeniería de datos. Entonces, ¿qué revelan las últimas investigaciones sobre el estado de la ingeniería de datos? Analicemos los hallazgos.

La ingeniería de datos es una prioridad en la sala de juntas

Estudios recientes subrayan la creciente importancia de la ingeniería de datos, ya que más del 90 % de las organizaciones reconocen su relevancia. Cabe destacar que el 80 % la clasifica como crítica o muy importante, un aumento considerable con respecto a 2023 y 2024. Esta tendencia al alza destaca el papel cada vez más importante de la ingeniería de datos para impulsar el éxito empresarial.

La importancia percibida de la ingeniería de datos es especialmente pronunciada en sectores con capacidades analíticas consolidadas, como la manufactura, la atención médica, los servicios financieros y la tecnología. Además, las organizaciones que han tenido más éxito en el aprovechamiento de los datos la consideran aún más esencial.

Dentro del área de ciencia de datos, el consenso es unánime: el 100 % considera la ingeniería de datos crucial, lo que refuerza su papel fundamental para facilitar el análisis avanzado y la información basada en IA. Esto es algo que los directores ejecutivos deberían tener en cuenta.

Cómo la ingeniería de datos aporta valor

La ingeniería de datos desempeña un papel crucial en las organizaciones modernas, ya que facilita una amplia gama de flujos de trabajo esenciales para el análisis y las operaciones. Respalda los procesos de integración, limpieza y transformación de datos para almacenes de datos, a la vez que garantiza un flujo fluido de datos entre los sistemas operativos. Además, la ingeniería de datos facilita consultas ad hoc, el descubrimiento y el análisis exploratorio al proporcionar servicios robustos de integración y transformación. La gestión y entrega de datos maestros es otra función clave, que garantiza la consistencia y la precisión en todos los sistemas empresariales.

Más allá de la gestión de datos fundamental , la ingeniería de datos es crucial para casos de uso de analítica avanzada, como la ciencia de datos, la analítica aumentada y el modelado predictivo y prescriptivo. También facilita la reestructuración o replicación de almacenes de datos existentes y facilita la migración fluida de datos a nuevos sistemas, ya sea por la adopción de la nube, la consolidación de sistemas o las iniciativas de modernización. Asimismo, la ingeniería de datos permite el intercambio externo de datos, incluyendo la extracción y entrega de datos a sistemas o a terceros.

Las organizaciones incorporan cada vez más enriquecimiento de datos de terceros en sus flujos de trabajo de ingeniería de datos, mejorando el valor de sus datos internos para obtener información y una toma de decisiones más integrales.

Según Bill Hostmann, vicepresidente e investigador de Dresner Advisory Services , el caso de uso predominante que impulsa las inversiones en ingeniería de datos sigue siendo “como parte de los flujos de trabajo de integración, limpieza y transformación de datos para un almacén de datos que respalda paneles e informes”, pero un caso de uso secundario y también importante es “los servicios de integración y transformación de datos para consultas ad hoc, descubrimiento y análisis de exploración”.

¿Qué tareas tienen realmente los ingenieros de datos hoy en día?

Los puestos más importantes para los ingenieros de datos giran en torno a la agregación, agrupación y flujos de trabajo ETL/ELT eficientes, junto con una gestión robusta de los procesos de ingeniería. Los requisitos clave incluyen la planificación de la ejecución, la monitorización de trabajos, las alertas y la programación basada en tiempo o eventos para garantizar la fiabilidad de los flujos de trabajo de datos. Igualmente importante es la creación de flujos de trabajo mediante transformaciones de datos sin código, herramientas de diseño gráfico de arrastrar y soltar y automatización basada en scripts. Los motores en memoria para la exploración de datos en tiempo real, las reglas automatizadas de calidad de datos y las recomendaciones basadas en IA para las relaciones entre datos mejoran aún más la eficiencia de los ingenieros de datos y la generación de información.

La gestión integral de datos también es una parte vital del puesto. Esto incluye capacidades de metadatos, elaboración de perfiles de datos, herramientas de gobernanza con registros de auditoría y seguimiento de linaje, así como mecanismos para enmascarar o censurar datos confidenciales.

Para ser claros, una amplia biblioteca de componentes prediseñados puede optimizar la integración de datos, mientras que los conectores facilitan el acceso sin problemas a diversas fuentes de datos y arquitecturas basadas en eventos. Además, las herramientas de depuración para probar y optimizar los flujos de trabajo de datos garantizan la precisión y el rendimiento. Aunque menos crucial, la compatibilidad con los servicios de big data de Kafka y Apache tiene una menor prioridad en comparación con estas necesidades básicas de ingeniería.

Los ingenieros de datos se enfrentan a una explosión de fuentes

Los ingenieros de datos gestionan una amplia gama de fuentes y destinos de datos, garantizando una integración fluida entre diversas plataformas. En términos de volumen, las bases de datos relacionales como Oracle y SQL Server siguen siendo las más utilizadas, sirviendo como fuentes y destinos críticos para datos estructurados. Los formatos basados ​​en archivos, como Excel, CSV, archivos de registro y JSON, también se utilizan ampliamente, especialmente para el intercambio de datos y el almacenamiento temporal. Aplicaciones empresariales como Salesforce, Workday, Oracle, SAP e Infor generan importantes flujos de datos, lo que requiere conectores y estrategias de integración especializados.

Más allá de los sistemas tradicionales, la ingeniería de datos moderna abarca almacenes de objetos como Amazon S3 para almacenamiento escalable, bases de datos analíticas como Snowflake y Exasol para consultas de alto rendimiento y plataformas NoSQL como MongoDB y Couchbase para una gestión de datos flexible y sin esquemas.

Las plataformas de datos especializadas, como SAP HANA y Palantir, añaden mayor complejidad, al igual que los ecosistemas basados ​​en Hadoop como Cloudera. Las tecnologías emergentes, como las bases de datos gráficas, como Neo4J y TigerGraph, desempeñan un papel cada vez más importante en el análisis basado en relaciones, ampliando así las responsabilidades de la ingeniería de datos.

Las ambiciones de la IA superan la capacidad del equipo

El tamaño de los equipos de ingeniería de datos suele oscilar entre 0 y 4 ingenieros, y las organizaciones más eficaces tienden a tener más. La eficacia suele aumentar con el tamaño de la organización, ya que las empresas más grandes cuentan con mayores recursos y talento especializado para respaldar las iniciativas de ingeniería de datos. Sin embargo, una vez que una organización supera los 10 000 empleados, la eficacia tiende a disminuir debido a la creciente complejidad de las fuentes de datos, la diversidad de casos de uso y los desafíos de gestionar entornos locales, en la nube e híbridos . 

Las organizaciones más pequeñas suelen recurrir a scripts, hojas de cálculo y herramientas de autoservicio para la preparación de datos debido a la escasez de personal y experiencia en ingeniería de datos. Si bien estos enfoques pueden ser suficientes para las necesidades básicas, carecen de la escalabilidad y robustez necesarias para el análisis avanzado.

En el otro extremo, las organizaciones muy grandes enfrentan ineficiencias operativas derivadas de paisajes de datos fragmentados y la gran escala de sus requisitos de ingeniería de datos, lo que hace más difícil mantener la máxima efectividad.

Sin ingeniería no hay IA: lo que la investigación deja claro

A medida que las organizaciones se esfuerzan por impulsar la IA, la ingeniería de datos emerge como una disciplina fundamental que garantiza que los datos sean accesibles, confiables y estén listos para análisis avanzados. Las investigaciones confirman su creciente importancia, y las organizaciones más exitosas la reconocen como crucial para sus esfuerzos de transformación digital. Las industrias con capacidades analíticas consolidadas, como la manufactura, la salud, los servicios financieros y la tecnología, están liderando la priorización de las inversiones en ingeniería de datos. Sin embargo, persisten los desafíos, especialmente en torno a la integración, la gobernanza y la escalabilidad de los datos a medida que las organizaciones crecen.

Para los líderes de datos, el mensaje es claro: invertir en ingeniería de datos no es opcional, sino esencial para el éxito de la IA. Desarrollar flujos de trabajo de datos escalables, aprovechar marcos arquitectónicos modernos y garantizar la calidad y la gobernanza de los datos determinarán la capacidad de una organización para extraer valor de la IA y el análisis.

Dado que los equipos siguen siendo pequeños, optimizar la eficiencia de la ingeniería de datos mediante la automatización, productos de datos reutilizables y capacidades de autoservicio cobra cada vez mayor importancia. En un mundo donde los datos impulsan la innovación, las organizaciones que dominen la ingeniería de datos estarán mejor posicionadas para liderar la era de la IA.

Acerca del autor

Myles Suer

Myles Suer es analista de la industria, periodista tecnológico y destacado CIO influencer (Leadtail). Es líder emérito de #CIOChat y director de investigación en Dresner Advisory Services. 

Fuente: https://www.vktr.com/ai-market/data-engineering-is-key-to-scaling-ai-heres-what-the-latest-research-says/

Deja una respuesta