La IA no puede aportar valor sin la pila de datos adecuada. Aprende cómo la arquitectura, la estructura de datos y los grafos de conocimiento crean la base para una IA fiable y escalable.

por David Barry

La empresa actual se sienta sobre un polvorín de datos desconectados. Los registros de clientes en Salesforce no se comunican con las transacciones en bases de datos heredadas. Las métricas en tiempo real en los paneles de inteligencia empresarial no pueden detectar información no estructurada en los datalakes. Cada sistema habla su propio lenguaje, creando silos que acaban con las iniciativas de IA antes de que aporten valor.

A medida que las organizaciones se vuelven impulsadas por IA, se enfrentan a una elección engañosa: ¿Deberían invertir en una arquitectura de datos robusta, implementar una estructura de datos inteligente o construir grafos de conocimiento semánticos? Los líderes del sector dicen que la pregunta es una trampa: estas no son excluyentes. Son una pila jerárquica donde cada capa soporta a la siguiente.

Sin embargo, no puedes comprar tu camino hacia un data fabric. El mercado está saturado de plataformas que afirman unificar tus datos con un esfuerzo mínimo, pero están vendiendo infraestructura para una base que tú no has construido.

La Fundación de Datos Poco Glamorosos

La arquitectura de datos define cómo se almacena, conecta y recupera la información en toda una empresa. Requiere meses de trabajo poco glamuroso mapeando flujos de datos, negociando con unidades de negocio y documentando estándares, que es precisamente por lo que la mayoría de las organizaciones lo evitan.

“Intentar saltar al tercer paso sin una planificación efectiva es, en la práctica, construir un castillo de naipes”, dijo Bharath Vasudevan, vicepresidente de estrategia y crecimiento de soluciones en Quest Software.

Pero la arquitectura por sí sola no sirve de nada. “Una arquitectura de datos eficaz no aborda un reto empresarial por sí sola”, dijo Ryan McElroy, vicepresidente de tecnología en Hylaine. En cambio, es una apuesta fundamental para todo lo demás.” Erin Hamm, directora senior y directora de datos de campo en DataBee, una empresa de Comcast, lo llama “el plano general”, enfatizando que los planos no construyen edificios.

Esto crea una brecha peligrosa entre la rapidez de la IA que quieren los ejecutivos y el edificio de arquitectura paciente que realmente funciona. ¿La realidad? Te espera entre 12 y 18 meses de trabajo de arquitectura antes de pasar a la red de datos.

Tejido de datos en la empresa

Data Fabric transforma planos estáticos en sistemas dinámicos mediante automatización y conectividad inteligente. Mientras que la arquitectura es documentación pasiva, Fabric es la aplicación activa que crea una capa virtual que unifica el acceso mientras aplica dinámicamente políticas de gobernanza de IA.

Sin embargo, las plataformas no crean los metadatos, las políticas de gobernanza ni los estándares de calidad de datos que necesitan para funcionar. Son motores de automatización que automatizan lo que ya has definido. Si llegas a ellos sin una arquitectura clara, automatizarán tu caos a escala empresarial.

Fabric “utiliza automatización y metadatos para conectar datos entre nubes, bases de datos y aplicaciones sin un trabajo manual pesado”, dijo Vasudevan. No hay proyectos masivos de migración, solo una orquestación inteligente que deja los datos en su ubicación y los hace más accesibles — suponiendo que tus metadatos estén limpios, tus políticas de gobernanza sean claras y tu arquitectura de datos exista.

Fabric es la única solución a la expansión de datos, dijo Justin George, arquitecto de soluciones en Instaclustr. Las organizaciones “implementan una arquitectura de datos de forma consistente en toda la organización, desde la creación y recopilación de datos hasta el archivo y la eventual eliminación.”

Fabric se convierte en “el motor que impulsa los estándares de calidad y gobernanza establecidos”, aplicando las normas arquitectónicas de forma dinámica en lugar de esperar que los equipos sigan la documentación, dijo Hamm.

Pero incluso los datos perfectamente conectados y gobernados siguen siendo limitados. Las bases de datos conocen los hechos, pero no entienden el significado.

Cómo las empresas hacen un mal uso de los grafos de conocimiento

Los grafos de conocimiento añaden lo que las bases de datos y los tejidos no pueden: la comprensión semántica de las relaciones y el contexto. Transforman hechos desconectados en redes que tanto humanos como IA navegan más fácilmente.

Pero McElroy ha observado cómo este patrón destruye el valor repetidamente: “Un grafo de conocimiento puede crearse fácilmente en un momento dado, pero si no forma parte de una infraestructura eficaz — altamente automatizada y basada en metadatos — entonces se desmoronará a gran escala”, dijo. El problema es que la mayoría de las empresas están construyendo grafos de conocimiento al revés. Están invirtiendo millones en bases de datos de grafos antes de que sus datos subyacentes estén limpios, conectados o sean fiables. ¿El resultado? Semántica basura basada en datos basura, disfrazada con visualizaciones impresionantes que los usuarios empresariales aprenden rápidamente a ignorar.

“Un banco podría confiar en su arquitectura de datos para gestionar los registros principales de los clientes, usar una estructura para vincular esos registros con datos de transacciones de sistemas en la nube y aplicar un grafo de conocimiento para detectar posibles fraudes al ver relaciones que antes estaban ocultas”, explicó Vasudevan. Estas conexiones, cuentas que comparten patrones entre dispositivos, ubicaciones e interacciones con comerciantes, se vuelven explícitas y accionables.

Pero ese banco tardó dos años en acertar primero con su arquitectura y estructura de datos. La mayoría de las organizaciones van directamente al gráfico y se preguntan por qué su inversión de 5 millones de dólares no produce nada útil.

Los gráficos son “versátiles y contextuales, permitiendo a las aplicaciones ofrecer mejores resultados” porque destacan en “identificar y recuperar información relacional entre fragmentos de datos”, dijo George. Hamm señala “canales de detección de fraude hacia canales de conocimiento.”

La IA ha hecho que la arquitectura sea más importante. Los grandes modelos de lenguaje no se degradan con gracia cuando se les alimenta con datos pobres, sino que amplifican cada fallo con alucinaciones seguras.

“La IA expone todas las debilidades en la gestión de datos”, dijo Vasudevan. “Si la información está incompleta o mal etiquetada, los grandes modelos de lenguaje amplifican esos problemas. Por eso muchos pilotos de IA no logran aportar valor.”

Mientras que “las arquitecturas tradicionales se centraban en mover y almacenar datos”, los sistemas de IA actuales “exigen significado, contexto y fundamento”, dijo George. ¿El resultado? Evolución de las canalizaciones de datos a las canalizaciones de conocimiento: infraestructura que no solo mueve información, sino que la combina con la riqueza semántica que la IA necesita para funcionar de forma fiable.

La IA acelera el progreso “automatizando la generación de metadatos, la calidad y alertas de los datos, enriqueciendo las capas semánticas y habilitando consultas en lenguaje natural”, dijo Hamm. Una mejor infraestructura de datos apoya una mejor IA, lo que mejora aún más la infraestructura.

Por qué la tecnología no es el problema

La arquitectura más sofisticada no significa nada si los departamentos se niegan a compartir datos o a acordar definiciones comunes.

“El mayor obstáculo suele ser cultural: pasar de un pensamiento aislado a una mentalidad de datos conectados”, dijo Hamm. Los equipos que han construido sus propios sistemas deben colaborar, exponer su información y aceptar los estándares empresariales, lo que amenaza las estructuras de poder existentes.

George señala la deuda técnica acumulada: Las empresas “dependían de plataformas de datos estrechamente acopladas, bases de datos propietarias, pilas analíticas aisladas e integraciones punto a punto. Estos sistemas fueron diseñados para el control, no para la conexión.” Pasar del control a la conexión requiere rehacer la propiedad de los datos — un problema político disfrazado de técnico.

Las plataformas unificadas “ofrecerán integración, gobernanza e inteligencia sin interrupciones, sirviendo como base para las empresas impulsadas por IA”, afirmó Hamm. George lo plantea de forma competitiva: “Las empresas que se modernicen con estos principios serán aquellas que puedan construir tejidos de datos, grafos de conocimiento e IA a escala empresarial.”

Pero McElroy describe el concepto de “sistema operativo de datos” como “más ideal platónico que realidad para la mayoría de las empresas.” Las grandes empresas con décadas de deuda técnica se enfrentan a un camino más largo y difícil, uno que solo unas pocas lograrán recorrer con éxito.

La incómoda predicción: la mayoría de las grandes empresas que intentan esta transformación fracasarán. Comprarán plataformas caras sin cimentación de edificios. Exigirán victorias rápidas de la IA mientras se niegan a invertir en trabajos tediosos de arquitectura.

Unos pocos —quizá un 10-15%— lo harán bien. Invertirán los dos o tres años necesarios para construir cimientos adecuados. Resistirán las promesas de los proveedores y la presión ejecutiva por resultados prematuros. Esas organizaciones dominarán sus sectores durante la próxima década, afirmó.

“Las organizaciones necesitan que los tres trabajen juntos, empezando por una arquitectura de datos adecuada, para convertir la información dispersa en inteligencia fiable y útil”, dijo Vasudevan. La naturaleza secuencial no es opcional. La arquitectura sin tejido sigue siendo teórica, la estructura sin arquitectura carece de dirección y los gráficos sin ambos se vuelven insostenibles.

La cuestión no es si invertir en las tres capas, sino si tu organización tiene la disciplina para construirlas en el orden correcto, la paciencia para pasar años en infraestructuras poco glamurosas y el valor para decir a los directivos que los resultados que su IA desea está a 24 meses, no a seis.

Artículos relacionados:

Sobre el autor

David Barry

David es un periodista afincado en Europa con 35 años de trayectoria que ha dedicado los últimos 15 a seguir el desarrollo de tecnologías en el lugar de trabajo, desde los primeros días de la gestión documental, la gestión de contenidos empresariales y los servicios de contenido. Ahora, con el desarrollo de nuevos modelos de trabajo remoto e híbrido, cubre la evolución de tecnologías que permiten la colaboración, la comunicación y el trabajo, y recientemente ha dedicado mucho tiempo a explorar los confines de la IA, la IA generativa y la IA General.

Fuente: https://www.reworked.co/information-management/why-ai-readiness-relies-on-data-architecture-fabric-and-knowledge-graphs-working-together/

Deja una respuesta