Podría estar utilizando uno de los mejores modelos de lenguaje extenso (LLM). Aun así, podría obtener respuestas incorrectas, junto con algunas de esas molestas alucinaciones. O resultados simplemente confusos, carentes de sentido. Esto se vuelve aún más desconcertante a medida que usted y su organización trabajan arduamente para integrar la IA agéntica en sus flujos de trabajo e incluso en algunos procesos de toma de decisiones clave.

por Art Murray, D.Sc.

Te sigues rascando la cabeza, preguntándote: “¿Qué le pasa al modelo?”. De repente, recuerdas el viejo dicho: “Si entra basura, sale basura ” , y te das cuenta de que el problema no es el modelo. Más bien, es lo que el modelo usa como entrada mientras navega por la ciberesfera buscando una respuesta a tu compleja consulta. Bienvenido al maravilloso y salvaje mundo de los datos agénticos .

Siempre fue, y sigue siendo, cuestión de datos

Piense en los diferentes tipos de fuentes de datos a los que accede la IA generativa (GenAI). La mayoría consiste en narrativas poco estructuradas. Esto incluye exabytes de contenido web, como  artículos de noticias, artículos publicados e informes. O volúmenes masivos de correos electrónicos, mensajes de texto y publicaciones en redes sociales, en su mayoría sin editar. Por no hablar de un flujo infinito de imágenes, videoclips y podcasts. Y para hacerlo más interesante, todo es un objetivo móvil, que cambia no solo a medida que los eventos se desarrollan y evolucionan, sino también al trasladarse de un sitio a otro. Con cada transferencia, se modifica ligeramente, a veces con mayor precisión, a veces con el efecto contrario (piense en la entropía de Shannon; en.wikipedia.org/wiki/Entropy_(information_theory ).

A medida que la velocidad, el volumen y la complejidad siguen aumentando, uno pensaría que los modelos de IA se verían abrumados, igual que los humanos. Pero no sienten tal cosa. Simplemente siguen trabajando con entusiasmo, escupiendo respuestas. Con suerte, como experto en gestión de proyectos, tus habilidades de ingeniería rápida se habrán agudizado hasta el punto de que al menos puedas intercambiar ideas con el LLM varias veces, intentando convencerlo de que ofrezca una respuesta aparentemente aceptable.

Pero esto no suele ocurrir con la IA agencial. Esta utiliza esa densa jungla de datos externos para crear sus propios almacenes locales, donde los agentes de IA intercambian y gestionan los datos generados por otros agentes de IA. A lo largo del proceso, errores aparentemente menores pueden acumularse lentamente, con la posibilidad de graves consecuencias posteriores.

Existen numerosos ejemplos de fallos de IA agéntica inducidos por datos. Un incidente muy publicitado ocurrió en julio de 2025, cuando un asistente de codificación basado en IA eliminó una base de datos de producción en vivo que contenía registros de 1206 ejecutivos y más de 1196 empresas durante lo que se pretendía  que fuera un proyecto de prueba ( eweek.com/news/replit-ai-coding-assistant-failure ). El incidente ocurrió durante el experimento de 12 días de Jason Lemkin, fundador de SaaStr, con la herramienta de codificación de vibraciones de Replit.

El director ejecutivo de Replit, Amjad Masad, reconoció públicamente el incidente, calificándolo de “inaceptable y nunca debería ser posible”. La empresa tuvo que implementar medidas de seguridad de emergencia, como la separación automática entre las bases de datos de desarrollo y producción, el acceso obligatorio a la documentación para los agentes de IA y un modo de planificación/solo chat, para evitar cambios no autorizados. ¡Adiós a la idea de que la IA ahorra tiempo y mejora la productividad!

Lo que hizo esto particularmente inquietante fue que el propio agente de IA admitió haber violado instrucciones explícitas, arruinado meses de trabajo y dañado el sistema durante una congelación de protección. Todo esto indica una falta de comprensión semántica de las restricciones operativas, como la diferencia entre las bases de datos de desarrollo y producción. Esto definitivamente debería llamar su atención, ya que superar la discrepancia semántica ha sido durante mucho tiempo uno de nuestros objetivos en KM.

Pasando del Big Data al ‘Deep Data’

Ponte el sombrero de administrador de bases de datos por un momento. Como cualquier administrador que se precie, deberías preguntarte: “¿Dónde está el modelo de datos para todo esto?”. Desafortunadamente, en lo que respecta a GenAI, apenas hay ninguno del que hablar. Al menos no con un estándar o consistencia. Esto es especialmente cierto cuando, como se mencionó, los datos agenéticos subyacentes son generados y gestionados por agentes, con poca o ninguna transparencia.

El resultado es que los datos y el conocimiento ya no existen como componentes separados. Se están fusionando rápidamente en una única arquitectura. Como gestores de la gestión del conocimiento, ya no podemos dejar la gestión de datos únicamente en manos de los administradores. En su lugar, debemos colaborar estrechamente con ellos para crear arquitecturas de datos con la riqueza contextual y semántica suficiente para que agentes autónomos y semiautónomos puedan utilizarlas de forma fiable.

Esto tiene un lado positivo y un papel clave para la gestión del conocimiento

Abrirse camino a través de la jungla de datos no es fácil. Pero no tiene por qué ser complicado. Aquí tienes algunos pasos clave para empezar.

Muchos se enmarcan en la práctica, cada vez más extendida, de añadir una capa semántica a la arquitectura empresarial. Esto incluye invertir en la creación y el mantenimiento de ontologías en capas legibles por máquina. Las capas inferiores gestionan el conocimiento esotérico específico del dominio. Las ontologías intermedias y superiores, más generalizadas, facilitan los flujos de conocimiento entre diferentes disciplinas y dominios. La aplicación de estándares de la industria y, siempre que sea posible, estándares abiertos es fundamental. La ontología de código abierto más grande del mundo, SUMO ( ontologyportal.org ), y la recientemente lanzada ontología NIEMOpen ( niemopen.org ), diseñada con la capa semántica en mente desde el principio, son pasos importantes en la dirección correcta.

Otras prácticas incorporan análisis de datos y texto de eficacia comprobada, incluyendo análisis de sentimientos y extracción de asociaciones de entidades para crear bases de datos de grafos con gran riqueza de conocimiento que se representan como grafos de conocimiento. También existe IA extractiva para la detección de tendencias, el razonamiento causal, las cadenas de procedencia, la eliminación de sesgos y la ética.

En resumen, volvemos a la tradicional gobernanza de datos e información. ¿Su organización cuenta con un director de datos? De ser así, ¿con qué frecuencia  interactúa con él? Necesitará su apoyo para que los catálogos de datos de su organización sean más compatibles con la IA, especialmente a medida que la clasificación automática basada en IA se generaliza.

Todos estos esfuerzos contribuyen a garantizar la coherencia semántica entre agentes, lo que hace que los datos agénticos sean más procesables. Esto es muy deficiente en los LLM basados ​​principalmente en la sabiduría convencional o, peor aún, que generan resultados basados ​​principalmente en la posición de los tokens en un flujo de texto. Una capa semántica bien diseñada contribuirá en gran medida a extraer señales débiles de la cacofonía de ruido presente en el discurso organizacional y social.

Aprendiendo de los éxitos y de los fracasos

Asegúrese de analizar, adaptar e incorporar lo que otros están haciendo con éxito. Instacart ha creado una impresionante variedad de agentes inteligentes móviles para ayudar a los clientes y proveedores en los principales supermercados como Sprouts Farmers Market y Kroger. Un producto es su herramienta de análisis agentic, que se superpone a la pila de datos existente de un minorista para proporcionar información instantánea y procesable ( instacart.com/company/retailer-platform/ai-solutions ). Otro ejemplo es ServiceNow, que informa que al combinar su plataforma de agente NowAssist con Microsoft Copilot, los agentes de IA  trabajan juntos con la misma fluidez que los colegas humanos, compartiendo contexto y coordinando actividades complejas en tiempo real (devblogs.microsoft.com/semantic-kernel/customer-case-study-pushing-the-boundaries-of-multi-agent-ai-collaboration-with-servicenow-and-microsoft-semantic-kernel).

Finalmente, no pasemos por alto el conocimiento tácito, frecuentemente olvidado por nuestra comunidad de gestión del conocimiento, y su papel en la incorporación de la comprensión humana. Los LLM responden según su conjunto de datos de entrenamiento, que puede tener puntos ciegos y desactualizarse con el tiempo. Siempre debe haber una persona presente, especialmente cuando algo no parece correcto. Esta es una puerta de enlace esencial para separar la señal del ruido.

Entonces, ¿qué será? ¿Las arenas movedizas del interminable aluvión de ruido que gira alrededor del universo digital? ¿O la base sólida y estable de una arquitectura de datos semánticamente rica? La elección es obvia. La verdadera pregunta es, como gestores del conocimiento, ¿estamos preparados, dispuestos y capacitados para asumir este papel crucial?

Fuente: https://www.kmworld.com/Articles/Columns/The-Future-of-the-Future/Is-Your-Agentic-AI-Built-on-Sand-or-Bedrock—172876.aspx

Deja una respuesta