Imagen: VentureBeat hecho con Midjourney

El 95% de los pilotos empresariales no logran llegar a la producción.

por Michael Núñez

Salesforce está apostando a que las pruebas rigurosas en entornos comerciales simulados resolverán uno de los mayores problemas de la inteligencia artificial empresarial: agentes que trabajan en demostraciones pero fallan en la desordenada realidad de las operaciones corporativas.

El gigante del software en la nube dio a conocer tres importantes iniciativas de investigación de IA esta semana, incluido CRMArena-Pro, lo que llama un “gemelo digital” de operaciones comerciales donde los agentes de IA pueden ser sometidos a pruebas de estrés antes de la implementación. El anuncio se produce cuando las empresas lidian con fallas generalizadas de pilotos de IA y nuevas preocupaciones de seguridad luego de las recientes violaciones que comprometieron cientos de instancias de clientes de Salesforce.

“Los pilotos no aprenden a volar en una tormenta; se entrenan en simuladores de vuelo que los empujan a prepararse en los desafíos más extremos”, dijo Silvio Savarese, científico jefe de Salesforce y jefe de investigación de IA, durante una conferencia de prensa. “Del mismo modo, los agentes de IA se benefician de las pruebas de simulación y el entrenamiento, preparándolos para manejar la imprevisibilidad de los escenarios comerciales diarios antes de su implementación”.

El impulso de la investigación refleja la creciente frustración empresarial con las implementaciones de IA. Un informe reciente del MIT encontró que el 95% de los pilotos de IA generativa en las empresas no logran llegar a la producción, mientras que los propios estudios de Salesforce muestran que los grandes modelos de lenguaje por sí solos logran solo tasas de éxito del 35% en escenarios comerciales complejos.

Gemelos digitales para IA empresarial: cómo Salesforce simula el caos empresarial real

CRMArena-Pro representa el intento de Salesforce de cerrar la brecha entre la promesa de IA y el rendimiento. A diferencia de los puntos de referencia existentes que prueban las capacidades genéricas, la plataforma evalúa a los agentes en tareas empresariales reales, como escalamientos de servicio al cliente, pronósticos de ventas e interrupciones de la cadena de suministro utilizando datos comerciales sintéticos pero realistas.

“Si los datos sintéticos no se generan con cuidado, pueden conducir a resultados engañosos o demasiado optimistas sobre qué tan bien se desempeña realmente su agente en su entorno real”, explicó Jason Wu, gerente de investigación de Salesforce que dirigió el desarrollo de CRMArena-Pro.

La plataforma opera dentro de entornos de producción reales de Salesforce en lugar de configuraciones de juguetes, utilizando datos validados por expertos en el dominio con experiencia comercial relevante. Admite escenarios de empresa a empresa y de empresa a consumidor y puede simular conversaciones de varios turnos que capturan dinámicas conversacionales reales.

Salesforce se ha estado utilizando a sí mismo como “cliente cero” para probar estas innovaciones internamente. “Antes de llevar algo al mercado, pondremos la innovación en manos de nuestro propio equipo para probarla”, dijo Muralidhar Krishnaprasad, presidente y CTO de Salesforce, durante la conferencia de prensa.

Cinco métricas que determinan si su agente de IA está listo para la empresa

Junto con el entorno de simulación, Salesforce presentó el Agentic Benchmark para CRM, diseñado para evaluar a los agentes de IA en cinco métricas empresariales críticas: precisión, costo, velocidad, confianza y seguridad, y sostenibilidad ambiental.

La métrica de sostenibilidad es particularmente notable, ya que ayuda a las empresas a alinear el tamaño del modelo con la complejidad de la tarea para reducir el impacto ambiental y mantener el rendimiento. “Al eliminar el ruido de sobrecarga del modelo, el punto de referencia brinda a las empresas una forma clara y basada en datos de emparejar los modelos correctos con los agentes correctos”, afirmó la compañía.

El esfuerzo de evaluación comparativa aborda un desafío práctico que enfrentan los líderes de TI: con los nuevos modelos de IA lanzados casi a diario, determinar cuáles son adecuados para aplicaciones comerciales específicas se ha vuelto cada vez más difícil.

Por qué los datos empresariales desordenados podrían hacer o deshacer su implementación de IA

La tercera iniciativa se centra en un requisito previo fundamental para una IA confiable: datos limpios y unificados. La capacidad de coincidencia de cuentas de Salesforce utiliza modelos de lenguaje ajustados para identificar y consolidar automáticamente los registros duplicados en todos los sistemas, reconociendo que “The Example Company, Inc.” y “Example Co.” representan la misma entidad.

El trabajo de consolidación de datos surgió de una asociación entre los equipos de investigación y productos de Salesforce. “Lo que implica la resolución de identidad en Data Cloud es esencialmente, si piensas en algo tan simple como incluso un usuario, tienen muchas, muchas, muchas identificaciones en muchos sistemas dentro de cualquier empresa”, explicó Krishnaprasad.

Un importante cliente proveedor de nube logró una tasa de coincidencia del 95% utilizando la tecnología, ahorrando a los vendedores 30 minutos por conexión al eliminar la necesidad de hacer referencias cruzadas manualmente en varias pantallas para identificar cuentas.

El robo de tokens OAuth expone vulnerabilidades en las herramientas de los clientes impulsadas por IA

Los anuncios se producen en medio de mayores preocupaciones de seguridad luego de una campaña de robo de datos que afectó a más de 700 organizaciones de clientes de Salesforce a principios de este mes. Según el Grupo de Inteligencia de Amenazas de Google, los piratas informáticos explotaron los tokens OAuth del agente de chat Drift de Salesloft para acceder a las instancias de Salesforce y robar credenciales para Amazon Web Services, Snowflake y otras plataformas.

La violación destacó las vulnerabilidades en las integraciones de terceros en las que las empresas confían para la participación del cliente impulsada por IA. Desde entonces, Salesforce ha eliminado Salesloft Drift de su mercado AppExchange en espera de una investigación.

La brecha entre las demostraciones de IA y la realidad empresarial es más grande de lo que piensas

Las iniciativas de simulación y evaluación comparativa reflejan un reconocimiento más amplio de que la implementación de IA empresarial requiere más que videos de demostración impresionantes. Los entornos empresariales reales cuentan con software heredado, formatos de datos inconsistentes y flujos de trabajo complejos que pueden descarrilar incluso los sistemas de IA sofisticados.

“Los principales aspectos que queremos que estuviéramos discutiendo hoy es el aspecto de la consistencia, así que cómo asegurarnos de que pasamos de estos a un rendimiento insatisfactorio, si simplemente conecta un LM a un caso de uso empresarial, a algo que logre un rendimiento mucho más alto”, dijo Savarese durante la conferencia de prensa.

El enfoque de Salesforce enfatiza la necesidad de que los agentes de IA trabajen de manera confiable en diversos escenarios en lugar de sobresalir en tareas limitadas. El concepto de “Inteligencia General Empresarial” (EGI) de la empresa se centra en la creación de agentes que sean capaces y consistentes en la realización de tareas comerciales complejas.

A medida que las empresas continúan invirtiendo en tecnologías de IA, el éxito de plataformas como CRMArena-Pro puede determinar si la ola actual de entusiasmo por la IA se traduce en una transformación empresarial sostenible o se convierte en otro ejemplo de promesa tecnológica que supera la entrega práctica.

Las iniciativas de investigación se exhibirán en la conferencia Dreamforce de Salesforce en octubre, donde se espera que la compañía anuncie desarrollos adicionales de IA mientras busca mantener su posición de liderazgo en el mercado de IA empresarial cada vez más competitivo.

Fuente: https://venturebeat.com/ai/salesforce-builds-flight-simulator-for-ai-agents-as-95-of-enterprise-pilots-fail-to-reach-production/

Deja una respuesta