¿Cómo deberían las empresas evaluar los casos de uso de la IA para ver el potencial de los LLM?
por Eric Barroca
Se ha escrito y trabajado mucho en evaluar los modelos de alguna manera, compararlos y elegir el “mejor”. Voy a argumentar por qué no es el mejor uso de los recursos para la mayoría de las empresas ofrecer un valor alucinante a la empresa.
Y lo que importa para eso es elegir casos de uso que sean entregables hoy y de alto valor para el negocio. Es el aumento de 10x lo que marcará una gran diferencia en el negocio y demostrará que la IA es la potencia que se espera que sea.
Elija un modelo pero no lo bloquee
Pero antes de empezar con los casos de uso, todavía hay que elegir un modelo …
Los modelos de alta calidad (Claude 3.5, GPT-4, Gemini 1.5) han convergido en gran medida hoy en día y ofrecen capacidades similares para la mayoría de los casos de uso. Además, se entrelazan regularmente, dependiendo de su ciclo de liberación, período de entrenamiento, etc. También se espera que los modelos continúen convergiendo, ya que la comunidad investigadora se centra en los mismos problemas y los mismos datos. Los modelos también están convergiendo en términos de capacidades, ya que todos se basan en la misma arquitectura y datos de entrenamiento similares.
Una buena manera de llevar a cabo la selección es basarla en hechos concretos y restricciones:
- ¿Qué tan fácil es acceder en función de las políticas de su empresa, las reglas de privacidad de datos, etc.? Comenzar con el proveedor de nube que más está utilizando actualmente es probablemente un buen lugar para comenzar. ¿Se ejecuta en AWS? Vamos con Claude. ¿En GCP? Empecemos por Géminis. O si está en Azure, entonces GPT-4 lo es.
- ¿Los idiomas que necesita son compatibles con el modelo? Esto puede ser un factor importante, ya que no todos los modelos se entrenan en el mismo conjunto de idiomas
- ¿Cuál es el contexto de entrada esperado que necesita? Los modelos tienen varias capacidades en cuanto a la cantidad que pueden absorber para una sola tarea. En función de la cantidad de datos que necesitará entregar en su caso de negocio, esto puede ser un impulsor para la elección.
Y por último, pero no menos importante, asegúrese de no bloquear un modelo: debe ser una decisión en tiempo de ejecución. Para beneficiarse de la rápida evolución del panorama de modelos, es fundamental que no se fije en un modelo específico, sino que diseñe su proyecto para que cambie y actualice fácilmente, de modo que su procesamiento pueda trasladarse a modelos de dualidad superior a medida que se conectan sin interrumpir su servicio.
Piensa en grande, pero entregable
La tarea más importante, a medida que comienza o avanza en su viaje hacia la IA, es seleccionar los casos de uso adecuados para aportar valor a la empresa y convencerla del valor de la IA. Demasiadas iniciativas de IA no logran resultados porque el caso de uso no se pudo entregar, lo que produjo resultados mediocres, o porque no fueron lo suficientemente ambiciosas, lo que generó un valor bajo para el negocio.
Al igual que con cualquier proyecto, es importante comprender el dominio del negocio, la naturaleza de los procesos, cómo trabajan los equipos, cómo interactúan y cómo se incorpora la información a los procesos.
Existen características típicas de lo que constituye un buen caso de uso:
Compresión vs. expansión
Los LLM son excelentes máquinas de compresión para el lenguaje y el significado. Pueden tomar una gran cantidad de contenido y comprimirlo en una pequeña salida en función de sus instrucciones (restricciones). Por lo general, funcionan mejor cuando tiene restricciones claras, no resúmenes generales, por ejemplo. Por lo tanto, los casos de uso en los que se puede alimentar en mucho contexto y tener instrucciones claras y estructuradas, funcionarán muy bien.
Salida estructurada
Contrariamente a la intuición, hemos observado que los LLM ofrecen resultados mucho mejores cuando la salida es más formal y estructurada. Ya sea una buena estructura de datos JSON o un documento formal, como un documento de revisión, un cuadro de mando, etc. Los casos de uso que involucran salida estructurada tienden a funcionar mejor que el contenido de forma libre.
Contenido de formato corto
Los LLM tienen un pequeño máximo de salida en una sola tirada, normalmente de ocho a 16 páginas de texto estándar en inglés: de 4.000 a 8.000 tokens, con uno más reciente de 16.000. Pero independientemente de la salida máxima, estamos observando que cuanto más largo es el contenido, menor es la calidad de la salida. Esto da la vuelta con las primeras características: compresión vs. expansión. Sin embargo, existen técnicas para entregar contenido de formato largo, pero requieren enfoques y sistemas más sofisticados. Así que totalmente adecuado en el futuro, pero tal vez no al principio de su viaje.
Un marco simple para evaluar
Para ayudar a las empresas a evaluar los posibles casos de uso de la IA, he aquí un marco de preguntas a tener en cuenta:
Alineamiento con los objetivos de negocio
- ¿Este caso de uso apoya directamente nuestros objetivos comerciales principales?
- ¿Cuánto aumentaría la eficiencia o la oportunidad si lo mejoramos?
Impacto medible
- ¿Podemos definir claramente las métricas de éxito para este caso de uso?
- ¿Cómo mediremos el ROI de esta implementación de LLM?
Disponibilidad y calidad de los
datos
- ¿Tenemos el contenido necesario para alimentar el modelo?
- ¿Es fácil de conseguir?
Factibilidad técnica
- ¿Es compresión vs. expansión?
- ¿Cómo puntúa en los criterios anteriores?
Escalabilidad
- ¿Se puede escalar esta solución a toda la organización si tiene éxito?
- ¿Cómo se integrará con nuestros sistemas y procesos existentes?
Participación de las partes interesadas
- ¿Quiénes son las partes interesadas clave para este caso de uso?
- ¿Cómo podemos garantizar su apoyo y compromiso a lo largo del proceso?
- ¿Qué necesitan ver para beneficiarse del proyecto?
Al trabajar sistemáticamente con estas preguntas, puede evaluar los posibles casos de uso de la IA de manera más efectiva. Este marco ayuda a garantizar que no solo esté siguiendo la última tendencia de IA, sino que se centre en implementaciones que brinden un valor real a su negocio.
Casos de uso de entregables de alto valor
Con base en los aspectos anteriores, podemos definir a grandes rasgos varios casos de uso obvios que pueden aportar valor a cualquier negocio. Estos son algunos casos de uso de alto valor que puedes explorar fácilmente para tu negocio.
Extracción de información
Tome contenido no estructurado y transfórmelo en datos estructurados para permitir obtener información. Todas las empresas tienen contenido no estructurado que no se aprovecha, y si lo fuera, podría mejorar enormemente el negocio. Piense en todos los archivos almacenados en Sharepoint, Google Drive, Box o encerrados en los sistemas de software corporativos. Algunos ejemplos son los contratos de licencia, los informes de mantenimiento, las entrevistas de RRHH, los informes de rendimiento, las visitas de campo, los informes, los tickets de soporte, las opiniones de los clientes, las autopsias, etc.
Al utilizar este contenido rico en información y convertirlo automáticamente en datos estructurados, puede comenzar a generar información para el negocio a una profundidad que nunca ha estado disponible, a menudo desbloqueando nuevas oportunidades de crecimiento o eficiencia.
Revisión de contenido
Otro amplio campo de aplicación son las revisiones de contenido: tomar contenido no estructurado, aplicar alguna pauta o conocimiento formalizado y decidir si el contenido es conforme o no, señalar problemas y áreas de mejora. Se trata de una amplia categoría de casos de uso que suele estar presente en todas las empresas y que es una parte fundamental de los procesos empresariales clave: revisión de contratos, aprobación de licencias, aprobación de facturación por excedente, revisión de documentación basada en especificaciones/código del producto, revisión de aplicaciones, revisión de código, verificación de integridad, etc.
Hay miles de casos de uso específicos de empresas diferentes que tienen que ver con la revisión de contenido. La clave es identificar las tareas que son muy similares, donde hay directrices claras y documentadas sobre cómo revisar el contenido y donde el resultado es determinista en función de la entrada.
Reutilización de contenido
Similar a la generación de contenido, pero esta categoría de casos de uso se basa en la información existente. No se trata de pura creación de contenido (como este artículo), sino de generación de contenido basada en un gran contexto de entrada, una fecha de referencia o incluso contenido no estructurado (notas de reuniones, especificaciones de diseño, resúmenes de campaña, conversaciones de Slack, etc.). Los recursos de lanzamiento de productos son buenos ejemplos de este caso de uso, como la documentación del producto, los procedimientos y las guías de introducción.
¿Cómo entregar? Obtenga ciclos, itere rápido
Un factor importante que contribuye al éxito es estar en condiciones de iterar rápidamente en el proyecto. Evite perder tiempo en detalles de bajo nivel del LLM, pero colóquese en una posición en la que la iteración de las solicitudes, el modelo de datos y el contexto de entrada sea fácil y rápida. Cuanto más fácil sea, más ciclos de iteración obtendrá, más ciclos obtendrá, más opciones probará y convergerá para obtener el mejor resultado. Hoy en día, demasiados proyectos están empantanados por los detalles técnicos, porque la pila de LLM sigue evolucionando rápidamente. Pero hay soluciones y proveedores para ayudar con eso.
Una gran parte del éxito y el ritmo de generación de valor radicará en la cantidad de interacciones que su equipo sea capaz de conseguir para ofrecer lo que es importante para el negocio.
Think Go Live: La arquitectura importa
Y el último punto importante a tener en cuenta es cómo salir en vivo. Demasiadas iniciativas de IA se detienen antes de que puedan ponerse en marcha, sumidas en interminables scripts, experimentos y modelos no escalables. IA o no, la privacidad de los datos importa, la seguridad informática y los flujos de datos importan. Tenga un plan para ponerlo en marcha desde el primer día y aproveche las soluciones que permitan la aceptación de su equipo de seguridad de TI.
Sea cual sea el plan, asegúrese de tener un plan para poner en marcha, de modo que después de convencer a la empresa del valor, pueda entregar este valor en la producción.
El camino a seguir
En conclusión, la clave para desbloquear el potencial de LLM para su negocio no se trata de perseguir el último y mejor modelo o conocer todas las peculiaridades que conllevan. Se trata de identificar casos de uso entregables de alto valor que puedan demostrar el poder de GenAI para transformar sus operaciones. Al centrarse en las aplicaciones prácticas, mantener la flexibilidad en la selección de modelos y priorizar la iteración rápida, puede evitar las trampas de la evaluación y la comparación interminables.
Recuerde que la verdadera medida del éxito de la IA no se encuentra en las puntuaciones de referencia ni en las clasificaciones de los modelos. Está en los beneficios tangibles que aporta a su negocio: la información descubierta, los procesos optimizados y el valor entregado a sus clientes. Así que deja de obsesionarte con las evaluaciones de modelos y empieza a hacerte las preguntas reales:
- ¿Cuáles son nuestros cuellos de botella empresariales más importantes en la actualidad?
- ¿Dónde pasa la gente su tiempo en tareas cognitivas repetitivas?
- ¿Qué necesitaríamos para acelerar esos procesos?
Al cambiar su enfoque de las comparaciones de modelos a la implementación de casos de uso, no solo acelerará su viaje hacia la IA, sino que también posicionará a su organización para cosechar los frutos de esta tecnología transformadora. El futuro de la IA en los negocios pertenece a aquellos que pueden identificar y resolver problemas del mundo real, no a aquellos que debaten interminablemente las especificaciones de los modelos.
Es hora de ir más allá de la exageración y comenzar a brindar resultados. Su ventaja competitiva en la era de la IA no depende de tener el “mejor” modelo, sino de la eficacia con la que pueda aprovechar la IA para resolver sus desafíos empresariales únicos. ¿A qué esperas? El próximo gran avance para su empresa podría estar a solo un caso de uso bien elegido.
Sobre el autor
Eric Barroca es el fundador y CEO de Composable, una plataforma para crear aplicaciones LLM, y cuenta con más de 20 años de experiencia en gestión de contenido empresarial y desarrollo de software. Comenzó como cofundador y más tarde como director ejecutivo de Nuxeo, un líder emergente en gestión de contenido empresarial, adquirido por Hyland Software en 2021. En 2023, Barroca comenzó a experimentar con LLM y modelos de programación, y rápidamente se dio cuenta del enorme potencial que se podía desbloquear con las herramientas adecuadas. Y así nació Composable.
Fuente: https://www.vktr.com/ai-technology/how-to-evaluate-ai-foundation-models-dont/