Y por qué más grande no siempre es mejor cuando se trata de IA.

por Pierre DeBois

La esencia

  • Actualización rentable.  ChatGPT-4o mini ofrece ahorros significativos con costos de desarrollo un 60 % más económicos.
  • Excelencia de referencia.  Supera a sus rivales en evaluaciones de razonamiento matemático y multimodal.
  • Impulsor del ecosistema tecnológico.  El modelo mini mejora la ventaja competitiva de OpenAI y sus aplicaciones empresariales.

Al igual que otros proveedores de inteligencia artificial generativa, OpenAI sigue buscando formas de mejorar su plataforma ChatGPT. Pero esta vez, su mayor avance es el lanzamiento de su modelo más pequeño.

La semana pasada, OpenAI presentó el ChatGPT-4o mini , un modelo compacto elogiado por su rendimiento de IA rentable. Preparado para reemplazar al GPT-3.5 Turbo, se convierte en el modelo más pequeño disponible de OpenAI. Los consumidores pueden acceder al ChatGPT-4o mini a través de las aplicaciones web y móviles de ChatGPT, mientras que los desarrolladores pueden incorporarlo en sus proyectos de IA. El modelo se lanzó oficialmente y los usuarios empresariales obtuvieron acceso esta semana.

La introducción de ChatGPT-4o mini promueve la tendencia hacia aplicaciones de modelos de IA más pequeños y acelera el desarrollo de IA para dispositivos móviles.

Esta imagen muestra un conjunto de cinco muñecas rusas tradicionales Matryoshka, ordenadas de mayor a menor. Cada muñeca está pintada de un rojo vibrante y presenta un diseño floral con grandes flores rosas y amarillas. Las muñecas tienen caras alegres con ojos azules y cabello rubio, lo que simboliza el concepto de capas similar al "lanzamiento de ChatGPT-4o Mini", que enfatiza la eficiencia compacta en la tecnología que se reduce en tamaño pero no en capacidad.
La introducción de ChatGPT-4o Mini promueve la tendencia hacia aplicaciones de modelos de IA más pequeños y acelera el desarrollo de IA para dispositivos móviles. Delphotostock en Adobe Stock Photos

Las especificaciones clave de ChatGPT-4o Mini

OpenAI está promocionando ChatGPT-4o mini como prueba verificable de su compromiso de hacer que la inteligencia artificial sea “lo más amplia posible” al expandir la gama de aplicaciones que incorporan IA.

Mini mejoras

ChatGPT-4o mini cuenta con el mismo tokenizador mejorado de GPT-4o. Además, agrega una ventana de contexto que admite hasta 128 000 tokens y hasta 16 000 tokens de salida por solicitud. Otra característica es una mayor relevancia de los temas. Los usuarios encontrarán que sus respuestas rápidas reflejan el conocimiento de los eventos hasta octubre de 2023. ChatGPT-4o mini también puede manejar texto que no esté en inglés.

Puntuaciones más altas

El resultado es una mayor capacidad de alcance, una inteligencia textual mejorada y un razonamiento multimodal mejorado que supera el rendimiento de referencia actual, según OpenAI. ChatGPT-4o mini obtuvo un 59,4 % en una evaluación de razonamiento multimodal llamada MMMU. Esta puntuación fue superior a la de sus principales rivales, Gemini Flash (56,1 %) y Claude Haiku (50,2 %).

Este gráfico de barras compara los puntajes de precisión de varios modelos de IA en múltiples puntos de referencia de evaluación. Los modelos incluidos son GPT-4o mini, Gemini Flash, Claude Haiku, GPT-3.5 Turbo y GPT-4o. El gráfico presenta puntos de referencia como MMMU, GeRa, DROP, HellaSwag, HANS, MNLI, Winogrande, MMLU y MATHQA, con barras que representan los puntajes de precisión en porcentaje para cada modelo. GPT-4o mini tiene un desempeño competitivo constante en la mayoría de los puntos de referencia, lo que resalta su eficiencia como parte del lanzamiento de ChatGPT-4o Mini.
IA abierta

ChatGPT-4o mini también obtuvo una puntuación más alta que sus competidores en MGSM, una puntuación de razonamiento matemático. Chat GPT4o mini obtuvo una puntuación del 87,0 %, en comparación con el 75,5 % de Gemini Flash y el 71,7 % de Claude Haiku. Chat GPT4o mini obtuvo una puntuación ligeramente inferior a la del modelo más grande Chat GPT-4o en las medidas de precisión, pero superó significativamente a ChatGPT Turbo en cada categoría. 

Ampliando los límites del modelo de lenguaje pequeño

En su comercialización de ChatGPT-4o mini, OpenAI ha destacado que su modelo está ampliando el límite de los modelos de lenguaje pequeños con la asequibilidad también. OpenAI afirma que el costo general de desarrollo por token es más del 60% más barato que el de GPT-3.5 Turbo. El costo típico que pagan los desarrolladores es de 15 centavos por 1 millón de tokens de entrada y 60 centavos por 1 millón de tokens de salida. OpenAI estima que dichos costos son aproximadamente iguales a 2500 páginas de un libro estándar. La combinación de asequibilidad y mayor capacidad modal es un atractivo significativo para los desarrolladores que buscan adoptar modelos de lenguaje pequeños para reducir los costos de capacitación y desarrollo de datos.

Mantenerse competitivo: cómo mantenerse a la par de los Jones de la IA

Todo esto contribuye a la tendencia de proporcionar un modelo de lenguaje grande multimodal (MLLM) a los usuarios, una tendencia que OpenAI debe abordar para seguir siendo competitivo. El interés en los modelos de lenguaje pequeños ha estado en ebullición entre los desarrolladores de IA desde que las plataformas de IA llegaron al mercado de consumo.

Soluciones actuales de IA

Las soluciones de IA actuales, como Claude, Gemini y ChatGPT, se basan en modelos básicos, un tipo de modelo de aprendizaje automático a gran escala creado a partir de un amplio conjunto de datos de entrenamiento. Los modelos básicos introdujeron un nuevo paradigma de consulta, que hizo que la IA dejara de entrenarse con datos específicos de una tarea para realizar una gama limitada de funciones. El resultado fue una mayor adaptabilidad y un ajuste preciso para una variedad de aplicaciones y tareas de medios posteriores. 

Objetivos de los desarrolladores

Pero el entrenamiento de modelos básicos requiere una gran cantidad de memoria, lo que genera un gasto enorme y una capacidad computacional abrumadora para ejecutar el entrenamiento del modelo. 

Por lo tanto, a medida que el desarrollo ve mejoras en el rendimiento, los desarrolladores apuntan a implementar modelos de lenguaje pequeños que mantengan el rendimiento y la adaptabilidad con menos entrenamiento de datos y menores requisitos computacionales.

Cualquier empresa tecnológica que piense en la IA tiene un interés significativo en los modelos de lenguaje multimodal que operan desde dentro de dispositivos inteligentes. Cuando informé sobre Ferret LLM de Apple , la primera incursión en IA de código abierto del fabricante de computadoras personales para desarrolladores, mencioné la versión pequeña de LLM porque se creó teniendo en mente las aplicaciones para dispositivos iOS. Tener un marco de IA interno disponible para sus teléfonos inteligentes y tabletas fortalecería los ecosistemas tecnológicos de Apple: les daría a los desarrolladores una forma de desarrollar aplicaciones basadas en IA más rápidamente para su línea de dispositivos y proporcionaría un medio para integrar las características de las aplicaciones en todos los dispositivos.

Para OpenAI, el lanzamiento de una versión mini de ChatGPT le brindará a la empresa una ventaja similar en el ecosistema tecnológico, una que los especialistas en marketing que trabajan en iniciativas de IA deben monitorear a medida que evoluciona el espacio tecnológico de IA.

Sobre el Autor

Pierre De Bois

Pierre DeBois es el fundador y director ejecutivo de Zimana, una empresa de servicios de análisis que ayuda a las organizaciones a lograr mejoras en el marketing, el desarrollo de sitios web y las operaciones comerciales. Zimana ha brindado servicios de análisis utilizando Google Analytics, programación R, Python, JavaScript y otras tecnologías donde los datos y las métricas se mantienen.

Fuente: https://www.cmswire.com/digital-experience/why-the-chatgpt-4o-mini-model-matters-more-than-ever/

Deja una respuesta