Supera a GPT-4 en casi todos los aspectos, pero solo por un poco. ¿Valió la pena tanto ruido?
por Melissa Heikkilä & Will Douglas Cielo
El hype sobre Gemini, la respuesta de Google DeepMind a GPT-4 de OpenAI, se ha estado acumulando durante meses. Hoy, la compañía finalmente reveló en qué ha estado trabajando en secreto todo este tiempo. ¿Estaba justificado el bombo? Sí y no.
Gemini es el mayor lanzamiento de IA de Google hasta la fecha, su impulso para enfrentarse a sus competidores OpenAI y Microsoft en la carrera por la supremacía de la IA. No hay duda de que el modelo se presenta como el mejor de su clase en una amplia gama de capacidades, una “máquina de todo”, como dice un observador.
“El modelo es innatamente más capaz”, dijo Sundar Pichai, CEO de Google y su empresa matriz Alphabet, a MIT Technology Review. “Es una plataforma. La IA es un cambio profundo en la plataforma, más grande que la web o los dispositivos móviles. Por lo tanto, representa un gran paso para nosotros”.
Es un gran paso para Google, pero no necesariamente un gran salto para el campo en su conjunto. Google DeepMind afirma que Gemini supera a GPT-4 en 30 de las 32 medidas estándar de rendimiento. Y, sin embargo, los márgenes entre ellos son estrechos. Lo que Google DeepMind ha hecho es reunir las mejores capacidades actuales de la IA en un paquete potente. A juzgar por las demostraciones, hace muchas cosas muy bien, pero pocas cosas que no hayamos visto antes. A pesar de todo el rumor sobre la próxima gran novedad, Géminis podría ser una señal de que hemos alcanzado el pico de la IA. Al menos por ahora.
Chirag Shah, profesor de la Universidad de Washington que se especializa en búsquedas en línea, compara el lanzamiento con la introducción de un nuevo iPhone por parte de Apple cada año. “Tal vez ahora hemos llegado a un umbral diferente, en el que esto no nos impresiona tanto porque acabamos de ver mucho”, dice.
Al igual que GPT-4, Gemini es multimodal, lo que significa que está entrenado para manejar múltiples tipos de entrada: texto, imágenes, audio. Puede combinar estos diferentes formatos para responder preguntas sobre todo, desde las tareas domésticas hasta las matemáticas universitarias y la economía.
En una demostración para periodistas ayer, Google mostró la capacidad de Gemini para tomar una captura de pantalla existente de un gráfico, analizar cientos de páginas de investigación con nuevos datos y luego actualizar el gráfico con esa nueva información. En otro ejemplo, a Géminis se le muestran imágenes de una tortilla cocinándose en una sartén y se le pregunta (usando el habla, no el texto) si la tortilla ya está cocida. “No está listo porque los huevos todavía están líquidos”, responde.
Sin embargo, la mayoría de las personas tendrán que esperar para tener la experiencia completa. La versión lanzada hoy es un back-end de Bard, el chatbot de búsqueda basado en texto de Google, que según la compañía le dará capacidades más avanzadas de razonamiento, planificación y comprensión. El lanzamiento completo de Gemini se escalonará en los próximos meses. El nuevo Bard impulsado por Gemini estará disponible inicialmente en inglés en más de 170 países, sin incluir la UE y el Reino Unido. Esto es para permitir que la compañía “se comprometa” con los reguladores locales, dice Sissie Hsiao, vicepresidenta de Google a cargo de Bard.
Gemini también viene en tres tamaños: Ultra, Pro y Nano. Ultra es la versión de máxima potencia; Pro y Nano están diseñados para aplicaciones que se ejecutan con recursos informáticos más limitados. Nano está diseñado para ejecutarse en dispositivos, como los nuevos teléfonos Pixel de Google. Los desarrolladores y las empresas podrán acceder a Gemini Pro a partir del 13 de diciembre. Gemini Ultra, el modelo más potente, estará disponible “a principios del próximo año” después de “extensos controles de confianza y seguridad”, dijeron ejecutivos de Google a periodistas en una conferencia de prensa.
“Pienso en ello como la era de los modelos de Géminis”, nos dijo Pichai. “Así es como Google DeepMind va a construir y progresar en la IA. Por lo tanto, siempre representará la frontera en la que estamos progresando en la tecnología de IA”.
¿Más grande, mejor, más rápido, más fuerte?
El modelo más potente de OpenAI, GPT-4, se considera el estándar de oro de la industria. Mientras que Google se jactó de que Gemini supera al modelo anterior de OpenAI, GPT 3.5, los ejecutivos de la compañía esquivaron las preguntas sobre hasta qué punto el modelo supera a GPT-4.
Pero la firma destaca un punto de referencia en particular, llamado MMLU (comprensión masiva del lenguaje multitarea). Se trata de un conjunto de pruebas diseñadas para medir el rendimiento de los modelos en tareas que involucran texto e imágenes, incluida la comprensión lectora, las matemáticas universitarias y los cuestionarios de opción múltiple en física, economía y ciencias sociales. En las preguntas de solo texto, Géminis obtiene una puntuación del 90% y los expertos humanos obtienen una puntuación de aproximadamente el 89%, dice Pichai. GPT-4 obtiene una puntuación del 86% en este tipo de preguntas. En las preguntas multimodales, Gemini obtiene una puntuación del 59%, mientras que GPT-4 obtiene una puntuación del 57%. “Es el primer modelo que cruza ese umbral”, dice Pichai.
El rendimiento de Gemini en comparación con los conjuntos de datos de referencia es muy impresionante, dice Melanie Mitchell, investigadora de inteligencia artificial en el Instituto Santa Fe en Nuevo México.
“Está claro que Gemini es un sistema de IA muy sofisticado”, dice Mitchell. Pero “no es obvio para mí que Gemini sea en realidad sustancialmente más capaz que GPT-4”, añade.
Si bien el modelo tiene buenos puntajes de referencia, es difícil saber cómo interpretar estos números dado que no sabemos qué hay en los datos de entrenamiento, dice Percy Liang, director del Centro de Investigación sobre Modelos de Fundación de Stanford.
Mitchell también señala que Gemini se desempeña mucho mejor en los puntos de referencia de lenguaje y código que en imágenes y video. “Los modelos de cimentación multimodales todavía tienen un largo camino por recorrer para ser útiles de manera general y robusta para muchas tareas”, dice.
Utilizando los comentarios de probadores humanos, Google DeepMind ha entrenado a Gemini para que sea más preciso en cuanto a los hechos, para que dé la atribución cuando se le pida y para que se proteja en lugar de escupir tonterías cuando se enfrente a una pregunta que no puede responder. La compañía afirma que esto mitiga el problema de las alucinaciones. Pero sin una revisión radical de la tecnología base, los grandes modelos de lenguaje continuarán inventando cosas.
Los expertos dicen que no está claro si los puntos de referencia que Google está utilizando para medir el rendimiento de Gemini ofrecen tanta información, y sin transparencia, es difícil verificar las afirmaciones de Google.
“Google está anunciando Gemini como una máquina de todo, un modelo de propósito general que se puede usar de muchas maneras diferentes”, dice Emily Bender, profesora de lingüística computacional en la Universidad de Washington. Pero la compañía está utilizando puntos de referencia estrechos para evaluar los modelos que espera que se utilicen para estos diversos propósitos. “Esto significa que efectivamente no se puede evaluar a fondo”, dice.
En última instancia, para el usuario promedio, la mejora incremental con respecto a los modelos de la competencia podría no hacer mucha diferencia, dice Shah. “Se trata más de la conveniencia, el reconocimiento de la marca, la integración existente, que de que la gente realmente piense ‘Oh, esto es mejor'”, dice.
Una acumulación larga y lenta
Géminis ha tardado mucho en llegar. En abril de 2023, Google anunció que fusionaba su unidad de investigación de IA Google Brain con DeepMind, el laboratorio de investigación de IA de Alphabet con sede en Londres. Así que Google ha tenido todo el año para desarrollar su respuesta al modelo de lenguaje grande más avanzado de OpenAI, GPT-4, que debutó en marzo y es la columna vertebral de la versión de pago de ChatGPT.
Google ha estado bajo una intensa presión para mostrar a los inversores que puede igualar y superar a sus competidores en IA. Aunque la compañía ha estado desarrollando y utilizando potentes modelos de IA durante años, ha dudado en lanzar herramientas con las que el público pueda jugar por temor a daños a la reputación y preocupaciones de seguridad.
“Google ha sido muy cauteloso a la hora de lanzar estas cosas al público”, dijo Geoffrey Hinton a MIT Technology Review en abril cuando dejó la compañía. “Hay demasiadas cosas malas que podrían suceder, y Google no quería arruinar su reputación”. Frente a una tecnología que parecía poco confiable o incomercializable, Google jugó a lo seguro, hasta que el mayor riesgo se convirtió en perderlo.
Google ha aprendido por las malas cómo el lanzamiento de productos defectuosos puede ser contraproducente. Cuando dio a conocer a su competidor de ChatGPT, Bard, en febrero, los científicos pronto notaron un error fáctico en el propio anuncio de la compañía para el chatbot, un incidente que posteriormente borró 100 mil millones de dólares del precio de sus acciones.
En mayo, Google anunció que estaba implementando la IA generativa en la mayoría de sus productos, desde el correo electrónico hasta el software de productividad. Pero los resultados no lograron impresionar a los críticos: el chatbot hizo referencias a correos electrónicos que no existían, por ejemplo.
Este es un problema constante con los modelos de lenguaje grandes. Aunque son excelentes para generar texto que suena como algo que un humano podría haber escrito, los sistemas de IA generativa inventan cosas regularmente. Y ese no es el único problema con ellos. También son fáciles de hackear y están plagados de prejuicios. Su uso también es altamente contaminante.
Google no ha resuelto ni estos problemas ni el problema de las alucinaciones. Su solución a este último problema es una herramienta que permite a las personas usar la búsqueda de Google para verificar las respuestas del chatbot, pero eso depende de la precisión de los resultados de búsqueda en línea.
Géminis puede ser el pináculo de esta ola de IA generativa. Pero no está claro hacia dónde se dirige la IA basada en grandes modelos lingüísticos. Algunos investigadores creen que esto podría ser una meseta en lugar del pie del próximo pico.
Pichai no se inmuta. “De cara al futuro, vemos mucho margen de maniobra”, dice. “Creo que la multimodalidad será grande. A medida que enseñemos a estos modelos a razonar más, habrá avances cada vez más grandes. Todavía están por venir avances más profundos.
“Cuando lo asimilo en su totalidad, realmente siento que estamos en el principio”.
Mat Honan contribuyó con este reportaje.