El nuevo modelo Gemini mejora la posición de Google en pruebas de IA de alto riesgo

Gemini 3 de Google se lanzó esta semana con avances impresionantes en algunas de las evaluaciones de razonamiento más difíciles del campo, un cambio que investigadores de IBM consideran refleja un avance real en las capacidades de Google como modelos de frontera.

por Sascha Brodsky – Redactor IBM

Contenido

Impulso de benchmark
Las primeras impresiones muestran tanto promesas como advertencias

Gemini 3 introduce un conjunto de mejoras de funciones que Google describe como un avance en capacidad práctica. Según el anuncio de la empresa, el modelo ahora gestiona texto, imágenes, audio y vídeo en una única ventana de contexto; añade nuevas herramientas de codificación por agentes que permiten a los desarrolladores generar aplicaciones funcionales a partir de prompts y amplía su alcance a través de Google Search, la app Gemini y plataformas empresariales como Vertex AI.

Impulso de benchmark

Google también presume de saltos en benchmarks que, según él, reflejan mejoras en el razonamiento y el uso de herramientas. La empresa destacó los avances en ARC-AGI, un mayor rendimiento en la ejecución de código basado en terminal y mejores resultados en tareas orientadas al desarrollador que requieren pasos de planificación y ejecución de herramientas.

Google está posicionando Gemini 3 como la pieza central de un ecosistema más amplio basado en herramientas agentes y coordinación entre aplicaciones. El centro de ese esfuerzo es Antigravity, un entorno de desarrollo integrado diseñado para permitir que el modelo planifique tareas, llame a herramientas, opere entre terminales y navegadores, y distribuya trabajo entre múltiples agentes.

Las primeras impresiones muestran tanto promesas como advertencias

Los primeros evaluadores señalaron que Google reportó avances considerables para Gemini 3 en varias evaluaciones de alta dificultad, incluyendo Humanity’s Last Exam, GPQA Diamond y ARC-AGI-2, y destacaron mejoras en cómo el modelo interpreta texto, imágenes, audio y vídeo juntos. También señalaron nuevas herramientas de codificación y agentes que pueden generar aplicaciones funcionales con menos prompting que versiones anteriores. Incluso con esos avances, Marina Danilevsky, investigadora senior de IBM, dijo en un episodio reciente del podcast Mixture of Experts que Gemini 3 “sigue alucinando, y todavía le gusta dar respuestas en lugar de decir que no las conoce”.

Otros investigadores destacaron la importancia de la estrategia de ecosistemas de Google. Gabe Goodhart, arquitecto jefe de innovación abierta en IA de IBM, dijo en el podcast que “un modelo realmente bueno ya no está tan diferenciado.” Argumentó que la ventaja competitiva ahora reside en las herramientas circundantes y no solo en el tamaño del modelo. Señaló la Antigravedad como ejemplo, llamándola “algo que no se puede encontrar en ningún otro sitio”, con la capacidad de lanzar “una flota de agentes delegados trabajadores” que pueden ejecutar tareas en paralelo.

Las pruebas prácticas hicieron que el contraste fuera más claro. Merve Unuvar, directora de Middleware Agentico e Investigación de Aplicaciones en IA en IBM, dijo en el podcast que pidió a Gemini 3 que creara un panel personal de entrenamiento. El modelo configuró una interfaz Streamlit funcional en menos de dos minutos y ofreció un conjunto limpio de recomendaciones. Pero cuando pidió una orientación más personalizada, le dio un consejo que ignoraba la información que ya tenía, diciéndole que “comiera alimentos ricos en nutrientes después del entrenamiento para ‘crecer'”, a pesar de saber su edad.

Goodhart dijo que la verdadera prueba para Gemini 3 vendrá de lo bien que maneja flujos de trabajo complejos y multiagente, no solo benchmarks.

“Si el modelo realmente puede mantener ese nivel de independencia y análisis paralelo”, dijo, “podría ser un verdadero avance.”

Fuente: https://www.ibm.com/think/news/gemini-3-boosts-googles-standing-in-ai-tests

Impulso de benchmark

Las primeras impresiones muestran tanto promesas como advertencias

Related Articles

¿Ven las máquinas mejor que nosotros si una imagen es falsa?

¿La IA está mejorando nuestra forma de pensar o la reemplaza?

Cuando la IA hace ciencia, ¿quién formula las grandes preguntas?

Medición del uso en la era de la IA

¿Y si Tinder mostrara tu coeficiente intelectual?

La paradoja del piloto de IA: ¿Por qué crece exponencialmente la complejidad de la IA empresarial?

Deja una respuesta Cancelar la respuesta

Política de Cookies