Mientras Google DeepMind celebraba su medalla de oro oficial en la Olimpiada de Matemáticas, la victoria se hizo aún más significativa por la forma en que se anunció. Al esperar la verificación oficial, Google trazó un marcado contraste con las afirmaciones no verificadas de su rival OpenAI, lo que provocó un feroz debate sobre la credibilidad y el espíritu deportivo en la carrera de las herramientas generativas. En un campo tan competitivo, ¿importa más cómo se gana ahora que lo que se gana?

por VentureBeat

Google DeepMind anunció el lunes que una versión avanzada de su modelo de inteligencia artificial Gemini ha logrado oficialmente un rendimiento de nivel de medalla de oro en la Olimpiada Internacional de Matemáticas, resolviendo cinco de seis problemas excepcionalmente difíciles y ganando el reconocimiento como el primer sistema de IA en recibir una calificación oficial de nivel oro de los organizadores de la competencia.

La victoria avanza en el campo del razonamiento de la IA y pone a Google por delante en la batalla cada vez más intensa entre los gigantes tecnológicos que construyen la inteligencia artificial de próxima generación. Y lo que es más importante, demuestra que la IA ahora puede abordar problemas matemáticos complejos utilizando la comprensión del lenguaje natural en lugar de requerir lenguajes de programación especializados.

“Los resultados oficiales ya están aquí: ¡Géminis logró la medalla de oro en la Olimpiada Internacional de Matemáticas!” Demis Hassabis, CEO de Google DeepMind, escribió en la plataforma de redes sociales X el lunes por la mañana. “Una versión avanzada fue capaz de resolver 5 de 6 problemas. Un progreso increíble”.

La Olimpiada Internacional de Matemáticas, que se celebra anualmente desde 1959, es ampliamente considerada la competencia de matemáticas más prestigiosa del mundo para estudiantes preuniversitarios. Cada país participante envía a seis jóvenes matemáticos de élite para competir en la resolución de seis problemas excepcionalmente desafiantes que abarcan el álgebra, la combinatoria, la geometría y la teoría de números. Solo alrededor del 8% de los participantes humanos suelen ganar medallas de oro.

Cómo Gemini Deep Think de Google DeepMind resolvió los problemas matemáticos más difíciles

El último éxito de Google supera con creces su rendimiento de 2024, cuando los sistemas combinados AlphaProof y AlphaGeometry de la compañía obtuvieron la medalla de plata al resolver cuatro de los seis problemas. Ese sistema anterior requería que los expertos humanos primero tradujeran los problemas del lenguaje natural a lenguajes de programación de dominio específico y luego interpretaran los resultados matemáticos de la IA.

El avance de este año llegó a través de Gemini Deep Think, un sistema de razonamiento mejorado que emplea lo que los investigadores llaman “pensamiento paralelo“. A diferencia de los modelos tradicionales de IA que siguen una única cadena de razonamiento, Deep Think explora simultáneamente múltiples soluciones posibles antes de llegar a una respuesta final.

“Nuestro modelo funcionó de extremo a extremo en lenguaje natural, produciendo rigurosas pruebas matemáticas directamente a partir de las descripciones oficiales de los problemas”, explicó Hassabis en una publicación de seguimiento en el sitio de redes sociales X, enfatizando que el sistema completó su trabajo dentro del límite de tiempo estándar de 4,5 horas de la competencia.

El modelo logró 35 de 42 puntos posibles, superando cómodamente el umbral de la medalla de oro. Según el presidente de la OMI, Prof. Dr. Gregor Dolinar, las soluciones fueron “asombrosas en muchos aspectos” y resultaron ser “claras, precisas y en su mayoría fáciles de seguir” por los evaluadores de la competición.

OpenAI se enfrenta a una reacción violenta por saltarse las reglas oficiales de la competencia

El anuncio se produce en medio de una creciente tensión en la industria de la IA sobre las prácticas competitivas y la transparencia. El enfoque mesurado de Google DeepMind para publicar sus resultados ha recibido elogios de la comunidad de IA, particularmente en contraste con el manejo de logros similares de su rival OpenAI.

“No lo anunciamos el viernes porque respetamos la solicitud original de la Junta de la OMI de que todos los laboratorios de IA compartieran sus resultados solo después de que los resultados oficiales hubieran sido verificados por expertos independientes y los estudiantes hubieran recibido correctamente la aclamación que merecían”, escribió Hassabis, pareciendo hacer referencia al anuncio anterior de OpenAI de su propio desempeño olímpico.

Los usuarios de las redes sociales no tardaron en notar la distinción. “¿Ves? OpenAI ignoró la solicitud de la OMI. Vergüenza. No hay clase. Falta de respeto”, escribió un usuario. “Google DeepMind actuó con integridad, alineado con la humanidad”.

Las críticas se derivan de la decisión de OpenAI de anunciar sus propios resultados de la olimpiada matemática sin participar en el proceso de evaluación oficial de la OMI. En su lugar, OpenAI hizo que un panel de antiguos participantes de la OMI calificara el rendimiento de su IA, un enfoque que algunos en la comunidad consideran carente de credibilidad.

“OpenAI es posiblemente la peor empresa del planeta en este momento”, escribió un crítico, mientras que otros sugirieron que la compañía necesita “tomar las cosas en serio” y “ser más creíble”.

Dentro de los métodos de entrenamiento que impulsaron el dominio matemático de Géminis

El éxito de Google DeepMind parece deberse a nuevas técnicas de entrenamiento que van más allá de los enfoques tradicionales. El equipo utilizó métodos avanzados de aprendizaje por refuerzo diseñados para aprovechar el razonamiento de varios pasos, la resolución de problemas y los datos de demostración de teoremas. El modelo también tuvo acceso a una colección seleccionada de soluciones matemáticas de alta calidad y recibió orientación específica sobre cómo abordar problemas similares a los de la OMI.

El logro técnico impresionó a los investigadores de IA, que señalaron sus implicaciones más amplias. “No solo resolver matemáticas… sino comprender los problemas descritos por el lenguaje y aplicar la lógica abstracta a casos nuevos”, escribió la observadora de IA Elyss Wren. “Esto no es memoria de memoria, es cognición emergente en movimiento”.

Ethan Mollick, profesor de la Wharton School que estudia la IA, enfatizó la importancia de usar un modelo de propósito general en lugar de herramientas especializadas. “Cada vez hay más pruebas de la capacidad de los LLM para generalizar a la resolución de problemas novedosos”, escribió, destacando cómo esto difiere de los enfoques anteriores que requerían software matemático especializado.

El modelo demostró un razonamiento particularmente impresionante en un problema en el que muchos competidores humanos aplicaron conceptos matemáticos de nivel de posgrado. Según el investigador de DeepMind, Junehyuk Jung, Géminis “hizo una observación brillante y utilizó solo la teoría elemental de números para crear una prueba autocontenida”, encontrando una solución más elegante que muchos participantes humanos.

Lo que significa la victoria de Google DeepMind para la carrera de la IA de 200.000 millones de dólares

El avance se produce en un momento crítico en la industria de la IA, donde las empresas están compitiendo para demostrar capacidades de razonamiento superiores. El éxito tiene implicaciones prácticas inmediatas: Google planea poner a disposición de los matemáticos una versión de este modelo de Deep Think para que la prueben antes de lanzarla a los suscriptores de Google AI Ultra, que pagan 250 dólares mensuales por el acceso a los modelos de IA más avanzados de la compañía.

El momento también pone de manifiesto la intensificación de la competencia entre los principales laboratorios de IA. Si bien Google celebró su enfoque metódico y verificado oficialmente, la controversia en torno al anuncio de OpenAI refleja tensiones más amplias sobre la transparencia y la credibilidad en el desarrollo de la IA.

Esta dinámica competitiva va más allá del razonamiento matemático. En las últimas semanas, varias empresas de IA han anunciado capacidades revolucionarias, aunque no todas han sido recibidas positivamente. xAI de Elon Musk lanzó recientemente Grok 4, que según la compañía era la “IA más inteligente del mundo”, aunque las puntuaciones de la tabla de clasificación mostraban que estaba por detrás de los modelos de Google y OpenAI. Además, Grok se ha enfrentado a críticas por características controvertidas que incluyen compañeros de IA sexualizados y episodios de generación de contenido antisemita.

Los albores de la IA que piensa como los humanos, con consecuencias en el mundo real

La victoria en la olimpiada matemática va más allá del derecho a presumir competitivo. El rendimiento de Gemini demuestra que los sistemas de IA ahora pueden igualar el razonamiento a nivel humano en tareas complejas que requieren creatividad, pensamiento abstracto y la capacidad de sintetizar conocimientos en múltiples dominios.

“Este es un avance significativo con respecto al resultado del año pasado”, señaló el equipo de DeepMind en su anuncio técnico. La progresión de requerir lenguajes formales especializados a operar completamente en lenguaje natural sugiere que los sistemas de IA se están volviendo más intuitivos y accesibles.

Para las empresas, este desarrollo indica que la IA pronto podría abordar problemas analíticos complejos en diversas industrias sin requerir programación especializada o experiencia en el dominio. La capacidad de razonar a través de desafíos intrincados utilizando el lenguaje cotidiano podría democratizar las capacidades analíticas sofisticadas en todas las organizaciones.

Sin embargo, persisten las preguntas sobre si estas capacidades de razonamiento se traducirán de manera efectiva en desafíos más desordenados del mundo real. La olimpiada matemática proporciona problemas bien definidos con criterios de éxito claros, muy lejos de las decisiones ambiguas y multifacéticas que definen la mayoría de los esfuerzos comerciales y científicos.

Google DeepMind planea regresar a la competencia del próximo año “en busca de una puntuación perfecta“. La compañía cree que los sistemas de IA que combinan la fluidez del lenguaje natural con el razonamiento riguroso “se convertirán en herramientas invaluables para matemáticos, científicos, ingenieros e investigadores, lo que nos ayudará a avanzar en el conocimiento humano en el camino hacia AGI”.

Pero quizás el detalle más revelador surgió de la competencia en sí: cuando se enfrentó al problema más difícil del concurso, Géminis partió de una hipótesis incorrecta y nunca se recuperó. Solo cinco estudiantes humanos resolvieron ese problema correctamente. Al final, parece que incluso la IA ganadora de la medalla de oro todavía tiene algo que aprender de los matemáticos adolescentes.

Fuente: Google DeepMind makes AI history with gold medal win at world’s toughest math competition

Deja una respuesta