Un sistema de inteligencia artificial desarrollado por Google DeepMind, el principal laboratorio de investigación de inteligencia artificial de Google, parece haber superado al medallista de oro promedio en la resolución de problemas de geometría en una competencia internacional de matemáticas.
por Kyle Wiggers

El sistema, llamado AlphaGeometry2, es una versión mejorada de un sistema, AlphaGeometry, que DeepMind lanzó en enero pasado . En un estudio publicado recientemente , los investigadores de DeepMind detrás de AlphaGeometry2 afirman que su IA puede resolver el 84% de todos los problemas de geometría de los últimos 25 años en la Olimpiada Internacional de Matemáticas (OIM), un concurso de matemáticas para estudiantes de secundaria.
¿Por qué a DeepMind le interesa una competencia de matemáticas de nivel secundario? Bueno, el laboratorio cree que la clave para una IA más capaz podría estar en descubrir nuevas formas de resolver problemas de geometría desafiantes, específicamente problemas de geometría euclidiana .
Para demostrar teoremas matemáticos o explicar de manera lógica por qué un teorema (por ejemplo, el teorema de Pitágoras) es cierto, se requiere tanto razonamiento como capacidad de elegir entre una variedad de pasos posibles para llegar a una solución. Estas habilidades para resolver problemas podrían —si DeepMind está en lo cierto— resultar un componente útil de futuros modelos de IA de propósito general.
De hecho, el verano pasado, DeepMind hizo una demostración de un sistema que combinaba AlphaGeometry2 con AlphaProof, un modelo de IA para el razonamiento matemático formal, para resolver cuatro de los seis problemas de la OMI de 2024. Además de los problemas de geometría, enfoques como estos podrían extenderse a otras áreas de las matemáticas y la ciencia, por ejemplo, para ayudar con cálculos de ingeniería complejos.
AlphaGeometry2 tiene varios elementos centrales, incluido un modelo de lenguaje de la familia de modelos de IA Gemini de Google y un “motor simbólico”. El modelo Gemini ayuda al motor simbólico, que utiliza reglas matemáticas para inferir soluciones a problemas, a llegar a pruebas factibles para un teorema geométrico determinado.

Los problemas de geometría de las Olimpiadas se basan en diagramas a los que es necesario añadir “construcciones” antes de poder resolverlos, como puntos, líneas o círculos. El modelo Gemini de AlphaGeometry2 predice qué construcciones pueden resultar útiles para añadir a un diagrama, a las que el motor hace referencia para realizar deducciones.
Básicamente, el modelo Gemini de AlphaGeometry2 sugiere pasos y construcciones en un lenguaje matemático formal al motor, que, siguiendo reglas específicas, verifica la coherencia lógica de estos pasos. Un algoritmo de búsqueda permite a AlphaGeometry2 realizar múltiples búsquedas de soluciones en paralelo y almacenar los hallazgos que puedan resultar útiles en una base de conocimiento común.
AlphaGeometry2 considera que un problema está “resuelto” cuando llega a una prueba que combina las sugerencias del modelo Gemini con los principios conocidos del motor simbólico.
Debido a las complejidades de traducir las pruebas a un formato que la IA pueda entender, hay una escasez de datos de entrenamiento de geometría utilizables. Por eso, DeepMind creó sus propios datos sintéticos para entrenar el modelo de lenguaje de AlphaGeometry2, generando más de 300 millones de teoremas y pruebas de diversa complejidad.
El equipo de DeepMind seleccionó 45 problemas de geometría de las competiciones de la OMI de los últimos 25 años (de 2000 a 2024), incluidas ecuaciones lineales y ecuaciones que requieren mover objetos geométricos alrededor de un plano. Luego los “tradujeron” a un conjunto más grande de 50 problemas. (Por razones técnicas, algunos problemas tuvieron que dividirse en dos).
Según el artículo, AlphaGeometry2 resolvió 42 de los 50 problemas, superando el puntaje promedio de los medallistas de oro de 40,9.
Es cierto que existen limitaciones. Una peculiaridad técnica impide que AlphaGeometry2 resuelva problemas con un número variable de puntos, ecuaciones no lineales y desigualdades. Y AlphaGeometry2 no es técnicamente el primer sistema de IA que alcanza un rendimiento de nivel de medalla de oro en geometría, aunque sí es el primero en lograrlo con un conjunto de problemas de este tamaño.
AlphaGeometry2 también obtuvo peores resultados en otro conjunto de problemas más difíciles de la OMI. Para aumentar el desafío, el equipo de DeepMind seleccionó problemas (29 en total) que habían sido nominados para los exámenes de la OMI por expertos en matemáticas, pero que aún no habían participado en una competencia. AlphaGeometry2 solo pudo resolver 20 de ellos.
Aun así, es probable que los resultados del estudio alimenten el debate sobre si los sistemas de IA deberían construirse sobre la manipulación de símbolos (es decir, manipular símbolos que representan conocimiento mediante reglas) o sobre redes neuronales aparentemente más parecidas al cerebro.
AlphaGeometry2 adopta un enfoque híbrido: su modelo Gemini tiene una arquitectura de red neuronal, mientras que su motor simbólico está basado en reglas.
Los defensores de las técnicas de redes neuronales sostienen que el comportamiento inteligente, desde el reconocimiento de voz hasta la generación de imágenes, puede surgir de nada más que cantidades masivas de datos y computación. A diferencia de los sistemas simbólicos, que resuelven tareas definiendo conjuntos de reglas de manipulación de símbolos dedicadas a tareas particulares, como editar una línea en un software de procesamiento de textos, las redes neuronales intentan resolver tareas mediante la aproximación estadística y el aprendizaje a partir de ejemplos.
Las redes neuronales son la piedra angular de los sistemas de IA potentes, como el modelo de “razonamiento” o1 de OpenAI . Pero, según afirman los partidarios de la IA simbólica, no son la solución definitiva; la IA simbólica podría estar mejor posicionada para codificar de manera eficiente el conocimiento del mundo, razonar a través de escenarios complejos y “explicar” cómo llegaron a una respuesta, argumentan estos partidarios.
“Resulta sorprendente ver el contraste entre el continuo y espectacular progreso en este tipo de puntos de referencia y, mientras tanto, los modelos de lenguaje, incluidos los más recientes con ‘razonamiento’, siguen luchando con algunos problemas simples de sentido común”, dijo a TechCrunch Vince Conitzer, profesor de informática de la Universidad Carnegie Mellon especializado en IA. “No creo que todo sea humo y espejos, pero ilustra que todavía no sabemos realmente qué comportamiento esperar del próximo sistema. Es probable que estos sistemas tengan un gran impacto, por lo que necesitamos urgentemente comprenderlos y los riesgos que plantean mucho mejor”.
AlphaGeometry2 quizás demuestra que los dos enfoques (manipulación de símbolos y redes neuronales) combinados son un camino prometedor en la búsqueda de una IA generalizable. De hecho, según el artículo de DeepMind, o1, que también tiene una arquitectura de red neuronal, no pudo resolver ninguno de los problemas de la OMI que AlphaGeometry2 pudo resolver.
Puede que esto no sea así para siempre. En el artículo, el equipo de DeepMind afirmó haber encontrado evidencia preliminar de que el modelo de lenguaje de AlphaGeometry2 era capaz de generar soluciones parciales a los problemas sin la ayuda del motor simbólico.
“Los resultados respaldan la idea de que los modelos de lenguaje de gran tamaño pueden ser autosuficientes sin depender de herramientas externas [como los motores simbólicos]”, escribió el equipo de DeepMind en el artículo, “pero hasta que se mejore la velocidad [del modelo] y se resuelvan por completo las alucinaciones , las herramientas seguirán siendo esenciales para las aplicaciones matemáticas”.