La arquitectura, conocida como Modelo de Razonamiento Jerárquico (HRM), está inspirada en cómo el cerebro humano utiliza distintos sistemas para una planificación lenta y deliberada y una computación rápida e intuitiva.
por Ben Dickson
La startup de IA con sede en Singapur, Sapient Intelligence, ha desarrollado una nueva arquitectura de IA que puede igualar, y en algunos casos superar ampliamente, a los grandes modelos de lenguaje (LLM) en tareas de razonamiento complejas, al tiempo que es significativamente más pequeña y más eficiente en cuanto a datos.
La arquitectura, conocida como Modelo de Razonamiento Jerárquico (HRM), está inspirada en cómo el cerebro humano utiliza distintos sistemas para una planificación lenta y deliberada y una computación rápida e intuitiva. El modelo logra resultados impresionantes con una fracción de los datos y la memoria requeridos por los LLM actuales. Esta eficiencia podría tener implicaciones importantes para las aplicaciones de IA empresarial del mundo real donde los datos son escasos y los recursos computacionales son limitados.
Los límites del razonamiento en cadena de pensamiento
Cuando se enfrentan a un problema complejo, los LLM actuales se basan en gran medida en la indicación de la cadena de pensamiento (CoT), dividiendo los problemas en pasos intermedios basados en texto, lo que esencialmente obliga al modelo a “pensar en voz alta” mientras trabaja hacia una solución.
Si bien CoT ha mejorado las habilidades de razonamiento de los LLM, tiene limitaciones fundamentales. En su artículo, los investigadores de Sapient Intelligence argumentan que “CoT para el razonamiento es una muleta, no una solución satisfactoria. Se basa en descomposiciones frágiles definidas por humanos donde un solo paso en falso o un error de orden de los pasos puede descarrilar el proceso de razonamiento por completo”.
Esta dependencia de la generación de lenguaje explícito ata el razonamiento del modelo al nivel de token, lo que a menudo requiere cantidades masivas de datos de entrenamiento y produce respuestas largas y lentas. Este enfoque también pasa por alto el tipo de “razonamiento latente” que ocurre internamente, sin estar explícitamente articulado en el lenguaje.
Como señalan los investigadores, “se necesita un enfoque más eficiente para minimizar estos requisitos de datos”.
Un enfoque jerárquico inspirado en el cerebro
Para ir más allá de CoT, los investigadores exploraron el “razonamiento latente”, donde en lugar de generar “tokens de pensamiento”, el modelo razona en su representación interna y abstracta del problema. Esto está más alineado con la forma en que piensan los humanos; Como dice el documento, “el cerebro mantiene cadenas de razonamiento largas y coherentes con una eficiencia notable en un espacio latente, sin una traducción constante al lenguaje”.
Sin embargo, lograr este nivel de razonamiento interno profundo en IA es un desafío. El simple hecho de apilar más capas en un modelo de aprendizaje profundo a menudo conduce a un problema de “gradiente de desaparición”, donde las señales de aprendizaje se debilitan en las capas, lo que hace que el entrenamiento sea ineficaz. Una alternativa, las arquitecturas recurrentes que repiten los cálculos pueden sufrir de “convergencia temprana”, donde el modelo se establece en una solución demasiado rápido sin explorar completamente el problema.

En busca de un mejor enfoque, el equipo de Sapient recurrió a la neurociencia en busca de una solución. “El cerebro humano proporciona un modelo convincente para lograr la profundidad computacional efectiva de la que carecen los modelos artificiales contemporáneos”, escriben los investigadores. “Organiza la computación jerárquicamente a través de regiones corticales que operan en diferentes escalas de tiempo, lo que permite un razonamiento profundo de múltiples etapas”.
Inspirados por esto, diseñaron HRM con dos módulos recurrentes acoplados: un módulo de alto nivel (H) para una planificación lenta y abstracta, y un módulo de bajo nivel (L) para cálculos rápidos y detallados. Esta estructura permite un proceso que el equipo llama “convergencia jerárquica”. Intuitivamente, el módulo L rápido aborda una parte del problema, ejecutando múltiples pasos hasta llegar a una solución local estable. En ese momento, el módulo H lento toma este resultado, actualiza su estrategia general y le da al módulo L un subproblema nuevo y refinado en el que trabajar. Esto restablece efectivamente el módulo L, evitando que se atasque (convergencia temprana) y permitiendo que todo el sistema realice una larga secuencia de pasos de razonamiento con una arquitectura de modelo ajustada que no sufre gradientes que se desvanecen.

Según el documento, “Este proceso permite que el HRM realice una secuencia de cálculos distintos, estables y anidados, donde el módulo H dirige la estrategia general de resolución de problemas y el módulo L ejecuta la búsqueda intensiva o el refinamiento requerido para cada paso”. Este diseño de bucle anidado permite que el modelo razone profundamente en su espacio latente sin necesidad de largas indicaciones de CoT o grandes cantidades de datos.
Una pregunta natural es si este “razonamiento latente” se produce a costa de la interpretabilidad. Guan Wang, fundador y director ejecutivo de Sapient Intelligence, rechaza esta idea, explicando que los procesos internos del modelo se pueden decodificar y visualizar, de manera similar a cómo CoT proporciona una ventana al pensamiento de un modelo. También señala que el CoT en sí mismo puede ser engañoso. “CoT no refleja genuinamente el razonamiento interno de un modelo”, dijo Wang a VentureBeat, haciendo referencia a estudios que muestran que los modelos a veces pueden producir respuestas correctas con pasos de razonamiento incorrectos, y viceversa. “Sigue siendo esencialmente una caja negra”.

HRM en acción
Para probar su modelo, los investigadores compararon HRM con puntos de referencia que requieren una búsqueda exhaustiva y un retroceso, como el Corpus de Abstracción y Razonamiento (ARC-AGI), rompecabezas de Sudoku extremadamente difíciles y tareas complejas de resolución de laberintos.
Los resultados muestran que la gestión de recursos humanos aprende a resolver problemas que son intratables incluso para los LLM avanzados. Por ejemplo, en los puntos de referencia “Sudoku-Extreme” y “Maze-Hard”, los modelos de CoT de última generación fallaron por completo, con una precisión del 0%. Por el contrario, HRM logró una precisión casi perfecta después de ser entrenado en solo 1,000 ejemplos para cada tarea.
En el punto de referencia ARC-AGI, una prueba de razonamiento abstracto y generalización, la HRM de 27 millones de parámetros obtuvo un 40,3%. Esto supera a los principales modelos basados en CoT, como el mucho más grande o3-mini-high (34,5%) y el Claude 3,7 Sonnet (21,2%). Este rendimiento, logrado sin un gran corpus previo al entrenamiento y con datos muy limitados, destaca la potencia y la eficiencia de su arquitectura.

Si bien la resolución de acertijos demuestra el poder del modelo, las implicaciones del mundo real se encuentran en una clase diferente de problemas. Según Wang, los desarrolladores deberían continuar usando LLM para tareas creativas o basadas en el lenguaje, pero para “tareas complejas o deterministas”, una arquitectura similar a HRM ofrece un rendimiento superior con menos alucinaciones. Señala “problemas secuenciales que requieren una toma de decisiones compleja o una planificación a largo plazo”, especialmente en campos sensibles a la latencia como la IA y la robótica incorporadas, o dominios con escasez de datos como la exploración científica.
En estos escenarios, la gestión de recursos humanos no solo resuelve problemas; aprende a resolverlos mejor. “En nuestros experimentos de Sudoku a nivel de maestro… La gestión de recursos humanos necesita progresivamente menos pasos a medida que avanza la capacitación, similar a un novato que se convierte en un experto”, explicó Wang.
Para la empresa, aquí es donde la eficiencia de la arquitectura se traduce directamente en el resultado final. En lugar de la generación en serie, token por token de CoT, el procesamiento paralelo de HRM permite lo que Wang estima que podría ser una “aceleración de 100 veces en el tiempo de finalización de la tarea”. Esto significa una menor latencia de inferencia y la capacidad de ejecutar un razonamiento potente en dispositivos perimetrales.
Los ahorros de costos también son sustanciales. “Los motores de razonamiento especializados como HRM ofrecen una alternativa más prometedora para tareas de razonamiento complejas específicas en comparación con los modelos basados en API grandes, costosos y con mucha latencia”, dijo Wang. Para poner la eficiencia en perspectiva, señaló que entrenar el modelo para Sudoku de nivel profesional toma aproximadamente dos horas de GPU, y para el punto de referencia complejo ARC-AGI, entre 50 y 200 horas de GPU, una fracción de los recursos necesarios para los modelos de base masiva. Esto abre un camino para resolver problemas comerciales especializados, desde la optimización logística hasta el diagnóstico de sistemas complejos, donde tanto los datos como el presupuesto son finitos.
De cara al futuro, Sapient Intelligence ya está trabajando para evolucionar la gestión de recursos humanos de un solucionador de problemas especializado a un módulo de razonamiento de propósito más general. “Estamos desarrollando activamente modelos inspirados en el cerebro basados en la gestión de recursos humanos”, dijo Wang, destacando los prometedores resultados iniciales en atención médica, pronóstico climático y robótica. Se burló de que estos modelos de próxima generación diferirán significativamente de los sistemas actuales basados en texto, especialmente a través de la inclusión de capacidades de autocorrección.
El trabajo sugiere que para una clase de problemas que han dejado perplejos a los gigantes de la IA de hoy, el camino a seguir puede no ser modelos más grandes, sino arquitecturas más inteligentes y estructuradas inspiradas en el motor de razonamiento definitivo: el cerebro humano.