Resultados recientes muestran que los modelos lingüísticos de gran tamaño tienen dificultades para realizar tareas de composición, lo que sugiere un límite estricto a sus capacidades.
por Anil Ananthaswamy | Imagen: Kristina Armitage | Revista Quanta

l 17 de diciembre de 1962, Life International publicó un rompecabezas de lógica(abre una nueva pestaña)Consistía en 15 oraciones que describían cinco casas en una calle. Cada oración era una pista, como “El inglés vive en la casa roja” o “En la casa del medio se bebe leche”. Cada casa era de un color diferente, con habitantes de diferentes nacionalidades, que tenían diferentes mascotas, etc. El titular de la historia preguntaba: “¿Quién es el dueño de la cebra?”. Problemas como este han demostrado ser una medida de las capacidades (limitaciones, en realidad) de los modelos de aprendizaje automático actuales.
También conocido como el acertijo o rompecabezas de Einstein (probablemente una atribución apócrifa), el problema pone a prueba un cierto tipo de razonamiento de varios pasos. Nouha Dziri(abre una nueva pestaña), científica investigadora del Instituto Allen de IA, y sus colegas recientemente pusieron en funcionamiento modelos de lenguaje grandes (LLM) basados en transformadores, como ChatGPT, para que trabajaran en dichas tareas, y en gran medida los encontraron deficientes. “Es posible que no puedan razonar más allá de lo que han visto durante los datos de entrenamiento para tareas difíciles”, dijo Dziri. “O al menos hacen una aproximación, y esa aproximación puede ser errónea”.
El acertijo de Einstein requiere componer una solución más grande a partir de soluciones a subproblemas, lo que los investigadores llaman una tarea de composición. El equipo de Dziri demostró que los LLM que solo han sido entrenados para predecir la siguiente palabra en una secuencia (que es la mayoría de ellos) están fundamentalmente limitados.(abre una nueva pestaña)en su capacidad para resolver tareas de razonamiento compositivo. Otros investigadores han demostrado que los transformadores, la arquitectura de red neuronal utilizada por la mayoría de los LLM, tienen límites matemáticos estrictos cuando se trata de resolver tales problemas. Los científicos han tenido algunos éxitos al llevar a los transformadores más allá de estos límites, pero cada vez más parecen soluciones a corto plazo. Si es así, significa que existen límites computacionales fundamentales para las capacidades de estas formas de inteligencia artificial, lo que puede significar que es hora de considerar otros enfoques.
“El trabajo está realmente motivado para ayudar a la comunidad a tomar esta decisión sobre si los transformadores son realmente la arquitectura que queremos adoptar para el aprendizaje universal”, dijo Andrew Wilson .(abre una nueva pestaña), un experto en aprendizaje automático de la Universidad de Nueva York que no participó en este estudio.
El éxito genera escrutinio
Irónicamente, los LLM son los únicos culpables de este descubrimiento de uno de sus límites. “La razón por la que todos sentimos curiosidad por saber si razonan de verdad es por sus asombrosas capacidades”, afirma Dziri. Deslumbraron en tareas que implicaban lenguaje natural, a pesar de la aparente simplicidad de su entrenamiento. Durante la fase de entrenamiento, se muestra a un LLM un fragmento de una frase con la última palabra oculta (aunque técnicamente no siempre es una sola palabra). El modelo predice la información que falta y luego “aprende” de sus errores.
Los modelos LLM más grandes (o1 y GPT-4 de OpenAI, Gemini de Google, Claude de Anthropic) se entrenan con casi todos los datos disponibles en Internet. Como resultado, los modelos LLM terminan aprendiendo la sintaxis y gran parte del conocimiento semántico del lenguaje escrito. Estos modelos “preentrenados” pueden entrenarse más, o afinarse, para completar tareas sofisticadas que van mucho más allá de completar oraciones, como resumir un documento complejo o generar código para jugar un juego de computadora. Los resultados fueron tan poderosos que los modelos parecían, a veces, capaces de razonar . Sin embargo, también fallaron de maneras obvias y sorprendentes.
“En ciertas tareas, se desempeñan sorprendentemente bien”, dijo Dziri. “En otras, son sorprendentemente estúpidos”.

Tomemos como ejemplo la multiplicación básica. Los LLM estándar, como ChatGPT y GPT-4, fallan estrepitosamente en esta tarea. A principios de 2023, cuando el equipo de Dziri le pidió a GPT-4 que multiplicara dos números de tres dígitos, inicialmente solo lo logró el 59 % de las veces. Cuando multiplicó dos números de cuatro dígitos, la precisión cayó a solo el 4 %.
El equipo también probó los LLM en tareas como el acertijo de Einstein, donde también tuvo un éxito limitado. GPT-4 siempre obtuvo la respuesta correcta cuando el acertijo involucraba dos casas con dos atributos por casa. Pero la precisión cayó al 10% cuando la complejidad del acertijo aumentó a cuatro casas con cuatro atributos por casa. Para la versión original en Life International (cinco casas, cada una con cinco atributos), la tasa de éxito fue del 0%.
El equipo de Dziri pensó que tal vez los LLM simplemente no habían visto suficientes ejemplos en sus datos de entrenamiento, por lo que ajustaron GPT-3 con 1,8 millones de ejemplos de multiplicación de dos números. Luego, cuando le mostraron nuevos problemas, el LLM los resolvió con éxito, pero solo si eran lo suficientemente similares a lo que había visto durante el entrenamiento. Por ejemplo, los datos de entrenamiento incluían la multiplicación de dos números de tres dígitos y de un número de dos dígitos con un número de cuatro dígitos, pero cuando se le pidió al modelo que multiplicara un número de cuatro dígitos con un número de tres dígitos, tuvo éxito solo el 2% de las veces. “Si realmente están razonando y entendiendo ciertas tareas, deberían obtener el algoritmo implícito”, dijo Dziri. Eso no es lo que vio su equipo. “Eso plantea muchas preguntas sobre cómo realizan las tareas los LLM y si están haciendo un razonamiento verdadero”.
El equipo observó el mismo patrón cuando se trató de resolver el acertijo de Einstein: GPT-3 falló cuando se le pidió que respondiera versiones más grandes del acertijo en comparación con las que estaba afinado. “Está imitando algo que ha visto, pero no lo comprende por completo”, dijo Dziri.
Límites estrictos
Mientras Dziri y sus coautores ultimaban sus resultados, un equipo diferente estaba adoptando otro enfoque para comprender por qué los estudiantes de maestría en derecho tenían dificultades con las tareas de composición. Binghui Peng(abre una nueva pestaña)Peng, que en ese momento era estudiante de doctorado en la Universidad de Columbia, estaba trabajando con uno de sus asesores, Christos Papadimitriou, y otros colegas para entender por qué los LLM “alucinan” o generan información factualmente incorrecta. Peng, ahora investigador postdoctoral en la Universidad de Stanford, sospechaba que se debía a que los transformadores parecen carecer de la “capacidad de composición”.
Para entender por qué, imaginemos que le damos a un LLM dos datos: el padre de Frédéric Chopin fue Nicolas Chopin, y Nicolas Chopin nació el 15 de abril de 1771. Si luego le preguntamos: “¿Cuál es la fecha de nacimiento del padre de Frédéric Chopin?”, el LLM tendría que responder componiendo o juntando los diferentes datos. En efecto, tendría que responder a la siguiente pregunta anidada: “¿Cuál es la fecha de nacimiento de (¿Quién es el padre de (Frédéric Chopin)?)?”. Si el LLM predice las palabras incorrectas como respuesta, se dice que ha alucinado, en este caso, posiblemente como resultado de no poder resolver la tarea de composición.
Peng quería poner a prueba esta intuición. Su equipo empezó estudiando las propiedades de un transformador simple, uno con una sola capa, que aprende a “prestar atención” al orden y la posición de las palabras de una oración cuando intenta predecir la siguiente palabra. (Los LLM modernos tienen decenas de capas de este tipo). El equipo estableció un vínculo(abre una nueva pestaña)entre la complejidad de la capa del transformador y el “tamaño del dominio”, o la cantidad de bits necesarios para representar las preguntas. Al centrarse en este modelo simple, demostraron que existe un límite matemático. “Si la cantidad total de parámetros en este transformador de una capa es menor que el tamaño de un dominio, entonces es probable que los transformadores no puedan resolver la tarea de composición”, dijo Peng. En otras palabras, un LLM con una sola capa de transformador estaba clara y matemáticamente limitado.
Aunque se trataba de un resultado teórico sólido, sus implicaciones prácticas no estaban claras, porque los LLM modernos son mucho más complejos. “No es fácil ampliar nuestra prueba”, dijo Peng. Por ello, su equipo utilizó un enfoque diferente para estudiar las capacidades de los transformadores más complicados: recurrieron a la teoría de la complejidad computacional, que estudia los problemas en términos de los recursos, como el tiempo y la memoria, necesarios para resolverlos.

Terminaron usando una conjetura bien conocida para demostrar que el poder computacional incluso de los transformadores multicapa es limitado cuando se trata de resolver problemas compositivos complicados. Luego, en diciembre de 2024, Peng y sus colegas de la Universidad de California, Berkeley, publicaron una prueba(abre una nueva pestaña)—sin depender de conjeturas sobre la complejidad computacional— que demuestran que los transformadores multicapa no pueden resolver ciertas tareas compositivas complicadas. Básicamente, algunos problemas compositivos siempre estarán fuera de la capacidad de los LLM basados en transformadores.
“Si el modelo se hace más grande, se pueden resolver problemas mucho más difíciles”, dijo Peng. “Pero si, al mismo tiempo, también se amplían los problemas, se vuelve más difícil resolverlos con modelos más grandes”. Esto sugiere que la arquitectura del transformador tiene limitaciones inherentes.
Ampliando los límites
Para ser claros, este no es el fin de los LLM. Wilson, de la Universidad de Nueva York, señala que a pesar de estas limitaciones, los investigadores están empezando a mejorar los transformadores para ayudarlos a lidiar mejor con, entre otros problemas, la aritmética. Por ejemplo, Tom Goldstein(abre una nueva pestaña), un científico informático de la Universidad de Maryland, y sus colegas agregaron un giro(abre una nueva pestaña)Wilson explicó que el modelo se entrenó para sumar números con información posicional adicional, que se presentó a un transformador que se estaba entrenando para sumar. Como resultado, el modelo se pudo entrenar con números de 20 dígitos y aún así sumar de manera confiable (con un 98 % de precisión) números de 100 dígitos, mientras que un modelo entrenado sin la incrustación posicional adicional solo tuvo una precisión del 3 %. “Esto sugiere que tal vez haya algunas intervenciones básicas que se puedan hacer”, dijo Wilson. “Eso realmente podría hacer un gran progreso en estos problemas sin necesidad de repensar toda la arquitectura”.
Otra forma de superar las limitaciones de un LLM, más allá de simplemente aumentar el tamaño del modelo, es proporcionar una solución paso a paso de un problema dentro de la indicación, una técnica conocida como indicación en cadena de pensamiento . Los estudios empíricos han demostrado que este enfoque puede dar a un LLM como GPT-4 una nueva capacidad para resolver más variedades de tareas relacionadas. No está exactamente claro por qué, lo que ha llevado a muchos investigadores a estudiar el fenómeno. “Teníamos curiosidad por saber por qué es tan poderoso y por qué se pueden hacer tantas cosas”, dijo Haotian Ye.(abre una nueva pestaña), estudiante de doctorado en la Universidad de Stanford.
Cuando Ye todavía era estudiante en la Universidad de Pekín, él y sus colegas modelaron el comportamiento de los transformadores.(abre una nueva pestaña)Con y sin inducción de cadenas de pensamiento. Su prueba, que utilizó otra rama de la informática llamada teoría de la complejidad de circuitos, estableció cómo la inducción de cadenas de pensamiento convierte esencialmente un gran problema en una secuencia de problemas más pequeños, lo que hace posible que los transformadores aborden tareas de composición más complejas. “Eso significa que… puede resolver algunos problemas que se encuentran en una clase computacional más amplia o más difícil”, dijo Ye.
Pero, advierte Ye, sus resultados no implican que los modelos del mundo real realmente puedan resolver problemas tan difíciles, incluso con la técnica de la cadena de pensamiento. El trabajo se centró en lo que un modelo es capaz de hacer en teoría; los detalles de cómo se entrenan los modelos dictan cómo pueden llegar a alcanzar este límite superior.
En definitiva, por impresionantes que sean estos resultados, no contradicen los hallazgos de los equipos de Dziri y Peng. Los LLM coinciden fundamentalmente con los patrones que han visto, y sus capacidades están limitadas por límites matemáticos. Incorporar trucos y estímulos de cadena de pensamiento simplemente amplía su capacidad para hacer una correspondencia de patrones más sofisticada. Los resultados matemáticos implican que siempre se pueden encontrar tareas de composición cuya complejidad está más allá de las capacidades de un sistema determinado. Incluso algunos “modelos de espacio de estados” más nuevos, que se han promocionado como alternativas más poderosas a los transformadores, muestran limitaciones similares.(abre una nueva pestaña).
Por un lado, estos resultados no cambian nada para la mayoría de las personas que utilizan estas herramientas. “Al público en general no le importa si se trata de razonamiento o no”, dijo Dziri. Pero para las personas que construyen estos modelos e intentan comprender sus capacidades, sí importa. “Tenemos que entender realmente qué está pasando bajo el capó”, dijo. “Si desciframos cómo realizan una tarea y cómo razonan, probablemente podamos solucionarlos. Pero si no lo sabemos, es realmente difícil hacer algo”.
Fuente: https://www.quantamagazine.org/chatbot-software-begins-to-face-fundamental-limitations-20250131/


