“Un equipo de la Universidad de California, Los Ángeles, probó el GPT-3 LLM utilizando preguntas que deberían ser familiares para cualquier estadounidense que haya pasado tiempo en pruebas estandarizadas como el SAT. En todas las variantes menos una de estas preguntas, GPT-3 superó a los estudiantes universitarios que presumiblemente habían dominado estas pruebas solo unos años antes. Los investigadores sugieren que esto indica que los LLM pueden dominar el razonamiento por analogía”.
por John Timmer | Ars Technica

Los estudiantes universitarios son derrotados en preguntas como las que los ayudaron a ingresar a la universidad.
Los modelos de lenguaje grande son una clase de algoritmo de IA que se basa en una gran cantidad de nodos computacionales y una cantidad igualmente grande de conexiones entre ellos. Pueden ser entrenados para realizar una variedad de funciones, plegamiento de proteínas, ¿alguien ?, pero son reconocidos principalmente por sus capacidades con los lenguajes humanos.
Los LLM capacitados para simplemente predecir la próxima palabra que aparecerá en el texto pueden producir conversaciones y ensayos que suenan humanos, aunque con algunos problemas de precisión preocupantes. Los sistemas han demostrado una variedad de comportamientos que parecen ir mucho más allá de las capacidades de lenguaje simple para las que fueron entrenados.
Aparentemente, podemos agregar analogías a la lista de elementos que los LLM han dominado sin darse cuenta. Un equipo de la Universidad de California, Los Ángeles, probó el GPT-3 LLM utilizando preguntas que deberían ser familiares para cualquier estadounidense que haya pasado tiempo en pruebas estandarizadas como el SAT. En todas las variantes menos una de estas preguntas, GPT-3 superó a los estudiantes universitarios que presumiblemente habían dominado estas pruebas solo unos años antes. Los investigadores sugieren que esto indica que los LLM pueden dominar el razonamiento por analogía.
Diferentes tipos de razonamiento
El equipo de UCLA, Taylor Webb, Keith Holyoak y Hongjing Lu, se basó en una gran colección de formas en que investigaciones anteriores han probado la capacidad de los humanos para razonar por analogía. La forma clásica de esto es la finalización de una comparación, piense que “frío es a hielo como caliente a ____”, donde debe seleccionar la mejor finalización de un conjunto de opciones.Anuncio
Las pruebas relacionadas implican descubrir las reglas detrás de las transformaciones de una serie de letras. Entonces, por ejemplo, si la serie abcd se transforma en abce, entonces la regla es reemplazar la última letra de la serie con su sucesor alfabético. La comprensión de la regla por parte de los participantes se prueba pidiéndoles que usen la regla para transformar un conjunto diferente de letras. Pruebas similares con números pueden involucrar reglas complejas, como “solo números pares en orden, pero pueden ser ascendentes o descendentes”.
En todas estas pruebas, GPT-3 superó constantemente a los estudiantes universitarios, aunque los márgenes variaron según la prueba específica involucrada. Los investigadores también descubrieron que el software podía desarrollar reglas basadas en una serie de números y luego aplicarlas a un dominio diferente, como descripciones de temperaturas como “cálida” y “fría”. Concluyen que “estos resultados sugieren que GPT-3 ha desarrollado una noción abstracta de sucesión que se puede generalizar de manera flexible entre diferentes dominios”.
Pero también hubo algunos fallos extraños. El software no reconocía constantemente cuándo se le presentaban estos problemas y mostraba una gran tasa de error a menos que se le indicara una respuesta o cuando la pregunta se formulaba como una oración, en lugar de un conjunto de valores.
Aprendiendo de las historias
Sin embargo, no todo fue sombrío para los estudiantes universitarios. Fueron mucho mejores que GPT-3 para extraer el significado del texto. Esto se probó dando a los participantes, humanos o software, una historia de un párrafo y luego preguntándoles cuál de las dos historias adicionales se asemejaba más a la original. Solo una de las opciones mantuvo cosas como relaciones causales como la historia original, y los estudiantes universitarios la identificaron con mucha más frecuencia que el software.
Los investigadores señalan, sin embargo, que hicieron algunas pruebas preliminares con GPT-4, la versión actualizada del software, y funcionó mucho, mucho mejor. Por lo tanto, los estudiantes universitarios no deberían sentirse seguros de que su ventaja durará.
En el último conjunto de pruebas descrito en el documento, a los participantes se les dio un problema sin una solución obvia y luego se les proporcionó una historia análoga que incluía una solución. Las personas normalmente pueden extraer la lección de la historia y luego aplicar esa lección al problema original. Y GPT-3 pudo hacer lo mismo en muchos casos.
Pero fue fácil hacerlo fallar. Déle algunas historias adicionales que distraigan y el software no podrá encontrar una analogía a menos que se le solicite específicamente que lo haga, aunque una vez que se le solicite, generalmente podrá identificar la historia más relevante. Y cuando se le presentaba un problema que requería una solución física, el software normalmente proponía respuestas que eran mecánicamente imposibles. Entonces, si bien puede identificar analogías, no entiende cómo limitar las analogías basadas en el conocimiento de otros dominios.
¿Qué nos dice esto?
Es posible mirar estos resultados y decir que la IA ha dominado el razonamiento por analogía o al menos es más capaz que muchos humanos. Pero la situación es bastante más complicada que eso. Por ejemplo, los investigadores señalan que sería imposible entrenar una IA en el lenguaje humano y no hacer que desarrolle la capacidad de manejar analogías: “El lenguaje natural humano está repleto de analogías; por lo tanto, predecir con precisión el lenguaje natural probablemente requiera la capacidad de apreciar analogías”.
Además, las pruebas específicas realizadas aquí con frecuencia tenían paralelos directos con el entrenamiento de grandes modelos de lenguaje. GPT-3 y sus similares aprenden en función de su capacidad para predecir la siguiente palabra en un texto, mientras que varias de las pruebas requerían que predijera el siguiente elemento de una serie. Entonces, es posible que el software haya recibido un refuerzo positivo por hacer las cosas bien.
Finalmente, parte de la capacidad humana de razonar implica aferrarse a fragmentos exitosos de razonamiento y aplicarlos en nuevas circunstancias. GPT-3, por el contrario, pierde todo menos sus capacidades básicas cada vez que se reinicia. “GPT-3 puede usar la historia general para guiar su solución [a un problema análogo]”, señalan los autores, “pero tan pronto como se vacía su búfer de contexto, vuelve a dar su solución no analógica al problema: el el sistema no ha aprendido nada al procesar la analogía”.
Nature Human Behavior, 2023. DOI: 10.1038/s41562-023-01659-w (Acerca de los DOI).