El gran desafío de la IA es el sentido común y, para lograrlo, se necesita un cuerpo. Ya se están dando los primeros pasos.
por Ramón López de Mántaras, Instituto de Investigación en Inteligencia Artificial (IIIA – CSIC)
La inteligencia artificial (IA) está estancada desde hace más de 50 años en uno de los problemas más fundamentales: cómo dotar a las máquinas de conocimientos de sentido común, es decir, aquellos conocimientos no especializados que los humanos compartimos y que adquirimos por medio de nuestras vivencias y experiencias. Estos conocimientos los adquirimos a través de los sentidos, de una manera espontánea, dispersa, acrítica y convencional: es el modo en que aprendemos los humanos.
La falta de estos conocimientos de sentido común impide que la IA tenga una comprensión profunda del lenguaje. Y el camino para lograrlo es dotarla de un cuerpo multisensorial. Esto es crucial si queremos lograr una IA general.
La IA generativa no razona
Una pregunta clave es si los grandes modelos de lenguaje de la IA generativa comprenden y razonan de manera general o, simplemente, recuperan y parafrasean los patrones de texto contenidos en los corpus usados para su entrenamiento. Rao Kambhampati, expresidente de AAAI, lo llama “recuperación aproximada de patrones de texto contenidos en los datos de entrenamiento del modelo”.
Para comprobarlo, se sitúa a la inteligencia artificial ante acontecimientos hipotéticos que muy probablemente no hayan formado parte de los corpus de entrenamiento. Son lo que llamamos tareas contrafactuales. Concretamente se evalúan los modelos usando pares de tareas, una contrafactual y la otra no. Ambas requieren los mismos tipos de abstracción y razonamiento para resolverse.
más de 50 años en uno de los problemas más fundamentales: cómo dotar a las máquinas de conocimientos de sentido común, es decir, aquellos conocimientos no especializados que los humanos compartimos y que adquirimos por medio de nuestras vivencias y experiencias. Estos conocimientos los adquirimos a través de los sentidos, de una manera espontánea, dispersa, acrítica y convencional: es el modo en que aprendemos los humanos.
La falta de estos conocimientos de sentido común impide que la IA tenga una comprensión profunda del lenguaje. Y el camino para lograrlo es dotarla de un cuerpo multisensorial. Esto es crucial si queremos lograr una IA general.
La IA generativa no razona
Una pregunta clave es si los grandes modelos de lenguaje de la IA generativa comprenden y razonan de manera general o, simplemente, recuperan y parafrasean los patrones de texto contenidos en los corpus usados para su entrenamiento. Rao Kambhampati, expresidente de AAAI, lo llama “recuperación aproximada de patrones de texto contenidos en los datos de entrenamiento del modelo”.
Para comprobarlo, se sitúa a la inteligencia artificial ante acontecimientos hipotéticos que muy probablemente no hayan formado parte de los corpus de entrenamiento. Son lo que llamamos tareas contrafactuales. Concretamente se evalúan los modelos usando pares de tareas, una contrafactual y la otra no. Ambas requieren los mismos tipos de abstracción y razonamiento para resolverse.
Por ejemplo, se probó GPT-4 en una tarea que consistía en juzgar si conjuntos de movimientos de aperturas de ajedrez son o no legales .
En la versión contrafactual de la tarea se intercambiaron las posiciones iniciales de los caballos y los alfiles mientras que en la versión no-contrafactual se partía de las posiciones establecidas en el ajedrez. En las aperturas de la versión contrafactual, los caballos se movían como si fuesen alfiles, lo cual es obviamente ilegal; mientras que en la versión no contrafactual todos los movimientos eran legales.
En la situación no contrafactual, GPT-4 dio un 90 % de respuestas correctas, pero en la contrafactual el rendimiento de GPT-4 cayó al 54 %. Este desplome se debe a que en sus datos de entrenamiento no había ejemplos de aperturas con piezas cambiadas.
Los autores de este estudio concluyeron que cuando los patrones que sirven para generar las respuestas no están presentes en los datos de entrenamiento, estos modelos fallan dramáticamente. Es decir, que regurgitan respuestas en función de “aproximaciones” en lugar de razonar.
La “receta” para dotar a la IA de sentido común
Líderes en IA como Demis Hassabis de DeepMind y Yann Lecun de Meta han reconocido que los grandes modelos de lenguaje por sí solos no son el camino hacia la IA general.
La vía a seguir implica la adquisición de un modelo del mundo. Y para ello, la IA necesita un cuerpo que le permita interactuar con el mundo.
La “receta” para dotar a la IA de conocimientos de sentido común, y quizás en última instancia de inteligencia general, implica desarrollar sistemas que puedan representar los elementos más básicos del conocimiento humano: tiempo, espacio, causalidad y conocimiento básico de objetos físicos y sus interacciones.
Después hay que integrar estos elementos en una arquitectura que pueda resolver problemas en situaciones impredecibles, inciertas y cambiantes: deducción, inducción, abducción, analogía y sentido común.
También debemos integrar el razonamiento con la percepción, la acción y el lenguaje, así como desarrollar un sistema de aprendizaje que use este conocimiento para relacionar el nuevo aprendizaje con el aprendizaje previo.
Un cuerpo multisensorial
Dotar a la IA de un cuerpo multisensorial es crucial para lograr este nivel de comprensión.
Algunos gigantes tecnológicos ya han comenzado proyectos que apuntan hacia esta IA corpórea. Por ejemplo, DeepMind anunció en 2022 que estaban desarrollando un sistema llamado GATO, que incluye datos de entrenamiento provenientes de sensores que le permiten operar en un entorno físico simple.
De manera similar, otro proyecto de DeepMind, PLATO, aprende algunos conceptos del mundo físico directamente de datos visuales, inspirado en la psicología del desarrollo de Jean Piaget, concretamente en el desarrollo de la cognición visual en niños.
Desde hace ya 9 años, inspirado también por la psicología del desarrollo de Piaget, he estado investigando en el Instituto de Investigación en Inteligencia Artificial (IIIA) del CSIC el aprendizaje de relaciones causa-efecto con un robot humanoide, paso imprescindible para aprender un modelo del mundo.
Uno de los resultados destacados del estudio, publicado en IEEE Transactions on Autonomous Mental Development, fue que el robot aprendió a relacionar las posiciones de sus dedos sobre las teclas de un teclado virtual (es decir, la causa) y las notas musicales (es decir, el efecto) que generan cada una de las teclas.
Aprender un modelo del mundo basado en la interacción a través de los sentidos aún está lejos, pero estos proyectos son los primeros pasos.
A día de hoy no entienden nada de lo que generan
Cuando se informa de los espectaculares éxitos de la IA, la gente tiende a generalizar y atribuirle la capacidad de hacer casi cualquier cosa que los humanos pueden hacer, e incluso mejor.
Sin embargo, los sistemas actuales de IA generativa poseen “habilidades sin comprensión”, como señaló Daniel Dennett en su libro De las bacterias a Bach (From Bacteria to Bach and Back). Estos sistemas pueden ser muy hábiles en tareas como generar imágenes o textos plausibles y persuasivos, pero no entienden nada sobre lo que generan. Como inteligencias no corpóreas, no pueden interactuar con el mundo, lo que les impide comprender realmente el significado de los textos que generan.
La experiencia a través de los sentidos
Entre los filósofos, John Locke argumentó en el siglo XVII que las experiencias, particularmente a través de los sentidos, son la base de nuestro conocimiento. Por su parte, Maurice Merleau-Ponty destacó la importancia del cuerpo en la interacción y comprensión del mundo. También Wittgenstein enfatizó la importancia de la relación entre el mundo y el lenguaje cuando dijo:
“Los límites de mi lenguaje son los límites de mi mundo”.
Los creadores de sistemas de IA basados en grandes modelos de lenguaje están principalmente preocupados por su poder retórico persuasivo, haciendo que parezca que entienden el lenguaje y que son el precursor de la IA general, todo para atraer grandes inversiones.
Sin embargo, Emily Bender y Alexander Koller ya advirtieron en 2020 sobre el riesgo de que la gente pueda atribuir intención comunicativa y comprensión a artefactos que parecen humanos. Crear tecnología que imite a los humanos requiere una comprensión clara de lo que significa ser humano, o corremos el riesgo de deshumanizarnos a nosotros mismos.
La ética humana
Los sistemas de IA nunca tendrán intencionalidad u objetivos propios: los humanos están involucrados en cada fase de su desarrollo. El verdadero problema no es el monstruo de Frankenstein, sino el Dr. Frankenstein.
Por lo tanto, es necesario regular, y es crucial educar a los ciudadanos, especialmente a los políticos, sobre los verdaderos beneficios sociales y los riesgos de las tecnologías inteligentes.
Invertir en educación (en la escuela y universidades) es nuestra mejor oportunidad para crear una sociedad que aproveche los beneficios de las tecnologías inteligentes mientras minimiza sus riesgos.
La IA generativa ha abierto otra caja de Pandora. Pero recordemos que, según el mito, aunque escaparon de su interior todos los males del mundo, dentro quedó Elpis, la deidad de la esperanza.
El trabajo referenciado sobre aprendizaje de relaciones causa-efecto, publicado en IEEE Transactions on Autonomous Mental Development, fue desarrollado en el marco de la tesis doctoral de Arturo Ribes y en colaboración con el investigador del IIIA-CSIC Jesús Cerquides y con Yannis Demiris, profesor del Imperial College de Londres.