Melanie Mitchell ha trabajado en mentes digitales durante décadas. Ella dice que nunca serán realmente como los nuestros hasta que puedan hacer analogías.
por John Pavlus
- ¿Por qué la creación de analogías es tan importante para la IA?
- Pero también ha escrito que la analogía es “un área poco estudiada en IA”. Si es tan fundamental, ¿por qué es así?
- ¿Y nunca aprenderán a abstraer?
- Ha descrito esta limitación como “la barrera del significado” : los sistemas de inteligencia artificial pueden emular la comprensión bajo ciertas condiciones, pero se vuelven frágiles y poco confiables fuera de ellas. ¿Por qué cree que la analogía es nuestra salida a este problema?
- Entonces, ¿la analogía es una forma en que los organismos se mantienen cognitivamente flexibles, en lugar de comportarse como robots?
- Su sistema Copycat fue uno de los primeros intentos de hacer esto con una computadora. ¿Había otros?
- ¿Por qué no despegaron estos enfoques?
- El aprendizaje profundo se escala bastante bien. ¿Ha sido más eficaz para producir analogías significativas?
- Entonces, ¿qué falta todavía? ¿Por qué no podemos unir estos enfoques como si fueran bloques de Lego?
- RELACIONADA:
- Si los bebés nacen con este “conocimiento básico”, ¿significa eso que para que una IA haga este tipo de analogías, también necesita un cuerpo como el nuestro?
El libro ganador del premio Pulitzer Gödel, Escher, Bach inspiró a legiones de científicos informáticos en 1979, pero pocos fueron tan inspirados como Melanie Mitchell . Después de leer el tomo de 777 páginas, Mitchell, una profesora de matemáticas de secundaria en Nueva York, decidió que “necesitaba estar” en inteligencia artificial. Pronto localizó al autor del libro, el investigador de inteligencia artificial Douglas Hofstadter, y lo convenció de que le diera una pasantía. Ella solo había tomado un puñado de cursos de informática en ese momento, pero él parecía impresionado con su descaro y despreocupado por sus credenciales académicas.
Mitchell preparó una solicitud de postgrado de “último minuto” y se unió al nuevo laboratorio de Hofstadter en la Universidad de Michigan en Ann Arbor. Los dos pasaron los siguientes seis años colaborando estrechamente en Copycat , un programa de computadora que, en palabras de sus co-creadores , fue diseñado para “descubrir analogías perspicaces y hacerlo de una manera psicológicamente realista”.
Las analogías que se le ocurrieron a Copycat fueron entre patrones simples de letras, similares a las analogías en las pruebas estandarizadas. Un ejemplo: “Si la cadena ‘abc’ cambia a la cadena ‘abd’, ¿a qué cambia la cadena ‘pqrs’?” Hofstadter y Mitchell creían que comprender el proceso cognitivo de la analogía, cómo los seres humanos hacen conexiones abstractas entre ideas, percepciones y experiencias similares, sería crucial para desbloquear la inteligencia artificial similar a la humana.
Mitchell sostiene que la analogía puede ser mucho más profunda que la coincidencia de patrones de estilo de examen. “Es comprender la esencia de una situación mapeándola con otra situación que ya se comprende”, dijo. “Si me cuentas una historia y te digo, ‘Oh, me pasó lo mismo’, literalmente no me pasó lo mismo que te pasó a ti, pero puedo hacer un mapeo que lo haga parecer muy análogo. Es algo que los humanos hacemos todo el tiempo sin siquiera darnos cuenta de que lo estamos haciendo. Estamos nadando en este mar de analogías constantemente “.
Como profesora de complejidad de Davis en el Instituto Santa Fe, Mitchell ha ampliado su investigación más allá del aprendizaje automático. Actualmente lidera el proyecto Fundamentos de la inteligencia en sistemas naturales y artificiales de SFI , que convocará una serie de talleres interdisciplinarios durante el próximo año para examinar cómo la evolución biológica, el comportamiento colectivo (como el de los insectos sociales como las hormigas) y el cuerpo físico contribuyen a inteligencia. Pero el papel de la analogía cobra mayor importancia que nunca en su trabajo, especialmente en IA, un campo cuyos principales avances durante la última década han sido impulsados en gran medida por redes neuronales profundas, una tecnología que imita la organización en capas de neuronas en el cerebro de los mamíferos.
“Las redes neuronales de vanguardia de hoy en día son muy buenas en ciertas tareas”, dijo, “pero son muy malas para tomar lo que han aprendido en un tipo de situación y transferirlo a otro”: la esencia de analogía.
Quanta habló con Mitchell sobre cómo la IA puede hacer analogías, lo que el campo ha aprendido sobre ellas hasta ahora y hacia dónde debe ir a continuación. La entrevista ha sido condensada y editada para mayor claridad.
¿Por qué la creación de analogías es tan importante para la IA?
Es un mecanismo fundamental de pensamiento que ayudará a la IA a llegar a donde queremos que esté. Algunas personas dicen que ser capaz de predecir el futuro es clave para la IA, o poder tener sentido común o la capacidad de recuperar recuerdos que son útiles en una situación actual. Pero en cada una de estas cosas, la analogía es muy central.
Por ejemplo, queremos coches autónomos, pero uno de los problemas es que si se enfrentan a una situación que está un poco alejada de lo que han aprendido, no saben qué hacer. ¿Cómo sabemos los humanos qué hacer en situaciones que no hemos encontrado antes? Bueno, usamos analogías con experiencias previas. Y eso es algo para lo que también vamos a necesitar estos sistemas de IA en el mundo real.
Pero también ha escrito que la analogía es “un área poco estudiada en IA”. Si es tan fundamental, ¿por qué es así?
Una de las razones por las que las personas no lo han estudiado tanto es porque no han reconocido su importancia esencial para la cognición. Centrándose en la lógica y la programación en las reglas de comportamiento, esa es la forma en que funcionaba la IA temprana. Más recientemente, la gente se ha centrado en aprender de muchos, muchos ejemplos, y luego asumir que podrá hacer una inducción a cosas que no ha visto antes usando solo las estadísticas de lo que ya ha aprendido. Esperaban que las habilidades para generalizar y abstraer surgieran de las estadísticas, pero no ha funcionado tan bien como la gente esperaba.
Puede mostrar una red neuronal profunda millones de imágenes de puentes, por ejemplo, y probablemente pueda reconocer una nueva imagen de un puente sobre un río o algo así. Pero nunca puede abstraer la noción de “puente” a, digamos, nuestro concepto de salvar la brecha de género. Resulta que estas redes no aprenden a abstraer. Falta algo. Y la gente solo está lidiando con eso ahora.
¿Y nunca aprenderán a abstraer?
Hay nuevos enfoques, como el metaaprendizaje, donde las máquinas “aprenden a aprender” mejor. O aprendizaje auto-supervisado, donde sistemas como GPT-3 aprenden a completar una oración a la que le falta una de las palabras, lo que le permite generar un lenguaje muy, muy convincente. Algunas personas argumentarían que sistemas como ese eventualmente, con suficientes datos, aprenderán a realizar esta tarea de abstracción. Pero no lo creo.
Ha descrito esta limitación como “la barrera del significado” : los sistemas de inteligencia artificial pueden emular la comprensión bajo ciertas condiciones, pero se vuelven frágiles y poco confiables fuera de ellas. ¿Por qué cree que la analogía es nuestra salida a este problema?
Mi sensación es que resolver el problema de la fragilidad requerirá sentido. Eso es lo que en última instancia causa el problema de la fragilidad: estos sistemas no comprenden, en ningún sentido humano, los datos con los que están tratando.
Esta palabra “entender” es una de esas palabras de maleta en las que nadie está de acuerdo en lo que realmente significa, casi como un marcador de posición para los fenómenos mentales que aún no podemos explicar. Pero creo que este mecanismo de abstracción y analogía es clave para lo que los humanos llamamos comprensión. Es un mecanismo por el cual ocurre la comprensión. Podemos tomar algo que ya sabemos de alguna manera y asignarlo a algo nuevo.
Entonces, ¿la analogía es una forma en que los organismos se mantienen cognitivamente flexibles, en lugar de comportarse como robots?
Creo que hasta cierto punto, sí. La analogía no es solo algo que hacemos los humanos. Algunos animales son algo robóticos, pero otras especies pueden tomar experiencias previas y mapearlas en nuevas experiencias. Tal vez sea una forma de poner un espectro de inteligencia en diferentes tipos de sistemas vivos: ¿Hasta qué punto se pueden hacer analogías más abstractas?
Una de las teorías de por qué los humanos tienen este tipo particular de inteligencia es que se debe a que somos muy sociales. Una de las cosas más importantes que debe hacer es modelar lo que piensan otras personas, comprender sus objetivos y predecir lo que van a hacer. Y eso es algo que haces por analogía contigo mismo. Puedes ponerte en la posición de la otra persona y mapear tu propia mente con la de ellos. Esta “teoría de la mente” es algo de lo que la gente en IA habla todo el tiempo. Es esencialmente una forma de hacer una analogía.
Su sistema Copycat fue uno de los primeros intentos de hacer esto con una computadora. ¿Había otros?
El trabajo de “mapeo de estructuras” en IA se centró en representaciones de situaciones basadas en la lógica y en hacer mapeos entre ellas. Ken Forbus y otros utilizaron la famosa analogía [ hecha por Ernest Rutherford en 1911 ] del sistema solar con el átomo. Tendrían un conjunto de oraciones [en una notación formal llamada lógica de predicados] que describieran estas dos situaciones, y las mapearon no en función del contenido de las oraciones, sino en función de su estructura. Esta noción es muy poderosa y creo que es correcta. Cuando los seres humanos intentan dar sentido a las similitudes, nos centramos más en las relaciones que en los objetos específicos.
¿Por qué no despegaron estos enfoques?
Todo el tema del aprendizaje quedó en gran parte fuera de estos sistemas. El mapeo de estructuras tomaría estas palabras que estaban muy, muy cargadas de significado humano, como “la Tierra gira alrededor del sol” y “el electrón gira alrededor del núcleo”, y las mapearía entre sí, pero no había un modelo interno de lo que “Gira alrededor” significaba. Era solo un símbolo. El imitador funcionaba bien con cadenas de letras, pero lo que nos faltaba era una respuesta a la pregunta de cómo escalar esto y generalizarlo a los dominios que realmente nos interesan.
El aprendizaje profundo se escala bastante bien. ¿Ha sido más eficaz para producir analogías significativas?
Existe la opinión de que las redes neuronales profundas hacen esta magia entre sus capas de entrada y salida. Si pueden ser mejores que los humanos para reconocer diferentes tipos de razas de perros, que son, deberían poder resolver estos problemas de analogía realmente simples. Entonces, la gente crearía un gran conjunto de datos para entrenar y probar su red neuronal y publicar un artículo que dijera: “Nuestro método obtiene un 80% de precisión en esta prueba”. Y alguien más diría: “Espera, tu conjunto de datos tiene algunas propiedades estadísticas extrañas que le permiten a la máquina aprender a resolverlas sin poder generalizar. Aquí hay un nuevo conjunto de datos con el que su máquina funciona horriblemente, pero la nuestra lo hace muy bien “. Y esto sigue y sigue y sigue.
El problema es que ya has perdido la batalla si tienes que entrenarlo con miles y miles de ejemplos. De eso no se trata la abstracción. Se trata de lo que la gente en aprendizaje automático llama “aprendizaje de pocas oportunidades”, lo que significa que aprendes con una cantidad muy pequeña de ejemplos. Para eso es realmente la abstracción.
Entonces, ¿qué falta todavía? ¿Por qué no podemos unir estos enfoques como si fueran bloques de Lego?
¡No tenemos el libro de instrucciones que le diga cómo hacer eso! Pero creo que tenemos que Lego todos juntos. Eso está en la frontera de esta investigación: ¿Cuál es la información clave de todas estas cosas y cómo pueden complementarse entre sí?
Mucha gente está bastante interesada en el Corpus de abstracción y razonamiento [ARC], que es una tarea de aprendizaje de pocos intentos muy desafiante construida alrededor del “conocimiento central” con el que los humanos nacen esencialmente. Sabemos que el mundo debe descomponerse en objetos, y sabemos algo sobre la geometría del espacio, como algo que está encima o debajo de otra [otra cosa]. En ARC, hay una cuadrícula de colores que cambia a otra cuadrícula de colores de una manera que los humanos podrían describir en términos de este conocimiento básico, como, “Todos los cuadrados de un color van a la derecha, todos los cuadrados del otro color ve a la izquierda “. Te da un ejemplo como este y luego te pide que hagas lo mismo con otra cuadrícula de colores.
RELACIONADA:
- Las redes neuronales profundas ayudan a explicar los cerebros vivos
- ¿Qué tan cerca están las computadoras de la automatización del razonamiento matemático?
- Las máquinas vencieron a los humanos en una prueba de lectura. Pero, ¿comprenden?
Lo considero un desafío de analogía. Está tratando de encontrar algún tipo de descripción abstracta de cuál fue el cambio de una imagen a una nueva imagen, y no puede aprender ninguna correlación estadística extraña porque todo lo que tiene son dos ejemplos. Cómo hacer que las máquinas aprendan y razonen con este conocimiento básico que tiene un bebé: esto es algo que ninguno de los sistemas que he mencionado hasta ahora puede hacer. Es por eso que ninguno de ellos puede manejar este conjunto de datos ARC. Es un poco de un santo grial.
Si los bebés nacen con este “conocimiento básico”, ¿significa eso que para que una IA haga este tipo de analogías, también necesita un cuerpo como el nuestro?
Esa es la pregunta del millón de dólares. Ese es un tema muy controvertido sobre el que la comunidad de IA no tiene consenso. Mi intuición es que sí, no seremos capaces de llegar a una analogía similar a la humana [en IA] sin algún tipo de encarnación. Tener un cuerpo puede ser esencial porque algunos de estos problemas visuales requieren que pienses en ellos en tres dimensiones. Y eso, para mí, tiene que ver con haber vivido en el mundo, haber movido la cabeza y haber entendido cómo se relacionan las cosas espacialmente. No sé si una máquina tiene que pasar por esa etapa. Creo que probablemente lo hará.
Fuente: https://www.quantamagazine.org/melanie-mitchell-trains-ai-to-think-with-analogies-20210714/