Nuestro cerebro está en constante aprendizaje. Ese nuevo sándwich de la tienda de delicatessen es genial. ¿Esa gasolinera? Será mejor que la evites en el futuro.
por Shelly Fan
Recuerdos como estos reconfiguran físicamente las conexiones en la región cerebral que sustenta el nuevo aprendizaje. Durante el sueño, los recuerdos del día anterior se trasladan a otras partes del cerebro para su almacenamiento a largo plazo, liberando así células cerebrales para nuevas experiencias al día siguiente. En otras palabras, el cerebro puede absorber continuamente nuestra vida cotidiana sin perder el acceso a los recuerdos de lo que sucedió antes.
La IA, no tanto. El GPT-4 y otros grandes modelos multimodales y de lenguaje, que han conquistado al mundo, se construyen utilizando aprendizaje profundo, una familia de algoritmos que imitan vagamente el cerebro. ¿El problema? “Los sistemas de aprendizaje profundo con algoritmos estándar pierden lentamente la capacidad de aprender”, dijo recientemente a Nature el Dr. Shibhansh Dohare, de la Universidad de Alberta .
La razón de esto está en cómo se configuran y entrenan. El aprendizaje profundo se basa en múltiples redes de neuronas artificiales que están conectadas entre sí. Al introducir datos en los algoritmos (por ejemplo, montones de recursos en línea como blogs, artículos de noticias y comentarios de YouTube y Reddit), se cambia la fuerza de estas conexiones, de modo que la IA finalmente “aprende” patrones en los datos y los usa para generar respuestas elocuentes.
Pero estos sistemas son básicamente cerebros congelados en el tiempo. Abordar una nueva tarea a veces requiere una nueva ronda de entrenamiento y aprendizaje, que borra lo anterior y cuesta millones de dólares . Para ChatGPT y otras herramientas de IA, esto significa que se vuelven cada vez más obsoletas con el tiempo.
Esta semana, Dohare y sus colegas encontraron una forma de resolver el problema. La clave es restablecer selectivamente algunas neuronas artificiales después de una tarea, pero sin cambiar sustancialmente toda la red, un poco como lo que sucede en el cerebro mientras dormimos.
Al realizar pruebas con una tarea de aprendizaje visual continuo (por ejemplo, diferenciar gatos de casas o distinguir señales de stop de autobuses escolares), los algoritmos de aprendizaje profundo equipados con reinicio selectivo mantuvieron fácilmente una alta precisión en más de 5000 tareas diferentes. Los algoritmos estándar, en cambio, se deterioraron rápidamente y su éxito se redujo a aproximadamente el resultado de una moneda al aire.
La estrategia, denominada retropropagación continua, es “una de las primeras de un amplio y creciente conjunto de métodos” para abordar el problema del aprendizaje continuo , escribieron los doctores Clare Lyle y Razvan Pascanu de Google DeepMind, que no participaron en el estudio.
Mente de máquina
El aprendizaje profundo es una de las formas más populares de entrenar a la IA. Inspirados en el cerebro, estos algoritmos tienen capas de neuronas artificiales que se conectan para formar redes neuronales artificiales.
A medida que un algoritmo aprende, algunas conexiones se fortalecen, mientras que otras se debilitan. Este proceso, llamado plasticidad, imita el modo en que el cerebro aprende y optimiza las redes neuronales artificiales para que puedan ofrecer la mejor respuesta a un problema.
Pero los algoritmos de aprendizaje profundo no son tan flexibles como el cerebro. Una vez entrenados, sus pesos se quedan estancados. Al aprender una nueva tarea, se reconfiguran los pesos en las redes existentes y, en el proceso, la IA “olvida” experiencias anteriores. Por lo general, esto no es un problema para usos típicos, como reconocer imágenes o procesar lenguaje (con la salvedad de que no pueden adaptarse a nuevos datos sobre la marcha), pero es muy problemático cuando se entrenan y utilizan algoritmos más sofisticados, por ejemplo, aquellos que aprenden y responden a sus entornos como los humanos.
Usando un ejemplo clásico de juego, “una red neuronal puede ser entrenada para obtener una puntuación perfecta en el videojuego Pong , pero entrenar la misma red para luego jugar Space Invaders hará que su desempeño en Pong caiga considerablemente”, escribieron Lyle y Pascanu.
Los informáticos llevan años luchando contra este problema, que se denomina acertadamente olvido catastrófico. Una solución sencilla es hacer borrón y cuenta nueva y volver a entrenar a la IA para que realice una nueva tarea desde cero, utilizando una combinación de datos antiguos y nuevos. Aunque recupera las capacidades de la IA, la opción nuclear también borra todo el conocimiento previo. Y aunque la estrategia es factible para modelos de IA más pequeños, no es práctica para los de gran tamaño, como los que impulsan modelos de lenguaje de gran tamaño.
Haz una copia de seguridad
El nuevo estudio se suma a un mecanismo fundamental del aprendizaje profundo, un proceso llamado retropropagación. En pocas palabras, la retropropagación proporciona retroalimentación a la red neuronal artificial. Dependiendo de lo cerca que esté el resultado de la respuesta correcta, la retropropagación modifica las conexiones internas del algoritmo hasta que aprende la tarea en cuestión. Sin embargo, con el aprendizaje continuo, las redes neuronales pierden rápidamente su plasticidad y ya no pueden aprender.
En este caso, el equipo dio un primer paso para resolver el problema utilizando una teoría de 1959 con el impresionante nombre de “ El pandemonio de Selfridge ”. La teoría captura cómo procesamos continuamente la información visual y ha influido mucho en la IA para el reconocimiento de imágenes y otros campos.
Utilizando ImageNet , un repositorio clásico de millones de imágenes para el entrenamiento de IA, el equipo estableció que los modelos de aprendizaje profundo estándar pierden gradualmente su plasticidad cuando se los desafía con miles de tareas secuenciales. Estas son ridículamente simples para los humanos: diferenciar gatos de casas, por ejemplo, o señales de stop de autobuses escolares.
Con esta medida, cualquier caída en el rendimiento significa que la IA está perdiendo gradualmente su capacidad de aprendizaje. Los algoritmos de aprendizaje profundo fueron precisos hasta el 88 por ciento del tiempo en pruebas anteriores. Pero en la tarea 2000, habían perdido plasticidad y el rendimiento había caído cerca o por debajo del nivel de referencia.
El algoritmo actualizado funcionó mucho mejor.
Todavía utiliza la propagación hacia atrás, pero con una pequeña diferencia: una pequeña porción de neuronas artificiales se elimina durante el aprendizaje en cada ciclo. Para evitar interrumpir redes enteras, solo se reinician las neuronas artificiales que se usan menos. La actualización permitió que el algoritmo abordara hasta 5000 tareas de reconocimiento de imágenes diferentes con una precisión de más del 90 por ciento en todo momento.
En otra prueba de concepto, el equipo utilizó el algoritmo para conducir un robot simulado similar a una hormiga a través de múltiples terrenos para ver qué tan rápido podía aprender y adaptarse con la retroalimentación.
Gracias a la propagación hacia atrás continua, la criatura simulada se desplazó fácilmente por un camino de videojuego con fricción variable, como si caminara sobre arena, pavimento y rocas. El robot impulsado por el nuevo algoritmo siguió adelante durante al menos 50 millones de pasos. Los que funcionaban con algoritmos estándar se bloqueaban mucho antes y su rendimiento se reducía a cero aproximadamente un 30 por ciento antes.
El estudio es el último en abordar el problema de plasticidad del aprendizaje profundo.
Un estudio anterior descubrió que las llamadas neuronas inactivas (aquellas que ya no responden a las señales de su red) hacen que la IA sea más rígida y que reconfigurarlas durante el entrenamiento mejora el rendimiento. Pero no son la única razón, escribieron Lyle y Pascanu. Las redes de IA que ya no pueden aprender también podrían deberse a interacciones de red que desestabilizan la forma en que la IA aprende. Los científicos todavía están arañando la superficie del fenómeno.
Mientras tanto, en la práctica, cuando se trata de inteligencia artificial, “se busca que se adapte a los nuevos tiempos”, dijo Dohare. El aprendizaje continuo no consiste solo en distinguir los gatos de las casas. También podría ayudar a los coches autónomos a transitar mejor por nuevas calles en condiciones meteorológicas o de iluminación cambiantes, especialmente en regiones con microambientes, donde la niebla podría convertirse rápidamente en luz solar intensa.
Abordar el problema “presenta una oportunidad emocionante” que podría llevar a una IA que retenga el conocimiento pasado mientras aprende nueva información y, como nosotros los humanos, se adapte de manera flexible a un mundo en constante cambio. “Estas capacidades son cruciales para el desarrollo de sistemas de IA verdaderamente adaptativos que puedan seguir entrenándose indefinidamente, respondiendo a los cambios en el mundo y aprendiendo nuevas habilidades y capacidades”, escribieron Lyle y Pascanu.
Crédito de la imagen: Jaredd Craig / Unsplash