El algoritmo de aprendizaje que permite el éxito desbocado de las redes neuronales profundas no funciona en cerebros biológicos, pero los investigadores están encontrando alternativas que podrían hacerlo.
por Anil Ananthaswamy
En 2007, algunos de los principales pensadores detrás de las redes neuronales profundas organizaron una reunión “satélite” no oficial al margen de una prestigiosa conferencia anual sobre inteligencia artificial. La conferencia había rechazado su solicitud de un taller oficial; aún faltaban unos años para que las redes neuronales profundas se hicieran cargo de la IA. El último orador de la reunión pirata fue Geoffrey Hinton de la Universidad de Toronto, el psicólogo cognitivo y científico informático responsable de algunos de los mayores avances en redes profundas. Comenzó con una broma: “Entonces, hace aproximadamente un año, llegué a casa a cenar y dije: ‘Creo que finalmente descubrí cómo funciona el cerebro’, y mi hija de 15 años dijo: ‘Oh, Papá, otra vez no ‘”.
La audiencia se rió. Hinton continuó: “Así es como funciona”. Siguieron más risas.
Los chistes de Hinton desmentían una búsqueda seria: usar la IA para comprender el cerebro. Hoy en día, las redes profundas gobiernan la IA en parte debido a un algoritmo llamado backpropagation o backprop. El algoritmo permite que las redes profundas aprendan de los datos, dándoles la capacidad de clasificar imágenes, reconocer el habla, traducir idiomas, dar sentido a las condiciones de la carretera para los vehículos autónomos y realizar una serie de otras tareas.
Pero es muy poco probable que los cerebros reales se basen en el mismo algoritmo. No se trata solo de que “los cerebros pueden generalizar y aprender mejor y más rápido que los sistemas de IA de última generación”, dijo Yoshua Bengio , científico informático de la Universidad de Montreal, director científico del Instituto de Inteligencia Artificial de Quebec. y uno de los organizadores del taller de 2007. Por diversas razones, la retropropagación no es compatible con la anatomía y fisiología del cerebro, particularmente en la corteza.
Bengio y muchos otros inspirados por Hinton han estado pensando en mecanismos de aprendizaje más biológicamente plausibles que podrían al menos igualar el éxito de la retropropagación. Tres de ellos (alineación de retroalimentación, propagación de equilibrio y codificación predictiva) se han mostrado particularmente prometedores. Algunos investigadores también están incorporando las propiedades de ciertos tipos de neuronas corticales y procesos como la atención en sus modelos. Todos estos esfuerzos nos acercan a la comprensión de los algoritmos que pueden estar funcionando en el cerebro.
“El cerebro es un gran misterio. Existe la impresión general de que si podemos desbloquear algunos de sus principios, podría ser útil para la IA ”, dijo Bengio. “Pero también tiene valor por derecho propio”.
Aprendiendo a través de la retropropagación
Durante décadas, las teorías de los neurocientíficos sobre cómo aprenden los cerebros se guiaron principalmente por una regla introducida en 1949 por el psicólogo canadiense Donald Hebb, que a menudo se parafrasea como “Neuronas que se activan juntas, se conectan juntas”. Es decir, cuanto más correlacionada sea la actividad de las neuronas adyacentes, más fuertes serán las conexiones sinápticas entre ellas. Este principio, con algunas modificaciones, logró explicar ciertos tipos limitados de tareas de clasificación visual y de aprendizaje.
Pero funcionó mucho menos bien para grandes redes de neuronas que tenían que aprender de los errores; No había una forma directamente dirigida para que las neuronas de la red se enteraran de los errores descubiertos, se actualizaran y cometieran menos errores. “La regla de Hebbian es una forma muy limitada, particular y no muy sensible de usar la información de error”, dijo Daniel Yamins , neurocientífico computacional y científico de la computación de la Universidad de Stanford.
Sin embargo, fue la mejor regla de aprendizaje que tenían los neurocientíficos, e incluso antes de que dominara la neurociencia, inspiró el desarrollo de las primeras redes neuronales artificiales a fines de la década de 1950. Cada neurona artificial en estas redes recibe múltiples entradas y produce una salida, como su contraparte biológica. La neurona multiplica cada entrada con un peso “sináptico”, un número que indica la importancia asignada a esa entrada, y luego suma las entradas ponderadas. Esta suma es la salida de la neurona. En la década de 1960, estaba claro que tales neuronas podrían organizarse en una red con una capa de entrada y una capa de salida, y la red neuronal artificial podría entrenarse para resolver una cierta clase de problemas simples. Durante el entrenamiento, una red neuronal estableció los mejores pesos para sus neuronas para eliminar o minimizar los errores.
Sin embargo, era obvio incluso en la década de 1960 que la resolución de problemas más complicados requería una o más capas “ocultas” de neuronas intercaladas entre las capas de entrada y salida. Nadie sabía cómo entrenar eficazmente redes neuronales artificiales con capas ocultas, hasta 1986, cuando Hinton, el difunto David Rumelhart y Ronald Williams (ahora de la Northeastern University) publicaron el algoritmo de retropropagación .
El algoritmo funciona en dos fases. En la fase “directa”, cuando se le da una entrada a la red, infiere una salida, que puede ser errónea. La segunda fase “hacia atrás” actualiza los pesos sinápticos, haciendo que la salida esté más en línea con un valor objetivo.
Para comprender este proceso, piense en una “función de pérdida” que describe la diferencia entre los resultados inferidos y deseados como un paisaje de colinas y valles. Cuando una red hace una inferencia con un conjunto dado de pesos sinápticos, termina en algún lugar del panorama de pérdidas. Para aprender, necesita moverse por la pendiente, o pendiente, hacia algún valle, donde la pérdida se minimiza en la medida de lo posible. La retropropagación es un método para actualizar los pesos sinápticos para descender ese gradiente.
En esencia, la fase hacia atrás del algoritmo calcula cuánto contribuyen los pesos sinápticos de cada neurona al error y luego actualiza esos pesos para mejorar el rendimiento de la red. Este cálculo procede secuencialmente hacia atrás desde la capa de salida a la capa de entrada, de ahí el nombre retropropagación. Haga esto una y otra vez para conjuntos de entradas y salidas deseadas, y eventualmente llegará a un conjunto aceptable de pesos para toda la red neuronal.
Imposible para el cerebro
La invención de la retropropagación provocó de inmediato el clamor de algunos neurocientíficos, que dijeron que nunca podría funcionar en cerebros reales. El detractor más notable fue Francis Crick, el co-descubridor de la estructura del ADN, ganador del Premio Nobel, que más tarde se convirtió en neurocientífico. En 1989, Crick escribió : “En lo que respecta al proceso de aprendizaje, es poco probable que el cerebro realmente utilice la retropropagación”.
Backprop se considera biológicamente inverosímil por varias razones importantes. La primera es que, si bien las computadoras pueden implementar fácilmente el algoritmo en dos fases, hacerlo para las redes neuronales biológicas no es trivial. El segundo es lo que los neurocientíficos computacionales llaman el problema del transporte de peso: el algoritmo backprop copia o “transporta” información sobre todos los pesos sinápticos involucrados en una inferencia y actualiza esos pesos para mayor precisión. Pero en una red biológica, las neuronas solo ven las salidas de otras neuronas, no los pesos sinápticos o los procesos internos que dan forma a esa salida. Desde el punto de vista de una neurona, “está bien conocer sus propios pesos sinápticos”, dijo Yamins. “Lo que no está bien es que conozcas el conjunto de pesos sinápticos de alguna otra neurona”.
Cualquier regla de aprendizaje biológicamente plausible también debe respetar la limitación de que las neuronas solo pueden acceder a la información de las neuronas vecinas; backprop puede requerir información de neuronas más remotas. Entonces, “si se toma la proplicidad al pie de la letra, parece imposible que los cerebros lo calculen”, dijo Bengio.
No obstante, Hinton y algunos otros aceptaron de inmediato el desafío de trabajar en variaciones biológicamente plausibles de retropropagación. “El primer artículo que sostiene que los cerebros hacen [algo como] retropropagación es tan antiguo como la retropropagación”, dijo Konrad Kording , neurocientífico computacional de la Universidad de Pensilvania. Durante la última década, a medida que los éxitos de las redes neuronales artificiales las han llevado a dominar la investigación de inteligencia artificial, los esfuerzos por encontrar un equivalente biológico para backprop se han intensificado.
Mantenerse más realista
Tomemos, por ejemplo, una de las soluciones más extrañas al problema del transporte de peso, cortesía de Timothy Lillicrap de Google DeepMind en Londres y sus colegas en 2016. Su algoritmo, en lugar de depender de una matriz de pesos registrados desde el pase hacia adelante, utilizó un matriz inicializada con valores aleatorios para el pase hacia atrás. Una vez asignados, estos valores nunca cambian, por lo que no es necesario transportar pesos para cada pasada hacia atrás.
Para sorpresa de casi todos, la red se enteró. Debido a que las ponderaciones hacia adelante utilizadas para la inferencia se actualizan con cada pasada hacia atrás, la red aún desciende por el gradiente de la función de pérdida, pero por una ruta diferente. Los pesos hacia adelante se alinean lentamente con los pesos hacia atrás seleccionados al azar para eventualmente producir las respuestas correctas, dando al algoritmo su nombre: alineación de retroalimentación.
“Resulta que, en realidad, eso no funciona tan mal como podría pensar”, dijo Yamins, al menos para problemas simples. Para problemas a gran escala y para redes más profundas con capas más ocultas, la alineación de retroalimentación no funciona tan bien como la retropropagación: debido a que las actualizaciones de los pesos directos son menos precisas en cada pasada de lo que serían a partir de información verdaderamente retropropagada, se necesita mucho más datos para entrenar la red.
Los investigadores también han explorado formas de igualar el rendimiento de backprop mientras se mantiene el requisito de aprendizaje clásico de Hebb de que las neuronas responden solo a sus vecinos locales. Se puede pensar en Backprop como un conjunto de neuronas que realizan la inferencia y otro conjunto de neuronas que realizan los cálculos para actualizar los pesos sinápticos. La idea de Hinton era trabajar en algoritmos en los que cada neurona realizaba ambos conjuntos de cálculos. “Eso fue básicamente de lo que fue la charla de Geoff en 2007”, dijo Bengio.
Sobre la base del trabajo de Hinton, el equipo de Bengio propuso una regla de aprendizaje en 2017 que requiere una red neuronal con conexiones recurrentes (es decir, si la neurona A activa la neurona B, entonces la neurona B a su vez activa la neurona A). Si se le da alguna entrada a dicha red, hace que la red reverbere, ya que cada neurona responde al empuje y tracción de sus vecinos inmediatos.
Finalmente, la red alcanza un estado en el que las neuronas están en equilibrio con la entrada y entre sí, y produce una salida que puede ser errónea. Luego, el algoritmo empuja las neuronas de salida hacia el resultado deseado. Esto establece otra señal que se propaga hacia atrás a través de la red, lo que desencadena una dinámica similar. La red encuentra un nuevo equilibrio.
“La belleza de las matemáticas es que si comparas estas dos configuraciones, antes del empujón y después del empujón, tienes toda la información que necesitas para encontrar el gradiente”, dijo Bengio. Entrenar la red implica simplemente repetir este proceso de “propagación del equilibrio” de forma iterativa sobre una gran cantidad de datos etiquetados.
Predicción de percepciones
La restricción de que las neuronas solo pueden aprender reaccionando a su entorno local también encuentra expresión en nuevas teorías sobre cómo percibe el cerebro. Beren Millidge , estudiante de doctorado en la Universidad de Edimburgo y miembro visitante en la Universidad de Sussex, y sus colegas han estado conciliando esta nueva visión de la percepción, llamada codificación predictiva, con los requisitos de la retropropagación. “La codificación predictiva, si está configurada de cierta manera, le dará una regla de aprendizaje biológicamente plausible”, dijo Millidge.
La codificación predictiva postula que el cerebro hace predicciones constantemente sobre las causas de las entradas sensoriales. El proceso involucra capas jerárquicas de procesamiento neuronal. Para producir una determinada salida, cada capa tiene que predecir la actividad neuronal de la capa inferior. Si la capa más alta espera ver una cara, predice la actividad de la capa inferior que puede justificar esta percepción. La capa de abajo hace predicciones similares sobre qué esperar de la que está debajo, y así sucesivamente. La capa más baja hace predicciones sobre la entrada sensorial real, por ejemplo, los fotones que caen sobre la retina. De esta manera, las predicciones fluyen desde las capas superiores hacia las capas inferiores.
“La regla de Hebbian es una forma muy limitada, particular y poco sensible de utilizar la información de error.”
Daniel Yamins, Universidad de Stanford
Pero pueden ocurrir errores en cada nivel de la jerarquía: diferencias entre la predicción que hace una capa sobre la entrada que espera y la entrada real. La capa más inferior ajusta sus pesos sinápticos para minimizar su error, en función de la información sensorial que recibe. Este ajuste da como resultado un error entre la capa inferior recién actualizada y la superior, por lo que la capa superior tiene que reajustar sus pesos sinápticos para minimizar su error de predicción. Estas señales de error se elevan. La red va y viene, hasta que cada capa ha minimizado su error de predicción.
Millidge ha demostrado que, con la configuración adecuada, las redes de codificación predictiva pueden converger en los mismos gradientes de aprendizaje que backprop. “Uno puede acercarse mucho, mucho, mucho a los gradientes del backprop”, dijo.
Sin embargo, por cada pasada hacia atrás que hace un algoritmo backprop tradicional en una red neuronal profunda, una red de codificación predictiva tiene que iterar varias veces. Si esto es biológicamente plausible o no, depende exactamente de cuánto tiempo podría llevarlo en un cerebro real. Fundamentalmente, la red tiene que converger en una solución antes de que cambien las entradas del mundo exterior.
“No puede ser como, ‘Tengo un tigre saltando hacia mí, déjame hacer 100 iteraciones hacia adelante y hacia atrás, arriba y abajo de mi cerebro’”, dijo Millidge. Aún así, si se acepta alguna inexactitud, la codificación predictiva puede llegar rápidamente a respuestas generalmente útiles, dijo.
Neuronas piramidales
Algunos científicos han asumido la meticulosa tarea de construir modelos tipo backprop basados en las propiedades conocidas de neuronas individuales. Las neuronas estándar tienen dendritas que recopilan información de los axones de otras neuronas. Las dendritas transmiten señales al cuerpo celular de la neurona, donde se integran las señales. Eso puede resultar o no en un pico, o potencial de acción, que sale del axón de la neurona a las dendritas de las neuronas postsinápticas.
Pero no todas las neuronas tienen exactamente esta estructura. En particular, las neuronas piramidales, el tipo de neurona más abundante en la corteza, son claramente diferentes. Las neuronas piramidales tienen una estructura en forma de árbol con dos conjuntos distintos de dendritas. El tronco se extiende y se ramifica en lo que se llaman dendritas apicales. La raíz desciende y se ramifica en dendritas basales.
Los modelos desarrollados de forma independiente por Kording en 2001, y más recientemente por Blake Richards de la Universidad McGill y el Instituto de Inteligencia Artificial de Quebec y sus colegas, han demostrado que las neuronas piramidales podrían formar las unidades básicas de una red de aprendizaje profundo haciendo cálculos hacia adelante y hacia atrás simultáneamente. . La clave está en la separación de las señales que ingresan a la neurona para la inferencia hacia adelante y para los errores que fluyen hacia atrás, que podrían ser manejados en el modelo por las dendritas basal y apical, respectivamente. La información para ambas señales se puede codificar en los picos de actividad eléctrica que la neurona envía por su axón como salida.
En el último trabajo del equipo de Richards, “hemos llegado al punto en que podemos demostrar que, usando simulaciones bastante realistas de neuronas, se pueden entrenar redes de neuronas piramidales para realizar varias tareas”, dijo Richards. “Y luego, utilizando versiones un poco más abstractas de estos modelos, podemos hacer que las redes de neuronas piramidales aprendan el tipo de tareas difíciles que las personas hacen en el aprendizaje automático”.
El papel de la atención
Un requisito implícito para una red profunda que utiliza backprop es la presencia de un “maestro”: algo que pueda calcular el error cometido por una red de neuronas. Pero “no hay un maestro en el cerebro que le diga a cada neurona de la corteza motora: ‘Debes estar encendido y apagado’”, dijo Pieter Roelfsema del Instituto Holandés de Neurociencia en Ámsterdam.
Roelfsema cree que la solución del cerebro al problema está en proceso de atención. A finales de la década de 1990, él y sus colegas demostraron que cuando los monos fijan la mirada en un objeto, las neuronas que representan ese objeto en la corteza se vuelven más activas. El acto del mono de enfocar su atención produce una señal de retroalimentación para las neuronas responsables. “Es una señal de retroalimentación altamente selectiva”, dijo Roelfsema. “No es una señal de error. Solo les está diciendo a todas esas neuronas: ustedes serán responsables [de una acción] “.
La idea de Roelfsema fue que esta señal de retroalimentación podría permitir un aprendizaje similar al backprop cuando se combina con procesos revelados en ciertos otros hallazgos neurocientíficos. Por ejemplo, Wolfram Schultz de la Universidad de Cambridge y otros han demostrado que cuando los animales realizan una acción que produce mejores resultados de lo esperado, el sistema de dopamina del cerebro se activa. “Inunda todo el cerebro con moduladores neuronales”, dijo Roelfsema. Los niveles de dopamina actúan como una señal de refuerzo global.
En teoría, la señal de retroalimentación atencional podría cebar solo a las neuronas responsables de una acción para responder a la señal de refuerzo global actualizando sus pesos sinápticos, dijo Roelfsema. Él y sus colegas han utilizado esta idea para construir una red neuronal profunda y estudiar sus propiedades matemáticas. “Resulta que obtienes retropropagación de errores. Básicamente obtienes la misma ecuación ”, dijo. “Pero ahora se volvió biológicamente plausible”.
El equipo presentó este trabajo en la conferencia en línea Neural Information Processing Systems en diciembre. “Podemos entrenar redes profundas”, dijo Roelfsema. “Es solo un factor de dos a tres más lento que la propagación hacia atrás”. Como tal, dijo, “supera a todos los demás algoritmos que se han propuesto como biológicamente plausibles”.
Sin embargo, la evidencia empírica concreta de que los cerebros vivos utilizan estos mecanismos plausibles sigue siendo difícil de alcanzar. “Creo que todavía nos falta algo”, dijo Bengio. “En mi experiencia, podría ser una pequeña cosa, tal vez algunos cambios en uno de los métodos existentes, que realmente marcará la diferencia”.
Mientras tanto, Yamins y sus colegas de Stanford tienen sugerencias sobre cómo determinar cuál de las reglas de aprendizaje propuestas, si es que hay alguna, es la correcta. Al analizar 1.056 redes neuronales artificiales que implementan diferentes modelos de aprendizaje, encontraron que el tipo de regla de aprendizaje que gobierna una red se puede identificar a partir de la actividad de un subconjunto de neuronas a lo largo del tiempo. Es posible que esa información se pueda registrar a partir del cerebro de los monos. “Resulta que si tiene la colección correcta de observables, es posible que se le ocurra un esquema bastante simple que le permita identificar las reglas de aprendizaje”, dijo Yamins.
Dados estos avances, los neurocientíficos computacionales son discretamente optimistas. “Hay muchas formas diferentes en que el cerebro podría estar haciendo retropropagación”, dijo Kording. “Y la evolución es bastante asombrosa. La propagación hacia atrás es útil. Supongo que la evolución nos lleva allí “.