por Karen Hao
- Crees que el aprendizaje profundo será suficiente para replicar toda la inteligencia humana. Qué te hace estar tan seguro?
- Y si tenemos esos avances, ¿seremos capaces de aproximarnos a toda la inteligencia humana a través del aprendizaje profundo?
- Cuando dices escala, ¿te refieres a redes neuronales más grandes, más datos o ambos?
- Mucha gente en el campo cree que el sentido común es la próxima gran capacidad a abordar. ¿Estás de acuerdo?
- El campo de la IA siempre ha considerado al cerebro humano como su mayor fuente de inspiración, y los diferentes enfoques de la IA se han derivado de diferentes teorías de la ciencia cognitiva. ¿Crees que el cerebro realmente construye representaciones del mundo externo para comprenderlo, o es solo una forma útil de pensar sobre él?
- Hay algunas personas que todavía creen que la representación simbólica es uno de los enfoques de la IA.
- ¿Cuál cree que es su opinión más contraria sobre el futuro de la IA?
Hace treinta años, la creencia de Hinton en las redes neuronales era contraria. Ahora es difícil encontrar a alguien que no esté de acuerdo, dice.
- Sobre las brechas en el campo de la IA: “Tendrá que haber bastantes avances conceptuales … también necesitamos un aumento masivo en la escala”.
- Sobre las debilidades de las redes neuronales: “Las redes neuronales son sorprendentemente buenas para manejar una cantidad bastante pequeña de datos, con una gran cantidad de parámetros, pero las personas son incluso mejores”.
- Sobre cómo funcionan nuestros cerebros: “Lo que hay dentro del cerebro son estos grandes vectores de actividad neuronal”.
La revolución moderna de la IA comenzó durante un oscuro concurso de investigación. Era 2012, el tercer año de la competencia anual ImageNet, que desafió a los equipos a construir sistemas de visión por computadora que reconocieran 1,000 objetos, desde animales hasta paisajes y personas.
En los dos primeros años, los mejores equipos no habían logrado ni siquiera el 75% de precisión. Pero en el tercero, una banda de tres investigadores, un profesor y sus estudiantes, de repente sobrepasó este techo. Ganaron la competencia por un asombroso 10,8 puntos porcentuales. Ese profesor era Geoffrey Hinton, y la técnica que utilizaron se llamó aprendizaje profundo.
En realidad, Hinton había estado trabajando con el aprendizaje profundo desde la década de 1980, pero su efectividad se había visto limitada por la falta de datos y poder computacional. Su firme creencia en la técnica finalmente pagó enormes dividendos. En el cuarto año de la competencia ImageNet, casi todos los equipos utilizaban el aprendizaje profundo y lograban ganancias de precisión milagrosas. Muy pronto, el aprendizaje profundo se estaba aplicando a tareas más allá del reconocimiento de imágenes, y también dentro de una amplia gama de industrias.
El año pasado, por sus contribuciones fundamentales al campo, Hinton recibió el premio Turing, junto con otros pioneros de la inteligencia artificial, Yann LeCun y Yoshua Bengio. El 20 de octubre, hablé con él en la conferencia anual EmTech MIT de MIT Technology Review sobre el estado del campo y hacia dónde cree que debería dirigirse a continuación.
Crees que el aprendizaje profundo será suficiente para replicar toda la inteligencia humana. Qué te hace estar tan seguro?
Creo que el aprendizaje profundo podrá hacer todo, pero creo que tendrá que haber bastantes avances conceptuales. Por ejemplo, en 2017 Ashish Vaswani et al . introdujo transformadores , que derivan vectores realmente buenos que representan los significados de las palabras. Fue un avance conceptual. Ahora se utiliza en casi todos los mejores procesos de lenguaje natural. Vamos a necesitar muchos más avances como ese.
Y si tenemos esos avances, ¿seremos capaces de aproximarnos a toda la inteligencia humana a través del aprendizaje profundo?
Si. Particularmente avances relacionados con la forma de obtener grandes vectores de actividad neuronal para implementar cosas como la razón. Pero también necesitamos un aumento masivo de escala. El cerebro humano tiene alrededor de 100 billones de parámetros o sinapsis. Lo que ahora llamamos un modelo realmente grande, como GPT-3 , tiene 175 mil millones. Es mil veces más pequeño que el cerebro. GPT-3 ahora puede generar texto de apariencia bastante plausible, y aún es pequeño en comparación con el cerebro.
Cuando dices escala, ¿te refieres a redes neuronales más grandes, más datos o ambos?
Ambos. Existe una especie de discrepancia entre lo que sucede en la informática y lo que sucede con las personas. Las personas tienen una gran cantidad de parámetros en comparación con la cantidad de datos que obtienen. Las redes neuronales son sorprendentemente buenas para manejar una cantidad bastante pequeña de datos, con una gran cantidad de parámetros, pero las personas son aún mejores.
Mucha gente en el campo cree que el sentido común es la próxima gran capacidad a abordar. ¿Estás de acuerdo?
Estoy de acuerdo en que esa es una de las cosas más importantes. También creo que el control motor es muy importante, y las redes neuronales profundas ahora se están volviendo buenas en eso. En particular, un trabajo reciente en Google ha demostrado que puede hacer un control de la motricidad fina y combinar eso con el lenguaje, de modo que pueda abrir un cajón y sacar un bloque, y el sistema puede decirle en lenguaje natural lo que está haciendo.
Para cosas como GPT-3, que genera este maravilloso texto, está claro que debe comprender mucho para generar ese texto, pero no está muy claro cuánto comprende. Pero si algo abre el cajón y saca un bloque y dice: “Acabo de abrir un cajón y saqué un bloque”, es difícil decir que no entiende lo que está haciendo.
El campo de la IA siempre ha considerado al cerebro humano como su mayor fuente de inspiración, y los diferentes enfoques de la IA se han derivado de diferentes teorías de la ciencia cognitiva. ¿Crees que el cerebro realmente construye representaciones del mundo externo para comprenderlo, o es solo una forma útil de pensar sobre él?
Hace mucho tiempo, en las ciencias cognitivas, hubo un debate entre dos escuelas de pensamiento. Uno fue dirigido por Stephen Kosslyn, y él creía que cuando manipula imágenes visuales en su mente, lo que tiene es una matriz de píxeles y los está moviendo. La otra escuela de pensamiento estaba más en línea con la IA convencional. Decía: “No, no, eso es una tontería. Son descripciones estructurales jerárquicas. Tienes una estructura simbólica en tu mente, y eso es lo que estás manipulando “.
Creo que ambos estaban cometiendo el mismo error. Kosslyn pensó que manipulamos píxeles porque las imágenes externas están hechas de píxeles, y esa es una representación que entendemos. El símbolo que la gente pensó que manipulamos los símbolos porque también representamos cosas en símbolos, y esa es una representación que entendemos. Creo que eso está igualmente mal. Lo que hay dentro del cerebro son estos grandes vectores de actividad neuronal.
Hay algunas personas que todavía creen que la representación simbólica es uno de los enfoques de la IA.
Absolutamente. Tengo buenos amigos como Héctor Levesque, que realmente cree en el enfoque simbólico y ha hecho un gran trabajo al respecto. No estoy de acuerdo con él, pero el enfoque simbólico es algo perfectamente razonable de intentar. Pero supongo que al final, nos daremos cuenta de que los símbolos simplemente existen en el mundo externo y hacemos operaciones internas en grandes vectores.
¿Cuál cree que es su opinión más contraria sobre el futuro de la IA?
Bueno, mi problema es que tengo estas opiniones contrarias y luego, cinco años después, son la corriente principal. La mayoría de mis opiniones contrarias de la década de 1980 ahora son ampliamente aceptadas. Ahora es bastante difícil encontrar personas que no estén de acuerdo con ellos. Así que sí, mis opiniones contrarias me han socavado.