La firma de inteligencia artificial respaldada por Alphabet está utilizando juegos virtuales para ayudar a que sus creaciones digitales se muevan más como humanos.
por AMIT KATWALA
EL INTENTO DE DEEPMIND DE enseñar a una IA a jugar fútbol comenzó con un jugador virtual retorciéndose en el suelo, por lo que clavó al menos un aspecto del juego desde el inicio.
Pero precisar la mecánica del hermoso juego, desde conceptos básicos como correr y patear hasta conceptos de orden superior como el trabajo en equipo y las entradas, resultó mucho más desafiante, como lo demuestra una nueva investigación de la firma de inteligencia artificial respaldada por Alphabet. El trabajo, publicado esta semana en la revista Science Robotics , puede parecer frívolo, pero aprender los fundamentos del fútbol algún día podría ayudar a los robots a moverse por nuestro mundo de formas más naturales y humanas.
“Para ‘resolver’ el fútbol, hay que resolver muchos problemas abiertos en el camino hacia la inteligencia artificial general [AGI]”, dice Guy Lever, científico investigador de DeepMind. “Está el control del cuerpo humanoide completo, la coordinación, que es realmente difícil para AGI, y en realidad dominar el control motor de bajo nivel y cosas como la planificación a largo plazo”.
Una IA tiene que recrear todo lo que hacen los jugadores humanos, incluso las cosas en las que no tenemos que pensar conscientemente, como precisamente cómo mover cada extremidad y músculo para conectarse con una pelota en movimiento, tomando cientos de decisiones por segundo. El tiempo y el control necesarios incluso para los movimientos más básicos pueden ser sorprendentemente difíciles de precisar, como recordará cualquiera que haya jugado alguna vez al juego de navegador QWOP . “Hacemos eso sin pensarlo, pero ese es un problema realmente difícil para la IA, y no estamos muy seguros de cómo lo hacen los humanos”, dice Lever.
Los agentes humanoides simulados de DeepMind se modelaron en humanos reales, con 56 puntos de articulación y un rango de movimiento limitado, lo que significa que no podían, por ejemplo, rotar la articulación de la rodilla en ángulos imposibles al estilo de Zlatan Ibrahimovic. Para empezar, los investigadores simplemente les dieron a los agentes una meta (correr, por ejemplo, o patear una pelota) y les permitieron descubrir cómo llegar allí mediante ensayo y error y aprendizaje por refuerzo, como se hacía en el pasado cuando los investigadores enseñó a humanoides simulados a sortear carreras de obstáculos (con resultados cómicos y poco naturales).
“Esto realmente no funcionó”, dice Nicolas Heess, también científico investigador de DeepMind y uno de los coautores del artículo con Lever. Debido a la complejidad del problema, la gran variedad de opciones disponibles y la falta de conocimiento previo sobre la tarea, los agentes realmente no tenían idea de por dónde empezar, de ahí las contorsiones y contracciones.
Entonces, en cambio, Heess, Lever y sus colegas usaron primitivas motoras probabilísticas neurales (NPMP), un método de enseñanza que empujó el modelo de IA hacia patrones de movimiento más parecidos a los humanos, con la expectativa de que este conocimiento subyacente ayudaría a resolver el problema de cómo moverse por el campo de fútbol virtual. “Básicamente sesga su control motor hacia un comportamiento humano realista, movimientos humanos realistas”, dice Lever. “Y eso se aprende de la captura de movimiento, en este caso, actores humanos jugando al fútbol”.
Esto “reconfigura el espacio de acción”, dice Lever. Los movimientos de los agentes ya están restringidos por sus cuerpos y articulaciones similares a los humanos que solo pueden doblarse de ciertas maneras, y estar expuestos a datos de humanos reales los restringe aún más, lo que ayuda a simplificar el problema. “Hace que las cosas útiles sean más fáciles de descubrir por ensayo y error”, dice Lever. NPMP acelera el proceso de aprendizaje. Se debe lograr un “equilibrio sutil” entre enseñar a la IA a hacer las cosas de la manera en que las hacen los humanos y, al mismo tiempo, darle suficiente libertad para descubrir sus propias soluciones a los problemas, que pueden ser más eficientes que las que se nos ocurren a nosotros mismos. .
El entrenamiento básico fue seguido por ejercicios para un solo jugador: correr, driblar y patear la pelota, imitando la forma en que los humanos pueden aprender a jugar un nuevo deporte antes de sumergirse en una situación de partido completo. Las recompensas de aprendizaje por refuerzo eran cosas como seguir con éxito un objetivo sin el balón o driblar el balón cerca de un objetivo. Este plan de estudios de habilidades fue una forma natural de desarrollar tareas cada vez más complejas, dice Lever.
El objetivo era alentar a los agentes a reutilizar las habilidades que podrían haber aprendido fuera del contexto del fútbol dentro de un entorno de fútbol, para generalizar y ser flexibles al cambiar entre diferentes estrategias de movimiento. Los agentes que habían dominado estos ejercicios fueron utilizados como maestros. De la misma manera que se alentó a la IA a imitar lo que había aprendido de la captura de movimiento humano, también se la recompensó por no desviarse demasiado de las estrategias que los agentes docentes usaron en escenarios particulares, al menos al principio. “Este es en realidad un parámetro del algoritmo que se optimiza durante el entrenamiento”, dice Lever. “Con el tiempo, en principio, pueden reducir su dependencia de los maestros”.
Con sus jugadores virtuales entrenados, era hora de un poco de acción en los partidos: comenzando con juegos de 2 contra 2 y 3 contra 3 para maximizar la cantidad de experiencia que los agentes acumularon durante cada ronda de simulación (e imitando cómo los jugadores jóvenes comienzan con juegos pequeños en la vida real). ). Los aspectos más destacados , que puedes ver aquí, tienen la energía caótica de un perro persiguiendo una pelota en el parque: los jugadores no corren sino que tropiezan hacia adelante, perpetuamente a punto de caer al suelo. Cuando se marcan goles, no se debe a movimientos de pase intrincados, sino a despejes prometedores y rebotes similares a los de un futbolín en la pared trasera.
Sin embargo, aunque en los juegos los agentes fueron recompensados solo por marcar goles, los investigadores rápidamente vieron que comenzaban a surgir propiedades como el trabajo en equipo. “Al comienzo del entrenamiento, todos los agentes simplemente corrían hacia el balón y, en algún momento, después de unos días, veíamos que los agentes se daban cuenta de que uno de sus compañeros de equipo tenía el control del balón y se daba la vuelta. y correr por el campo, anticipando que su compañero de equipo intentaría anotar o tal vez pasar el balón”, dice Lever. Es la primera vez que se ve tal coordinación y trabajo en equipo en una IA tan compleja y de acción rápida. “Ese es uno de los avances que me interesa”, dice Lever.
¿En cuanto al punto de todo esto? No se trata de dominar la Copa Mundial de Robots ; Heess está trabajando para imbuir algunas de las habilidades de nivel inferior que los agentes han aprendido en los robots físicos para que se muevan de manera más “segura y natural” en el mundo real. Eso no es solo para que no asusten a los humanos que interactúan con ellos, sino también porque los movimientos irregulares y nerviosos que puede producir el aprendizaje por refuerzo no estructurado podrían dañar a los robots que no estaban optimizados para moverse de esa manera, o simplemente desperdiciar energía. .
Todo es parte del trabajo sobre la “inteligencia incorporada”, la idea de que se podría requerir una inteligencia artificial general para moverse por el mundo en algún tipo de forma física, y que la naturaleza de esa forma podría determinar la forma en que se comporta. “Es interesante tanto en mundos simulados, que presentan cada vez más simulaciones basadas en la física, como para desarrollar métodos para el aprendizaje de robots”, dice Heess.
Eventualmente, estos jugadores digitales un poco cómicos podrían ayudar tanto a los robots como a los avatares del metaverso a moverse en formas que parecen más humanas, incluso si nunca nos ganarán en el fútbol. “El fútbol no es realmente un objetivo final en sí mismo”, dice Lever. “Hay muchas cosas que debes resolver para llegar allí”.
Amit Katwala es escritor sénior en WIRED y se especializa en largometrajes, ciencia y cultura. Se graduó en la Universidad de Oxford con una licenciatura en psicología experimental y es autor de dos libros: The Athletic Brain , sobre el auge de la neurociencia en el deporte, y WIRED… Leer más
Fuente: https://www.wired.com/story/alphabet-deepmind-ai-humanoids-soccer-camp/