por Edd Gent
La gente ha estado soñando con mayordomos robot durante décadas, pero una de las mayores barreras ha sido hacer que las máquinas entiendan nuestras instrucciones. Google ha comenzado a cerrar la brecha al unir la IA de lenguaje más reciente con robots de última generación.
El lenguaje humano es a menudo ambiguo . La forma en que hablamos de las cosas depende en gran medida del contexto y, por lo general, requiere una comprensión innata de cómo funciona el mundo para descifrar de qué estamos hablando . Entonces, si bien los robots pueden ser entrenados para llevar a cabo acciones en nuestro nombre, transmitirles nuestras intenciones puede ser complicado.
Si tienen alguna capacidad para comprender el lenguaje , los robots suelen estar diseñados para responder a instrucciones breves y específicas. Es probable que se les pasen por alto las instrucciones más opacas como “Necesito algo para lavar estas papas fritas” , al igual que las solicitudes complicadas de varios pasos como ” ¿Puedes volver a poner esta manzana en el refrigerador y traer el chocolate?”
Por el contrario, una nueva generación de modelos de lenguaje masivo inspirados en el innovador GPT-3 de Open AI es capaz de realizar algunas hazañas lingüísticas impresionantes. Al entrenarse con enormes cantidades de material escrito extraído de la web, estos sistemas de IA pueden generar prosa de alta calidad, potenciar chatbots convincentes y responder preguntas complicadas sobre el texto.
Google ha intentado combinar los dos en un nuevo proyecto destinado a aumentar la capacidad de los robots para entendernos. Al combinar su modelo de lenguaje grande PaLM con robots fabricados por Ever y day Robots , un derivado de la “fábrica de disparos a la luna” de Alphabet, X, han construido prototipos de mayordomos mecanizados que pueden hacer las órdenes de un ser humano en la casa.
Los robots, que ruedan sobre ruedas y cuentan con un solo brazo robótico y una cabeza llena de sensores, fueron entrenados primero para llevar a cabo una variedad de acciones básicas por parte de operadores humanos que los controlaron de forma remota a través de una serie de tareas.
Luego, los ingenieros crearon un nuevo software de control que aprovecha las habilidades lingüísticas de PaLM para traducir los comandos hablados o escritos de un ser humano en las acciones necesarias para lograrlo. El software aprovecha un enfoque llamado “cadena de sugerencias de pensamiento” que Google presentó a principios de este año, que permite que los modelos dividan los problemas en una serie de pasos intermedios.
Utiliza esto para dividir las solicitudes en subproblemas más pequeños que puede resolver con su conjunto de acciones previamente entrenadas. Por ejemplo, “tráeme una Coca -Cola” podría convertirse en “ve a la cocina, abre la nevera, coge una Coca – Cola y vuelve a la sala de estar”.
Los robots recibieron 101 instrucciones de usuarios humanos y pudieron generar una respuesta sensata el 84 por ciento de las veces, y realmente ejecutarlas sin problemas el 74 por ciento de las veces.
Eso representó una mejora del 14 por ciento y del 13 por ciento, respectivamente, en comparación con los robots que usan un modelo de lenguaje menos poderoso que PaLM, dijo Vincent Vanhoucke, director de robótica de Google, en una publicación de blog . Los robots impulsados por PaLM también vieron un aumento del 26 por ciento en su capacidad para llevar a cabo solicitudes complicadas de varios pasos.
Sin embargo, esto todavía es un trabajo en progreso, y los robots aún pueden ser desviados por cosas tan simples como un cambio en la iluminación o mover objetos fuera de sus posiciones familiares, según Wired. No está claro si el problema de la comprensión del lenguaje es realmente más apremiante que hacer que los robots realicen con éxito tareas en el mundo real en constante cambio.
Pero los investigadores esperan que los beneficios también puedan ir en la otra dirección, dando a los grandes modelos de lenguaje una forma de interactuar con el mundo físico. Si bien aún no está claro cómo se podría usar este proyecto para volver a entrenar estos modelos, podría ser una forma de comenzar a poner a tierra las habilidades lingüísticas de AI en el mundo real.
Entonces, ya sea que esta línea de investigación conduzca o no a que los mayordomos robóticos se conviertan en realidad, parece probable que impulse los campos de la robótica y la IA hacia capacidades nuevas y poderosas.
Crédito de la imagen: Robots cotidianos