Las políticas robóticas entrenadas de principio a fin para generar acciones de bajo nivel en respuesta a observaciones sensoriales proporcionan un enfoque poderoso y atractivo basado en el aprendizaje para el control robótico, obviando la necesidad de sensores complejos y pilas de control, y procesando observaciones complejas en controles diestros de bajo nivel.
por Michał Zawalski, William Chen, Karl Pertsch Oier Mees, Chelsea Finn, Sergey Levine – UC Berkeley, University of Warsaw, Stanford University
Sin embargo, este tipo de control “reactivo” no es necesariamente la mejor opción en entornos que exigen una generalización amplia, como escenas novedosas o interacciones con objetos desconocidos. En tales situaciones, una persona podría necesitar pensar con más cuidado: si se le pide que ponga fruta en un plato y verduras en otro, primero podría tratar de averiguar qué objetos son frutas y cuáles son verduras, en lugar de simplemente realizar una habilidad aprendida de “memoria muscular”. De la misma manera, nos gustaría que nuestras políticas robóticas realicen un control de principio a fin bien practicado y “razonen” sobre situaciones novedosas antes de fundamentar sus órdenes en acciones. Este razonamiento podría incluir la identificación y localización de objetos relevantes para la tarea, la elaboración de un plan para realizar una tarea y la traducción de subtareas y observaciones en movimientos.
Fuentes: https://embodied-cot.github.io/ y https://arxiv.org/pdf/2407.08693