RT-2: El nuevo modelo traduce la visión y el lenguaje en acción

por Yevgen Chebotar y Tianhe Yu – Google DeepMind Robotic Transformer 2 (RT-2) es un modelo novedoso de visión-lenguaje-acción (VLA) que aprende de datos web y robóticos y traduce este conocimiento en instrucciones generalizadas para el control robótico. Los modelos de lenguaje de visión (VLM) de alta capacidad se entrenan en conjuntos de datos a […]

Read More