Si bien los grandes modelos lingüísticos (LLM) han dominado el texto (y otras modalidades hasta cierto punto), carecen del sentido común físico necesario para operar en entornos dinámicos del mundo real. Esto ha limitado el despliegue de la IA en áreas como la manufactura y la logística, donde comprender la relación causa-efecto es crucial.

por Ben Dickson

El último modelo de Meta, V-JEPA 2 , da un paso hacia cerrar esta brecha al aprender un modelo mundial a partir de interacciones físicas y de video.

V-JEPA 2 puede ayudar a crear aplicaciones de IA que requieren predecir resultados y planificar acciones en entornos impredecibles con numerosos casos extremos. Este enfoque puede proporcionar una vía clara hacia robots más capaces y una automatización avanzada en entornos físicos.

Cómo un ‘modelo mundial’ aprende a planificar

Los humanos desarrollan la intuición física desde pequeños al observar su entorno. Si ves que lanzan una pelota, conoces instintivamente su trayectoria y puedes predecir dónde caerá. V-JEPA 2 aprende un “modelo del mundo” similar, que consiste en la simulación interna de un sistema de IA del funcionamiento del mundo físico.

El modelo se basa en tres capacidades fundamentales para las aplicaciones empresariales: comprender qué sucede en una escena, predecir cómo cambiará la escena en función de una acción y planificar una secuencia de acciones para lograr un objetivo específico. Como afirma Meta en su blog , su visión a largo plazo es que los modelos del mundo permitirán a los agentes de IA planificar y razonar en el mundo físico.

La arquitectura del modelo, denominada Arquitectura Predictiva de Incrustación Conjunta de Video (V-JEPA), consta de dos partes clave. Un codificador visualiza un videoclip y lo condensa en un resumen numérico compacto, conocido como incrustación . Esta incrustación captura la información esencial sobre los objetos y sus relaciones en la escena. Un segundo componente, el predictor, toma este resumen e imagina cómo evolucionará la escena, generando una predicción del aspecto del siguiente resumen. 

Esta arquitectura es la última evolución del marco JEPA, que primero se aplicó a imágenes con 
I-JEPA y ahora avanza al video, demostrando un enfoque consistente para construir modelos mundiales.

A diferencia de los modelos de IA generativa que intentan predecir el color exacto de cada píxel en un fotograma futuro (una tarea computacionalmente intensiva), V-JEPA 2 opera en un espacio abstracto. Se centra en predecir las características generales de una escena, como la posición y la trayectoria de un objeto, en lugar de su textura o los detalles del fondo, lo que lo hace mucho más eficiente que otros modelos más grandes, con tan solo 1200 millones de parámetros.

Esto se traduce en menores costos de procesamiento y lo hace más adecuado para su implementación en entornos del mundo real.

Aprendiendo de la observación y la acción

V-JEPA 2 se entrena en dos etapas. En primer lugar, desarrolla su comprensión fundamental de la física mediante aprendizaje autosupervisado , visualizando más de un millón de horas de vídeos de internet sin etiquetar. Simplemente observando cómo se mueven e interactúan los objetos, desarrolla un modelo del mundo de propósito general sin necesidad de guía humana.

En la segunda etapa, este modelo preentrenado se perfecciona con un conjunto de datos pequeño y especializado. Al procesar tan solo 62 horas de vídeo que muestran a un robot realizando tareas, junto con los comandos de control correspondientes, V-JEPA 2 aprende a conectar acciones específicas con sus resultados físicos. Esto da como resultado un modelo capaz de planificar y controlar acciones en el mundo real.

Canal de capacitación en dos etapas de V-JEPA (fuente: Meta)
Canal de capacitación en dos etapas de V-JEPA (fuente: Meta)

Este entrenamiento en dos etapas habilita una capacidad crucial para la automatización en el mundo real: la planificación robótica sin disparos. Un robot con tecnología V-JEPA 2 puede implementarse en un nuevo entorno y manipular con éxito objetos con los que nunca se ha encontrado, sin necesidad de volver a entrenarse para ese entorno específico.

Este es un avance significativo con respecto a los modelos anteriores, que requerían datos de entrenamiento del robot y el entorno exactos donde operarían. El modelo se entrenó con un conjunto de datos de código abierto y posteriormente se implementó con éxito en diferentes robots en los laboratorios de Meta.

Por ejemplo, para completar una tarea como recoger un objeto, el robot recibe una imagen objetivo del resultado deseado. Luego, utiliza el predictor V-JEPA 2 para simular internamente una serie de posibles movimientos siguientes. Califica cada acción imaginada según su aproximación al objetivo, ejecuta la acción mejor valorada y repite el proceso hasta completar la tarea.

Utilizando este método, el modelo logró índices de éxito de entre el 65% y el 80% en tareas de selección y colocación con objetos desconocidos en entornos nuevos.

El impacto del razonamiento físico en el mundo real

Esta capacidad de planificar y actuar en situaciones novedosas tiene implicaciones directas para las operaciones comerciales. En logística y manufactura, permite robots más adaptables que pueden manejar variaciones en los productos y la distribución del almacén sin necesidad de una reprogramación exhaustiva. Esto puede ser especialmente útil ahora que las empresas están explorando la implementación de robots humanoides en fábricas y líneas de ensamblaje.

El mismo modelo de mundo puede impulsar gemelos digitales de gran realismo, lo que permite a las empresas simular nuevos procesos o entrenar otras IA en un entorno virtual físicamente preciso. En entornos industriales, un modelo podría monitorizar las transmisiones de vídeo de la maquinaria y, basándose en su comprensión de la física adquirida, predecir problemas de seguridad y fallos antes de que ocurran.

Esta investigación es un paso clave hacia lo que Meta llama “inteligencia artificial avanzada (AMI)”, donde los sistemas de IA pueden “aprender sobre el mundo como lo hacen los humanos, planificar cómo ejecutar tareas desconocidas y adaptarse eficientemente al mundo en constante cambio que nos rodea”. 

Meta ha publicado el modelo y su código de entrenamiento y espera “construir una amplia comunidad en torno a esta investigación, impulsando el progreso hacia nuestro objetivo final de desarrollar modelos mundiales que puedan transformar la forma en que la IA interactúa con el mundo físico”. 

Qué significa para los responsables de la toma de decisiones técnicas empresariales

V-JEPA 2 acerca la robótica al modelo definido por software que los equipos de la nube ya reconocen: preentrenar una vez, implementar en cualquier lugar. Dado que el modelo aprende física general a partir de videos públicos y solo necesita unas pocas docenas de horas de grabación específica para cada tarea, las empresas pueden reducir drásticamente el ciclo de recopilación de datos que suele retrasar los proyectos piloto. En la práctica, se puede prototipar un robot de selección y colocación en un brazo de escritorio asequible y luego implementar la misma política en una plataforma industrial en la planta de producción sin tener que recopilar miles de muestras nuevas ni escribir guiones de movimiento personalizados.

Una menor sobrecarga de entrenamiento también redefine la ecuación de costos. Con 1200 millones de parámetros, V-JEPA 2 se integra perfectamente en una sola GPU de alta gama, y ​​sus objetivos de predicción abstracta reducen aún más la carga de inferencia. Esto permite a los equipos ejecutar un control de bucle cerrado localmente o en el borde, evitando la latencia de la nube y los problemas de cumplimiento normativo que conlleva la transmisión de video fuera de la planta. El presupuesto que antes se destinaba a clústeres de computación masivos ahora puede financiar sensores adicionales, redundancia o ciclos de iteración más rápidos.

Fuente: https://venturebeat.com/ai/metas-new-world-model-lets-robots-manipulate-objects-in-environments-theyve-never-encountered-before/

Deja una respuesta