Ilustración: Kristina Armitage/Quanta Magazine
El sistema V-JEPA utiliza vídeos ordinarios para entender la física del mundo real.
Aquí tienes una prueba para bebés: muéstrales un vaso de agua sobre un escritorio. Escóndelo detrás de una tabla de madera. Ahora mueve la tabla hacia el cristal. Si la tabla sigue pasando más allá del cristal, como si no existiera, ¿se sorprenden? Muchos niños de 6 meses lo son, y al año siguiente, casi todos los niños tienen una noción intuitiva de la permanencia de un objeto, aprendida a través de la observación. Ahora, algunos modelos de inteligencia artificial también lo hacen.
Los investigadores han desarrollado un sistema de IA que aprende sobre el mundo a través de vídeos y demuestra una noción de “sorpresa” cuando se le presenta información que va en contra del conocimiento que ha obtenido.
El modelo, creado por Meta y llamado Video Joint Embedding Predictive Architecture (V-JEPA), no hace ninguna suposición sobre la física del mundo contenida en los vídeos. No obstante, puede empezar a entender cómo funciona el mundo.
“Sus afirmaciones son, a priori, muy plausibles, y los resultados son súper interesantes”, dice Micha Heilbron, científico cognitivo de la Universidad de Ámsterdam que estudia cómo los cerebros y los sistemas artificiales entienden el mundo.
Abstracciones superiores
Como saben los ingenieros que construyen coches autónomos, puede ser difícil que un sistema de IA entienda de forma fiable lo que observa. La mayoría de los sistemas diseñados para “entender” los vídeos con el fin de clasificar su contenido (“una persona jugando al tenis”, por ejemplo) o identificar los contornos de un objeto—por ejemplo, un coche más adelante—funcionan en lo que se llama “espacio de píxeles”. El modelo trata esencialmente cada píxel de un vídeo como igual de importante.
Pero estos modelos en espacio píxel tienen limitaciones. Imagina intentar entender una calle suburbana. Si la escena tiene coches, semáforos y árboles, el modelo podría centrarse demasiado en detalles irrelevantes como el movimiento de las hojas. Puede que no detecte el color del semáforo ni la posición de los coches cercanos. “Cuando vas a imágenes o vídeos, no quieres trabajar en espacio [píxel] porque hay demasiados detalles que no quieres modelar”, dijo Randall Balestriero, informático de la Universidad de Brown.

La arquitectura V-JEPA, lanzada en 2024, está diseñada para evitar estos problemas. Aunque las particularidades de las distintas redes neuronales artificiales que componen V-JEPA son complexas, el concepto básico es sencillo.
Los sistemas ordinarios en espacio de píxeles pasan por un proceso de entrenamiento que implica enmascarar algunos píxeles en los fotogramas de un vídeo y entrenar redes neuronales para predecir los valores de esos píxeles enmascarados. V-JEPA también enmascara partes de los fotogramas de vídeo. Pero no predice qué hay detrás de las regiones enmascaradas a nivel de píxeles individuales. Más bien, utiliza niveles más altos de abstracciones, o representaciones “latentes”, para modelar el contenido.
Las representaciones latentes capturan solo detalles esenciales sobre los datos. Por ejemplo, dadas las líneas de varios cilindros, una red neuronal llamada codificador puede aprender a convertir cada imagen en números que representan aspectos fundamentales de cada cilindro, como su altura, ancho, orientación y ubicación. Al hacerlo, la información contenida en cientos o miles de píxeles se convierte en un puñado de números: las representaciones latentes. Una red neuronal separada llamada decodificador aprende entonces a convertir los detalles esenciales del cilindro en una imagen del cilindro.
V-JEPA se centra en crear y reproducir representaciones latentes. A un nivel general, la arquitectura se divide en tres partes: codificador 1, codificador 2 y un predictor. Primero, el algoritmo de entrenamiento toma un conjunto de fotogramas de vídeo, enmascara el mismo conjunto de píxeles en todos los fotogramas y alimenta los fotogramas al codificador 1. A veces, los últimos fotogramas del vídeo están completamente enmascarados. El codificador 1 convierte los fotogramas enmascarados en representaciones latentes. El algoritmo también alimenta los fotogramas sin enmascarar en su totalidad al codificador 2, que los convierte en otro conjunto de representaciones latentes.
Ahora el predictor entra en acción. Utiliza las representaciones latentes producidas por el codificador 1 para predecir la salida del codificador 2. En esencia, toma representaciones latentes generadas a partir de marcos enmascarados y predice las representaciones latentes generadas a partir de los marcos desenmascarados. Al recrear las representaciones latentes relevantes, y no los píxeles ausentes de sistemas anteriores, el modelo aprende a ver los coches en la carretera y no a preocuparse por las hojas de los árboles.
“Esto permite al modelo descartar … información y enfoque en aspectos más importantes del vídeo”, dijo Quentin Garrido, científico investigador en Meta. “Descartar información innecesaria es muy importante y es algo que V-JEPA pretende hacer de forma eficiente.”
Una vez completada esta etapa de preentrenamiento, el siguiente paso es adaptar V-JEPA para realizar tareas específicas como clasificar imágenes o identificar acciones representadas en vídeos. Esta fase de adaptación requiere algunos datos etiquetados por humanos. Por ejemplo, los vídeos deben estar etiquetados con información sobre las acciones contenidas. La adaptación para las tareas finales requiere mucho menos datos etiquetados que si todo el sistema hubiera sido entrenado de principio a fin para tareas posteriores específicas. Además, las mismas redes codificadoras y predictoras pueden adaptarse para diferentes tareas.
Imitación de la intuición
En febrero, el equipo de V-JEPA informó sobre cómo sus sistemas comprendieron las propiedades físicas intuitivas del mundo real: propiedades como la permanencia de objetos, la constancia de forma y color, y los efectos de la gravedad y las colisiones. En una prueba llamada IntPhys, que requiere que los modelos de IA identifiquen si las acciones que ocurren en un vídeo son físicamente plausibles o no, V-JEPA fue casi un 98 % preciso. Un modelo bien conocido que predice en espacio de píxeles era solo un poco mejor que el azar.

El equipo de V-JEPA también cuantificó explícitamente la “sorpresa” que mostró su modelo cuando su predicción no coincidió con las observaciones. Tomaron un modelo V-JEPA preentrenado con vídeos naturales, le dieron nuevos vídeos y luego calcularon matemáticamente la diferencia entre lo que V-JEPA esperaba ver en fotogramas futuros del vídeo y lo que realmente ocurrió. El equipo descubrió que el error de predicción aumentaba vertiginoso cuando los fotogramas futuros contenían eventos físicamente imposibles. Por ejemplo, si una bola rodaba detrás de un objeto ocluiente y desaparecía temporalmente de la vista, el modelo generaba un error cuando la bola no reaparecía desde detrás del objeto en los fotogramas posteriores. La reacción fue similar a la intuitiva observada en los bebés. V-JEPA, se podría decir, se sorprendió.
Heilbron queda impresionado por la capacidad de V-JEPA. “Sabemos por la literatura del desarrollo que los bebés no necesitan mucha exposición para aprender este tipo de física intuitiva”, afirmó. “Es convincente que demuestren que es aprendible desde el principio, y que no tienes que llegar con todos estos antecedentes innatos.”
Karl Friston, neurocientífico computacional en University College London, cree que V-JEPA va por buen camino en cuanto a imitar la “forma en que nuestro cerebro aprende y modela el mundo”. Sin embargo, todavía carece de algunos elementos fundamentales. “Lo que falta en la propuesta actual es una codificación adecuada de la incertidumbre”, dijo. Por ejemplo, si la información en los marcos pasados no es suficiente para predecir con precisión los marcos futuros, la predicción es incierta y V-JEPA no cuantifica esta incertidumbre.
En junio, el equipo de V-JEPA en Meta lanzó su modelo de próxima generación de 1.200 millones de parámetros, V-JEPA 2, que fue preentrenado con 22 millones de vídeos. También aplicaron el modelo a la robótica: mostraron cómo afinar aún más una nueva red predictora usando solo unas 60 horas de datos de robots (incluidos vídeos del robot e información sobre sus acciones), y luego utilizaron el modelo afinado para planificar la siguiente acción del robot. “Dicho modelo puede usarse para resolver tareas simples de manipulación robótica y allana el camino para futuros trabajos en esta dirección, dijo Garrido.
Para impulsar V-JEPA 2, el equipo diseñó un benchmark más complejo para la comprensión intuitiva de la física, llamado IntPhys 2. V-JEPA 2 y otros modelos solo tuvieron un desempeño ligeramente mejor que el azar en estas pruebas más exigentes. Una razón, dijo Garrido, es que V-JEPA 2 solo puede manejar unos pocos segundos de vídeo como entrada y predecir unos segundos en el futuro. Cualquier cosa más larga se olvida. Podrías hacer la comparación con bebés otra vez, pero Garrido tenía otra criatura en mente. “En cierto sentido, la memoria del modelo recuerda a la de un pez dorado”, dijo.
Fuente: https://www.wired.com/story/how-one-ai-model-creates-a-physical-intuition-of-its-environment/