Un nuevo marco de investigadores de la Universidad de Hong Kong (HKU) e instituciones colaboradoras proporciona una base de código abierto para crear agentes de IA robustos que puedan operar computadoras. El marco, llamado OpenCUA, incluye las herramientas, los datos y las recetas para escalar el desarrollo de agentes de uso informático (CUA).

por Ben Dickson

Los modelos entrenados con este marco tienen un gran rendimiento en los puntos de referencia de CUA, superando a los modelos de código abierto existentes y compitiendo estrechamente con agentes cerrados de los principales laboratorios de IA como OpenAI y Anthropic.

El desafío de construir agentes de uso informático

Los agentes de uso informático están diseñados para completar tareas de forma autónoma en un equipo, desde navegar por sitios web hasta operar software complejo. También pueden ayudar a automatizar los flujos de trabajo en la empresa. Sin embargo, los sistemas CUA más capaces son propietarios, y los detalles críticos sobre sus datos de entrenamiento, arquitecturas y procesos de desarrollo se mantienen privados.

“Dado que la falta de transparencia limita los avances técnicos y plantea problemas de seguridad, la comunidad de investigación necesita marcos CUA verdaderamente abiertos para estudiar sus capacidades, limitaciones y riesgos”, afirman los investigadores en su artículo.

Al mismo tiempo, los esfuerzos de código abierto enfrentan su propio conjunto de obstáculos. No ha habido una infraestructura escalable para recopilar los datos diversos y a gran escala necesarios para entrenar a estos agentes. Los conjuntos de datos de código abierto existentes para interfaces gráficas de usuario (GUI) tienen datos limitados, y muchos proyectos de investigación no proporcionan detalles suficientes sobre sus métodos, lo que dificulta que otros repliquen su trabajo.

Según el documento, “Estas limitaciones obstaculizan colectivamente los avances en las CUA de propósito general y restringen una exploración significativa de su escalabilidad, generalización y posibles enfoques de aprendizaje”.

Presentación de OpenCUA

Marco OpenCUA Fuente: XLANG Lab en HKU

OpenCUA es un marco de código abierto diseñado para abordar estos desafíos al escalar tanto la recopilación de datos como los propios modelos. En su núcleo se encuentra la herramienta AgentNet para registrar demostraciones humanas de tareas informáticas en diferentes sistemas operativos.

La herramienta agiliza la recopilación de datos al ejecutarse en segundo plano en la computadora personal de un anotador, capturar videos de pantalla, entradas de mouse y teclado, y el árbol de accesibilidad subyacente, que proporciona información estructurada sobre los elementos en pantalla. Estos datos sin procesar se procesan en “trayectorias de estado-acción”, emparejando una captura de pantalla de la computadora (el estado) con la acción correspondiente del usuario (un clic, presionar una tecla, etc.). Los anotadores pueden revisar, editar y enviar estas demostraciones.

Fuente de la herramienta AgentNet: XLang Lab en HKU

Usando esta herramienta, los investigadores recopilaron el conjunto de datos de AgentNet, que contiene más de 22,600 demostraciones de tareas en Windows, macOS y Ubuntu, que abarcan más de 200 aplicaciones y sitios web. “Este conjunto de datos captura auténticamente la complejidad de los comportamientos humanos y la dinámica ambiental de los entornos informáticos personales de los usuarios”, señala el documento.

Reconociendo que las herramientas de grabación de pantalla plantean importantes preocupaciones sobre la privacidad de los datos para las empresas, los investigadores diseñaron la herramienta AgentNet teniendo en cuenta la seguridad. Xinyuan Wang, coautor del artículo y estudiante de doctorado en HKU, explicó que implementaron un marco de protección de la privacidad de múltiples capas. “Primero, los propios anotadores pueden observar completamente los datos que generan… antes de decidir si enviarlo”, dijo a VentureBeat. Luego, los datos se someten a una verificación manual de problemas de privacidad y un escaneo automatizado por parte de un modelo grande para detectar cualquier contenido confidencial restante antes de su lanzamiento. “Este proceso en capas garantiza una solidez de nivel empresarial para entornos que manejan datos financieros o de clientes confidenciales”, agregó Wang.

Para acelerar la evaluación, el equipo también seleccionó AgentNetBench, un punto de referencia fuera de línea que proporciona múltiples acciones correctas para cada paso, ofreciendo una forma más eficiente de medir el desempeño de un agente.

Una nueva receta para la formación de agentes

El marco OpenCUA presenta una nueva canalización para procesar datos y entrenar agentes de uso informático. El primer paso convierte las demostraciones humanas sin procesar en pares de estado-acción limpios adecuados para entrenar modelos de lenguaje de visión (VLM). Sin embargo, los investigadores encontraron que el simple entrenamiento de modelos en estos pares produce ganancias de rendimiento limitadas, incluso con grandes cantidades de datos.

Canalización de la cadena de pensamiento de OpenCUA Fuente: XLang Lab en HKU

La idea clave fue aumentar estas trayectorias con el razonamiento de la cadena de pensamiento (CoT). Este proceso genera un “monólogo interior” detallado para cada acción, que incluye planificación, memoria y reflexión. Este razonamiento estructurado se organiza en tres niveles: una observación de alto nivel de la pantalla, pensamientos reflexivos que analizan la situación y planifican los próximos pasos y, finalmente, la acción concisa y ejecutable. Este enfoque ayuda al agente a desarrollar una comprensión más profunda de las tareas.

“Encontramos que el razonamiento del lenguaje natural es crucial para los modelos básicos de uso de computadoras generalizables, lo que ayuda a los CUA a internalizar las capacidades cognitivas”, escriben los investigadores.

Esta canalización de síntesis de datos es un marco general que las empresas pueden adaptar para capacitar a los agentes en sus propias herramientas internas únicas. Según Wang, una empresa puede grabar demostraciones de sus flujos de trabajo patentados y usar la misma canalización de “reflector” y “generador” para crear los datos de entrenamiento necesarios. “Esto les permite arrancar un agente de alto rendimiento adaptado a sus herramientas internas sin necesidad de elaborar manualmente rastros de razonamiento”, explicó.

Poniendo a prueba OpenCUA

Los investigadores aplicaron el marco OpenCUA para entrenar una variedad de VLM de código abierto, incluidas variantes de Qwen y Kimi-VL, con tamaños de parámetros de 3 mil millones a 32 mil millones. Los modelos se evaluaron en un conjunto de puntos de referencia en línea y fuera de línea que prueban su capacidad para realizar tareas y comprender las GUI.

El modelo de 32 mil millones de parámetros, OpenCUA-32B, estableció una nueva tasa de éxito de vanguardia entre los modelos de código abierto en el punto de referencia OSWorld-Verified. También superó al CUA basado en GPT-4o de OpenAI y cerró significativamente la brecha de rendimiento con los principales modelos patentados de Anthropic.

OpenCUA muestra una mejora masiva sobre los modelos base (izquierda) mientras compite con los principales modelos CUA (derecha) Fuente: XLANG Lab en HKU

Para los desarrolladores empresariales y los líderes de productos, la investigación ofrece varios hallazgos clave. El método OpenCUA es ampliamente aplicable, mejorando el rendimiento en modelos con diferentes arquitecturas (tanto densas como mixtas de expertos) y tamaños. Los agentes capacitados también muestran una fuerte generalización, desempeñándose bien en una amplia gama de tareas y sistemas operativos.

Según Wang, el marco es particularmente adecuado para automatizar flujos de trabajo empresariales repetitivos y laboriosos. “Por ejemplo, en el conjunto de datos de AgentNet, ya capturamos algunas demostraciones del lanzamiento de instancias EC2 en Amazon AWS y la configuración de parámetros de anotación en MTurk”, dijo a VentureBeat. “Estas tareas implican muchos pasos secuenciales, pero siguen patrones repetibles”.

Sin embargo, Wang señaló que cerrar la brecha con el despliegue en vivo requiere abordar desafíos clave en torno a la seguridad y la confiabilidad. “El mayor desafío en la implementación real es la seguridad y la confiabilidad: el agente debe evitar errores que podrían alterar inadvertidamente la configuración del sistema o desencadenar efectos secundarios dañinos más allá de la tarea prevista”, dijo.

Los investigadores han publicado el código, el conjunto de datos y los pesos de sus modelos.

A medida que los agentes de código abierto construidos sobre marcos como OpenCUA se vuelven más capaces, podrían evolucionar fundamentalmente la relación entre los trabajadores del conocimiento y sus computadoras. Wang imagina un futuro en el que la competencia en software complejo se vuelve menos importante que la capacidad de articular claramente los objetivos a un agente de IA.

Describió dos modos principales de trabajo: “automatización fuera de línea, donde el agente aprovecha su conocimiento de software más amplio para realizar una tarea de extremo a extremo” y “colaboración en línea, donde el agente responde en tiempo real y trabaja codo con codo con el humano, al igual que un colega”. Básicamente, los humanos proporcionarán el “qué” estratégico, mientras que los agentes de IA cada vez más sofisticados manejan el “cómo” operativo.

Fuente: https://venturebeat.com/ai/opencuas-open-source-computer-use-agents-rival-proprietary-models-from-openai-and-anthropic/

Deja una respuesta