ChatGPT ya no está esperando tu próxima pregunta. La nueva función de agente de OpenAI le permite navegar por la web, crear presentaciones de diapositivas e incluso crear su próximo plan de comidas, con una mínima intervención humana. Pero mientras que el agente de ChatGPT se dirige a usuarios individuales y tareas personales, los clientes empresariales quieren cosas diferentes: una integración perfecta, un control más estricto y una mayor precisión.

por Sascha Brodsky

El enfoque al consumidor de OpenAI destaca las distintas ventajas que ya ofrecen los proveedores centrados en la empresa. watsonx Orchestrate de IBM promete una integración empresarial más robusta y completa y una implementación local para mantener seguros los datos corporativos, capacidades que se vuelven cada vez más valiosas a medida que los agentes de IA ganan más autonomía en toda la empresa. Además de esta capa de infraestructura, los agentes prediseñados y personalizables están integrados con experiencia en el dominio, lo que permite una mayor competencia en función de las necesidades comerciales específicas.

El lanzamiento refleja un cambio más amplio en la IA empresarial. Las empresas están dejando atrás las herramientas y los sistemas de prueba que pueden actuar por sí solos. Los investigadores de IBM dicen que la tecnología abre las puertas a la eficiencia, pero también plantea preguntas importantes sobre la supervisión, la confiabilidad y cuánto control están dispuestas a dar las empresas a la IA.

“En el nivel más simple, lo que OpenAI ha lanzado es un marco de agentes que tiene muchos más grados de libertad que las capacidades de agentes anteriores, lo que permite que este sistema realice tareas que requieren una planificación más complicada y una gama más amplia de capacidades para completarse”, dijo Gabe Goodhart, arquitecto jefe de innovación abierta de IA en IBM, a IBM Think en una entrevista.

La tecnología se basa en las herramientas anteriores de OpenAI, como Operator, que permite a los sistemas de IA controlar computadoras y navegadores web. La nueva plataforma de agentes combina múltiples herramientas en una sola interfaz que permite planificar y ejecutar tareas de varios pasos de forma iterativa.

El lanzamiento ha agudizado la conversación de la industria en torno a la distinción entre agentes personales y empresariales. El diseño de OpenAI asume que un solo usuario puede moverse libremente a través de herramientas y datos, un enfoque que puede requerir una adaptación cuidadosa en entornos corporativos.

“Los grados de libertad también vienen los grados de riesgo”, dijo Goodhart.


El cliente utiliza el servicio en línea con el bot de chat para obtener soporte. Concepto de conversación de chatbot. Asistente virtual y técnico de automatización de software CRM

El agente de ChatGPT muestra el papel cada vez mayor de la IA en el trabajo

El agente ChatGPT de OpenAI, recientemente lanzado, amplía el papel de su inteligencia artificial desde el soporte conversacional hasta la ejecución autónoma de tareas. El sistema puede interactuar con sitios web, escribir y ejecutar código, completar formularios y realizar acciones de varios pasos en una computadora virtual con una participación humana limitada.

El lanzamiento destaca un cambio más amplio en la adopción de la IA empresarial. En lugar de herramientas que requieren una entrada rápida a solicitud, las empresas ahora están evaluando sistemas que pueden actuar con autonomía parcial o total. Los investigadores de IBM dicen que esto crea nuevas oportunidades para la eficiencia, pero también plantea preguntas sobre la supervisión, la confiabilidad del sistema y la seguridad. A medida que las empresas consideren la implementación, las decisiones clave dependerán de la criticidad de la tarea, el riesgo aceptable y el nivel de control que las organizaciones estén dispuestas a delegar en los sistemas de IA.

“En el nivel más simple, lo que OpenAI ha lanzado es un marco de agentes que tiene muchos más grados de libertad que las capacidades de agentes anteriores”, dijo Gabe Goodhart, arquitecto jefe de innovación abierta de IA en IBM, a IBM Think en una entrevista. “[Esto permite] que el sistema realice tareas que requieren una planificación más complicada y una gama más amplia de capacidades para completarlas”.

La tecnología se basa en las herramientas anteriores de OpenAI, como Operator, que permite a los sistemas de IA controlar computadoras y navegadores web. La nueva plataforma de agentes combina múltiples herramientas en una sola interfaz que permite planificar y ejecutar tareas de varios pasos de forma iterativa.

El agente obtuvo un 41,6% en lo que se ha llamado “el último examen de la humanidad” y un 27,4% en una prueba de matemáticas llamada Frontier Math. Si bien esos números sugieren capacidades sólidas, también resaltan que estos sistemas aún cometen errores.

“Los grados de libertad también vienen los grados de riesgo”, dijo Goodhart. El aumento de la autonomía significa pasar a lo que él llama “computación probabilística en lugar de computación determinista”. A diferencia del software tradicional que ejecuta las mismas instrucciones cada vez, los agentes de IA operan sobre la base del “mejor esfuerzo”.

El enfoque de OpenAI en los usuarios individuales contrasta con el enfoque empresarial adoptado por otros proveedores, que han construido sus sistemas teniendo en cuenta la seguridad, la gobernanza y el control corporativos desde el principio. El agente de ChatGPT se dirige a usuarios individuales y tareas personales, pero los clientes empresariales quieren cosas diferentes: mayor precisión y un control más estricto. watsonx Orchestrate de IBM promete una integración empresarial más robusta y una implementación local más sólida para mantener seguros los datos corporativos.

El lanzamiento también agudizó la conversación de la industria en torno a los agentes personales frente a los empresariales. El diseño de OpenAI asume que un solo usuario puede actuar a través de herramientas y datos sin barreras de seguridad, un enfoque que plantea riesgos significativos dentro de los entornos corporativos. Por el contrario, watsonx Orchestrate de IBM se construyó desde cero para la colaboración gobernada, los flujos de trabajo compartidos y la coordinación segura entre equipos.

El agente de ChatGPT se conecta actualmente con servicios de consumo, como Gmail y GitHub, mientras que Orchestrate está integrado con las principales plataformas empresariales, como Salesforce, SAP, Workday y ServiceNow.

Un vistazo al interior de la tecnología y lo que está en juego

El sistema OpenAI parece utilizar lo que los investigadores llaman “flujos agentivos”: patrones que permiten a los grandes modelos de lenguaje razonar a través de problemas, seleccionar herramientas y ejecutar planes. Dos enfoques impulsan estas capacidades: ReAct, donde el agente trabaja en un bucle, tomando acciones y observando los resultados; y ReWOO, que planifica todos los pasos antes de la ejecución. El sistema de OpenAI parece combinar elementos de ambos.

“Antes del lanzamiento del agente ChatGPT, OpenAI lanzó varias otras tecnologías clave”, dijo Goodhart, describiendo cómo la compañía ha construido lo que él ve como “un enfoque bastante basado en principios para el uso de herramientas en el que están creando cubos de herramientas bien definidos para los problemas más comunes que a los usuarios les gustaría resolver”.

La configuración combina navegadores visuales, acceso a terminales y llamadas directas a la API. Cada componente adicional de la IA podría aumentar el potencial de errores; Sin embargo, algunas configuraciones pueden proporcionar comprobaciones que mejoren el rendimiento general.

“Cada vez que se agrega incertidumbre adicional, un paso adicional de IA en el sistema, se tiene un lugar adicional donde podría descarrilarse”, dijo Goodhart. “A veces, estas cosas pueden actuar como controles y equilibrios entre sí y, de hecho, reducir la incertidumbre”.

Para Maryam Ashoori, directora sénior de gestión de productos para watsonx.ai en IBM, las capacidades técnicas importan menos que el contexto empresarial.

“No se trata de lo que el agente puede hacer”, le dijo a IBM Think en una entrevista. “Se trata de lo que está en juego y de cuánto control estás dispuesto a ceder”.

IBM hace hincapié en una arquitectura que prioriza la seguridad y que incluye estrictos controles de acceso para gestionar los permisos de los usuarios, integración de identidades para verificar a los usuarios y ejecución aislada para mantener los procesos separados y seguros. La compañía dice que estas no son características opcionales, sino fundamentales para la forma en que se construye el sistema.

Cuando el agente de IA se encuentra con la realidad corporativa

La transición de la investigación al uso empresarial requiere que las organizaciones equilibren las ganancias de productividad con los nuevos riesgos. Ashoori imagina a los agentes en sistemas de correo electrónico que resumen automáticamente los mensajes y redactan las respuestas, aplicaciones de calendario que optimizan los horarios y herramientas de adquisición que analizan los contratos de los proveedores.

Pero cada capacidad requiere la concesión de nuevos permisos. “Cada permiso otorgado a estos agentes se convierte en un punto de vulnerabilidad”, dijo Ashoori. Las organizaciones deben equilibrar la comodidad con la exposición a violaciones de datos e interrupciones operativas.

Goodhart dijo que la utilidad depende en gran medida de la función del trabajo. “Si usted es un usuario de negocios cotidiano cuyo trabajo se basa en sintetizar información, recopilar una amplia variedad de fuentes y establecer conexiones, esto podría ser un gran acelerador”, dijo. “Si usted es un usuario de línea de negocio que existe en un rol que tiene controles muy precisos y un flujo de trabajo muy preciso asociado, es probable que esto no le ayude mucho”.

El mercado empresarial opera bajo restricciones diferentes a las de las aplicaciones de consumo. Si bien los usuarios individuales pueden decidir qué información compartir, las implementaciones empresariales requieren marcos institucionales para el cumplimiento normativo y la protección de datos.

“El consumidor suele estar a cargo de todas las concesiones de permisos y todo está ahí”, dijo Ashoori. “Pero para los usuarios empresariales, generalmente se rige por un cuerpo de políticas o construcciones similares de la empresa”.

Este requisito de gobernanza podría crear oportunidades para los proveedores de IA empresarial especializados que comprenden los marcos regulatorios. También sugiere que un despliegue generalizado podría requerir nuevas capacidades de seguro y auditoría. Algunas de las mayores ganancias potenciales pueden provenir de la automatización de los tipos de tareas vagamente definidas, repetitivas o “difusas” que generalmente ralentizan a las personas, como la recopilación de información en todos los sistemas, la preparación de informes o el llenado de formularios.

“Creo que con las medidas de seguridad adecuadas, un sistema de agentes como este podría ser de gran ayuda dentro de una empresa para acelerar la eficacia de esas tareas difusas y reducir la fricción que las personas experimentan en el día a día con esas tareas difusas”, dijo Goodhart.

Fuente: https://www.ibm.com/think/news/chatgpt-agent-shows-expanding-work-role-ai


Presentamos el agente ChatGPT: un puente entre la investigación y la acción

ChatGPT ahora piensa y decide, seleccionando por sí mismo herramientas autónomas de su repertorio para realizar tareas por ti con su propio ordenador.

Probar

ChatGPT ahora puede trabajar por ti usando su propio ordenador, gestionando tareas complejas de principio a fin.

Pídele a ChatGPT que gestione solicitudes como por ejemplo «consulta mi calendario y prepárame un resumen para las próximas reuniones con clientes según las últimas noticias», «planifica un desayuno de estilo japonés para cuatro personas y compra los ingredientes necesarios» o «analiza a tres competidores y crea una presentación». Navegará por páginas web de forma inteligente, filtrará resultados, te pedirá iniciar sesión de forma segura si es necesario, ejecutará código, realizará análisis y generará entregables pulidos y editables, como presentaciones y hojas de cálculo, que resuman las conclusiones. 

Esta nueva capacidad se basa en un sistema autónomo integrado y coherente. Aúna tres de los puntos fuertes de las versiones anteriores: la habilidad de Operator para interactuar con páginas web, la capacidad de investigación en profundidad para resumir información y la inteligencia y la naturalidad de expresión de ChatGPT.

ChatGPT lleva a cabo estas tareas empleando su propio ordenador virtual, cambiando rápidamente entre las capacidades de razonamiento y las de ejecución, lo que le permite gestionar flujos de trabajo complejos de principio a fin, siguiendo tus indicaciones.

Lo más importante: siempre tienes el control. ChatGPT solicita permiso antes de realizar acciones importantes, y puedes interrumpir, tomar el control del navegador o detener tareas en cualquier punto.

A partir de hoy, los usuarios de Pro, Plus y Team pueden activar las nuevas capacidades del agente de ChatGPT directamente desde el menú de herramientas del editor, seleccionando el «modo agente» en cualquier momento de la conversación. 

Si bien el agente ChatGPT ya es capaz de asumir tareas complejas eficazmente, el lanzamiento de hoy marca el inicio de lo que está por venir. Iremos añadiendo mejoras significativas de manera progresiva, para que sea cada vez más potente y útil para más personas.

Una evolución natural de Operator y la investigación profunda.

Hasta ahora, Operator y la investigación en profundidad aportaban capacidades distintas: Operator podía desplazarse, hacer clic y escribir en la web, mientras que la investigación en profundidad destacaba en el análisis y la síntesis de información. Pero funcionaban mejor en situaciones distintas: Operator no podía profundizar en el análisis ni redactar informes detallados, y la investigación en profundidad no podía interactuar con sitios web para afinar resultados o acceder a contenido que requería autenticación de usuario. De hecho, observamos que muchas de las consultas que los usuarios intentaban con Operator encajaban mejor con la investigación en profundidad, así que hemos combinado lo mejor de ambas.

Al integrar estas capacidades complementarias en ChatGPT e incorporar nuevas herramientas, hemos desbloqueado funciones completamente nuevas dentro de un único modelo. Ahora puede interactuar activamente con sitios web; haciendo clic, aplicando filtros y obteniendo resultados más precisos y eficaces. También puedes pasar de forma natural de una simple conversación a solicitar acciones directamente dentro del mismo chat. 

Ver video aquí

Un agente que trabaja por ti, contigo 

Hemos equipado al agente de ChatGPT con una extensa colección de herramientas: un navegador visual que interactúa con la web mediante una interfaz gráfica de usuario, un navegador basado en texto para consultas web sencillas basadas en razonamiento, un terminal y acceso directo a API.El agente también puede utilizar los conectores de ChatGPT⁠(se abre en una ventana nueva), que permiten conectar aplicaciones como Gmail o GitHub, para encontrar información relevante según tus indicaciones e integrarla en sus respuestas. También puedes tomar el control del navegador e iniciar sesión en cualquier página web, con lo que podrá profundizar y ampliar tanto en la investigación como en la ejecución de tareas. Dotar a ChatGPT de estas diferentes vías para acceder e interactuar con información web le permite elegir la ruta óptima para ejecutar tareas con la mayor eficiencia posible. Puede, por ejemplo, acceder a tu calendario mediante una API, procesar eficientemente grandes cantidades de texto con el navegador basado en texto y, al mismo tiempo, interactuar de forma visual con páginas diseñadas para personas. 

Todo esto lo hace utilizando su propio ordenador virtual, que conserva el contexto necesario para cada tarea, incluso cuando se usan varias herramientas. El modelo puede, por ejemplo, abrir una página con el navegador de texto o el visual, descargar un archivo de la web, manipularlo ejecutando un comando en el terminal y ver el resultado de nuevo en el navegador visual. El modelo adapta su forma de actuar para llevar a cabo las tareas con rapidez, precisión y eficiencia.

El agente de ChatGPT está diseñado para flujos de trabajo colaborativos e iterativos: mucho más interactivos y flexibles que los de modelos anteriores. Mientras ChatGPT trabaja, puedes interrumpir en cualquier momento para aclarar instrucciones, redirigir la tarea o cambiarla por completo. Retomará la tarea donde la dejó, ahora con la nueva información, pero sin perder el progreso anterior. Del mismo modo, el propio ChatGPT puede solicitar activamente más detalles cuando es necesario, para asegurarse de que la tarea siga alineada con tus objetivos. Si una tarea lleva más tiempo del previsto o se queda atascada, puedes pausarla, pedir un resumen del progreso o detenerla por completo y recibir resultados parciales. Si tienes la aplicación de ChatGPT en el móvil, recibirás una notificación cuando termine la tarea.

Ampliando la utilidad en el mundo real 

Estas capacidades unificadas convierten al agente de ChatGPT en una herramienta mucho más útil tanto en contextos cotidianos como profesionales. En el trabajo puedes automatizar tareas repetitivas como convertir capturas de pantalla o paneles de control en presentaciones con elementos vectoriales editables, reorganizar reuniones, planificar eventos fuera de la oficina o actualizar hojas de cálculo con nuevos datos financieros manteniendo el formato original. En tu vida personal puedes usarlo para planificar y reservar viajes fácilmente, organizar cenas completas o encontrar especialistas y programar citas. 

Las capacidades avanzadas del modelo se reflejan en el rendimiento de referencia (SOTA) en evaluaciones que miden la navegación web y la ejecución de tareas en entornos reales. 

Continúa en: https://openai.com/es-ES/index/introducing-chatgpt-agent/

Deja una respuesta