Durante todo el año, las empresas de inteligencia artificial han estado diciendo que los agentes son el próximo gran paso. Los chatbots son geniales, pero lo que realmente queremos es un asistente completo que se encargue de los negocios. Los agentes, dicen, podrían manejar tareas que van desde la entrada de datos hasta la planificación de viajes en un instante.
por Kylie Robison

Recientemente, Anthropic se adelantó a sus competidores cuando anunció que Claude ahora puede ver la pantalla de un usuario y controlar su computadora con un mouse y un teclado. Con esta nueva funcionalidad, Claude puede idear acciones de varios pasos para completar solicitudes.

En un ejemplo, la IA planifica un viaje para ver el amanecer sobre el puente Golden Gate. Abre un navegador web, examina los resultados web y elige un lugar privilegiado para ver el amanecer. Luego, busca la hora a la que sale el sol y obtiene indicaciones en Google Maps. Por último, crea una invitación de calendario, completa con notas sobre cuándo salir para llegar a tiempo. Claude hace todo esto tomando capturas de pantalla de la pantalla de un usuario después de cada paso, planificando lo que debe hacer a continuación y usando la computadora para que suceda: enjuagar y repetir.
“Creo que vamos a entrar en una nueva era en la que un modelo puede usar todas las herramientas que utiliza una persona para realizar tareas”, dijo a Wired Jared Kaplan, director científico de Anthropic y profesor asociado de la Universidad Johns Hopkins .
Los agentes básicos han estado en circulación desde poco después de que OpenAI lanzara ChatGPT. Pero Anthropic es la primera gran empresa de inteligencia artificial que agrega este tipo particular de IA agentica a su modelo base. Sin embargo, las nuevas capacidades aún no están ampliamente disponibles y Anthropic se encargó de señalar que la funcionalidad es imperfecta y se encuentra en una etapa temprana de desarrollo. La lanzaron a través de la API de Claude para que las empresas y los desarrolladores puedan probarla y brindar comentarios.
Los competidores de Anthropic no tardarán en ponerse al día. Según se informa, Google está desarrollando un agente de control de navegadores llamado Jarvis y podría ofrecer una vista previa del mismo en diciembre. Y OpenAI lleva casi un año trabajando en su propio agente de control de ordenadores .
Si bien estos agentes pueden convertirse en un componente crucial de los sistemas operativos (quizás reemplazando a las aplicaciones o cambiando la forma en que las usamos), las empresas apuntan a las empresas primero para cosas como la entrada de datos o el llenado de formularios. “¿Qué harías si te deshicieras de un montón de horas de copiar y pegar o lo que sea que termines haciendo?”, le dijo a Wired Mike Krieger, director de productos de OpenAI . “Iría a tocar más la guitarra”.
Sin embargo, los agentes aún no han alcanzado su máximo potencial. Claude supera a la competencia según el índice de referencia OSWorld, una medida de las habilidades informáticas de un modelo de IA. Pero sus puntuaciones son bajas en comparación con las capacidades humanas. La IA completa tareas el 14,9 por ciento de las veces, frente al 75 por ciento de la persona media. (Otras peculiaridades, según Anthropic, incluyen que Claude pierda el interés y se pierda en los laberintos de Internet.
Los agentes que graban capturas de pantalla también pueden ser difíciles de vender a empresas e individuos a menos que Anthropic demuestre que son muy seguros. Microsoft recibió muchas críticas por una función de captura de pantalla en sus PC Copilot+ a principios de este año, y los críticos señalaron problemas de seguridad y privacidad. Además, permitir que los agentes se descontrolen en tareas más complicadas aumenta los riesgos existentes. Las alucinaciones siguen siendo comunes en estos modelos, por lo que permitir que un control de un dispositivo realice una serie de acciones automáticas sin supervisión humana significa que podría causar daños antes de que alguien se dé cuenta y pueda controlarlo.
Aunque los agentes pueden ser el plato fuerte del año que viene, las empresas siguen buscando sacar provecho de los productos de IA existentes. OpenAI lanzó recientemente su primer producto de búsqueda para competir con Google y Perplexity y un nuevo producto para codificación . Google, por su parte, tiene un éxito entre manos con NotebookLM y dice que el 25 por ciento de su nuevo código ahora es generado por IA . Además, los ingresos de la nube en Amazon, Microsoft y Google están creciendo gracias a la adopción de la IA .
Una forma de darle sentido a todo esto es que los desarrolladores siguen jugando con la IA generativa y encontrando nuevas formas de moldear, empaquetar y mejorar los modelos existentes para diferentes propósitos. Mientras tanto, entre bastidores, la próxima generación de modelos está en desarrollo. Un artículo en The Verge afirmó que OpenAI está entrenando actualmente un sucesor de GPT-4 , supuestamente con el nombre en código Orion, y podría lanzarlo tan pronto como en diciembre. OpenAI cuestionó el informe , pero hay pocas razones para creer que no está yendo a toda máquina para terminar su próximo gran algoritmo, y que Meta y Google no están en la misma página.
Si la próxima generación de modelos de IA aún más grandes demuestra ser otro salto en capacidad, lo cual no está garantizado, podrían funcionar como una actualización de software para aplicaciones existentes (codificación, investigación, síntesis de información, agentes y chatbots), al tiempo que permiten el descubrimiento de más aplicaciones nuevas. A medida que los inversores y las empresas siguen canalizando fondos al sector , la presión aumenta para generar más momentos ChatGPT y, más allá de eso, golpes masivos para pagar todas las deudas.
Fuente: https://singularityhub.com/
Fuente: https://www.theverge.com/2024/10/10/24266333/ai-agents-assistants-openai-google-deepmind-bots