En un mercado saturado de inteligencia artificial de voz, OpenAI apuesta por el seguimiento de instrucciones y el habla expresiva para lograr la adopción empresarial

Imagen: VentureBeat, generado con MidJourney

OpenAI se suma a un mercado de voz de IA cada vez más competitivo para empresas con su nuevo modelo, gpt-realtime , que sigue instrucciones complejas y con voces “que suenan más naturales y expresivas”.

por Emilia David

Contenido

Modelos de voz a voz
Mejor seguimiento de instrucciones
Actualizaciones de API en tiempo real

A medida que la IA de voz continúa creciendo y los clientes encuentran casos de uso como llamadas de atención al cliente o traducción en tiempo real, el mercado de voces de IA con un sonido realista que también ofrezca seguridad de nivel empresarial está en auge. OpenAI afirma que su nuevo modelo proporciona una voz más similar a la humana, pero aún necesita competir con empresas como ElevenLabs.

El modelo estará disponible en la API en tiempo real , que la compañía también puso a disposición del público. Además del modelo gpt-realtime, OpenAI también lanzó nuevas voces en la API, llamadas Cedar y Marin, y actualizó sus demás voces para que sean compatibles con el modelo más reciente.

OpenAI dijo en una transmisión en vivo que trabajó con sus clientes que están desarrollando aplicaciones de voz para entrenar gpt-realtime y “alineó cuidadosamente el modelo con las evaluaciones que se basan en escenarios del mundo real, como atención al cliente y tutoría académica”.

La compañía promocionó la capacidad del modelo para crear voces emotivas y de sonido natural que también se alinean con la forma en que los desarrolladores construyen con la tecnología.

Modelos de voz a voz

El modelo opera dentro de un marco de voz a voz, lo que le permite comprender indicaciones habladas y responder vocalmente. Los modelos de voz a voz son ideales para respuestas en tiempo real, donde una persona, generalmente un cliente, interactúa con una aplicación.

Por ejemplo, un cliente quiere devolver un producto y llama a una plataforma de atención al cliente. Podría hablar con un asistente de voz con IA que responde a sus preguntas y solicitudes como si hablara con una persona.

En una transmisión en vivo, T-Mobile, cliente de OpenAI , presentó un agente con inteligencia artificial que ayuda a encontrar nuevos teléfonos. Otro cliente, la plataforma de búsqueda de bienes raíces Zillow , presentó a un agente que ayuda a encontrar el lugar perfecto en un vecindario.

OpenAI afirmó que gpt-realtime es su modelo de voz más avanzado y listo para producción. Al igual que sus otros modelos de voz, puede cambiar de idioma a mitad de frase. Sin embargo, los investigadores de OpenAI observaron que gpt-realtime puede seguir instrucciones más complejas como “hablar con énfasis con acento francés”.

Pero gpt-realtime se enfrenta a la competencia de otros modelos que muchas marcas ya utilizan. ElevenLabs lanzó Conversation AI 2.0 en mayo . Soundhound se asocia con franquicias de comida rápida para ofrecer un autoservicio con voz de IA. La startup de IA Hume , con gran presencia en el sector, ha lanzado su modelo EVI 3 , que permite a los usuarios generar versiones de IA de su propia voz.

A medida que las empresas descubren diversos casos de uso para la IA de voz, incluso los proveedores de modelos más generales que ofrecen LLM multimodales están demostrando su valía. Mistral lanzó su nuevo modelo Voxtral , afirmando que funcionaría bien con la traducción en tiempo real. Google está mejorando sus capacidades de audio y ganando popularidad con una función de audio en NotebookLM que convierte las notas de investigación en un podcast.

Mejor seguimiento de instrucciones

OpenAI dijo que gpt-realtime es más inteligente y entiende mejor el audio nativo, incluida la capacidad de captar señales no verbales como risas o suspiros.

La evaluación comparativa realizada con Big Bench Audio mostró que el modelo obtuvo una precisión del 82,8 %, en comparación con el modelo anterior, que obtuvo un 65,6 %. OpenAI no proporcionó cifras de las pruebas de gpt-realtime con los modelos de la competencia.

OpenAI se centró en mejorar la capacidad de seguimiento de instrucciones del modelo, garantizando así su cumplimiento con mayor eficacia. El nuevo modelo obtuvo una puntuación del 30,5 % en la prueba de audio MultiChallenge. Los ingenieros también optimizaron las llamadas a funciones para que gpt-realtime pueda acceder a las herramientas correctas.

Actualizaciones de API en tiempo real

Para respaldar el nuevo modelo y mejorar la forma en que las empresas integran las capacidades de IA en tiempo real en sus aplicaciones, OpenAI ha agregado varias características nuevas a la API en tiempo real.

Ahora es compatible con MCP y reconoce imágenes, lo que le permite informar a los usuarios sobre lo que ve en tiempo real. Esta es una característica que Google destacó especialmente durante la presentación del Proyecto Astra el año pasado .

La API en tiempo real también admite el Protocolo de Inicio de Sesión (SIP). El SIP conecta las aplicaciones a teléfonos como redes telefónicas públicas o teléfonos fijos, lo que amplía las posibilidades de uso en centros de contacto. Los usuarios también pueden guardar y reutilizar avisos en la API.

Hasta el momento, la gente está impresionada con el modelo, aunque todavía son pruebas iniciales de un modelo que fue lanzado recientemente.

OpenAI livestream "Introducing gpt-realtime in the API"

"Join Brad Lightcap, Peter Bakkum, Beichen Li, Liyu Chen, Julianne Roberson, and Srini Gopalan as they introduce and demo our most advanced speech-to-speech model and new API features like MCP, SIP, image input, and more." pic.twitter.com/9kZzSMwt49
— Tibor Blaho (@btibor91) August 28, 2025

Testing out gpt-realtime

Initial review:
– Noticable audio improvement
– It's a stickler for the instructions (very good)
– Feels fast pic.twitter.com/LtyCs0QLXV
— Jake Colling (@JacobColling) August 28, 2025

OpenAI, I'm your fan, but I gotta admit the livestreams are out of hand

Not every feature needs a livestream, making them so often makes them feel less special, and more boring

Please go back to blog posts for small things, and make bigger and better livestreams like you used…
— Angel Bogado 🌻 (@Angaisb_) August 28, 2025

Pros & Cons from @OpenAI real-time update from someone building in AI audio:

Pro: Better function calling, more emotion, 20% cheaper, better control, image is cool but won't use

Con: no custom voices (creative experience MUST HAVE), still *expensive* vs TTS-LLM-STT pipelines
— Gavin Purcell (@gavinpurcell) August 28, 2025

OpenAI redujo los precios de gpt-realtime en un 20% a $32 por millón de tokens de entrada de audio y $64 por tokens de salida de audio.

Fuente: https://venturebeat.com/ai/in-crowded-voice-ai-market-openai-bets-on-instruction-following-and-expressive-speech-to-win-enterprise-adoption

Modelos de voz a voz

Mejor seguimiento de instrucciones

Actualizaciones de API en tiempo real

Related Articles

¿Ven las máquinas mejor que nosotros si una imagen es falsa?

¿La IA está mejorando nuestra forma de pensar o la reemplaza?

Cuando la IA hace ciencia, ¿quién formula las grandes preguntas?

Medición del uso en la era de la IA

¿Y si Tinder mostrara tu coeficiente intelectual?

La paradoja del piloto de IA: ¿Por qué crece exponencialmente la complejidad de la IA empresarial?

Deja una respuesta Cancelar la respuesta

Política de Cookies