La inteligencia artificial está dando un paso más en la generación de contenido de audio y está alterando drásticamente su desarrollo. Proveedores establecidos, como Google, Meta y Microsoft, así como empresas emergentes, como Revoicer y WellSaid, están aprovechando la IA generativa y entregando contenido más flexible, capaz y realista. Estas soluciones ayudan a las empresas, creadores de contenido, podcasters y emprendedores a crear contenido de audio para una gama cada vez mayor de aplicaciones. Los avances vienen con algunas advertencias, como la necesidad de habilidades especializadas, preocupaciones por la privacidad de los datos y altos costos, pero el mercado está preparado para crecer significativamente en los próximos años.

Hoy en día, el contenido es el rey y el contenido de audio se ha convertido en una herramienta popular que las empresas utilizan para conectarse con clientes, socios y proveedores. Tradicionalmente, crear este tipo de material era un proceso costoso, que requería mucho tiempo y mucha mano de obra.
Las soluciones de IA generativa de próxima generación simplifican la recopilación, generación y distribución de datos de audio. En consecuencia, tienen un futuro brillante: el mercado global de generadores de voz de IA alcanzó los 3.600 millones de dólares en 2023 y se espera que aumente a 10.600 millones de dólares en 2032, lo que refleja una tasa de crecimiento anual compuesta (CAGR) de alrededor del 20 por ciento, según Zion Market Research.
La firma de investigación Market.us ha publicado cifras un poco más bajas, pero el pronóstico general de la industria es básicamente el mismo: ¡será sólido!
Los expertos coinciden en que el mercado de generadores de voz de IA está experimentando un rápido crecimiento, impulsado por innovaciones tecnológicas, particularmente en aprendizaje profundo y procesamiento del lenguaje natural, que han mejorado significativamente la calidad y precisión de la generación de voz de IA, dice en su último informe.
Es probable que estas innovaciones amplíen los casos de uso potenciales y aumenten la demanda en sectores como el entretenimiento, la atención médica y la educación, afirma Market.us.
Y “las oportunidades para futuros avances y aplicaciones son enormes, lo que garantiza una perspectiva positiva del mercado”, concluyen los analistas de Market.us en el informe. En particular, “la integración de generadores de voz de IA con realidad aumentada, realidad virtual e Internet de las cosas abre nuevas vías de crecimiento”.
Sin embargo, en la actualidad, cada vez hay más aplicaciones que aprovechan esta tecnología. A continuación se ofrecen algunos ejemplos.
- Texto a voz. Los sistemas avanzados de conversión de texto a voz utilizan inteligencia artificial para convertir texto escrito en audio hablado. Las herramientas son cada vez más sofisticadas y pueden generar voces que suenan naturales con una entonación similar a la humana. Cada vez más, pueden evocar diferentes emociones. Estas aplicaciones se encuentran en centros de contacto, sitios web y una cantidad cada vez mayor de dispositivos inteligentes, como los teléfonos inteligentes.
- Automatización de locuciones. Muchas organizaciones han recurrido a estudios profesionales para producir contenido de audio de alta calidad. Los nuevos sistemas automatizan una parte mayor del proceso. Las empresas utilizan el contenido verbal en anuncios, tutoriales y materiales de ventas, y la IA se está volviendo lo suficientemente potente como para generar podcasts sintéticos completos.
- Síntesis de voz. A medida que las organizaciones crean grandes modelos de datos, las empresas utilizan la síntesis de voz para dar voz a los asistentes virtuales, producir contenido de marketing e imitar palabras y diversos dialectos en todo el mundo.
- Edición y mejora de audio. La automatización es una de las principales atracciones de las nuevas herramientas. Las soluciones de IA automatizan la mezcla de sonido al realizar tareas como reducir automáticamente el ruido de fondo e incluso crear bandas sonoras dinámicas y adaptables.
Las herramientas de creación de contenido de audio con tecnología de inteligencia artificial generativa tienen el potencial de mejorar el rendimiento de muchas maneras, entre ellas:
- Calidad de audio mejorada. Los modelos de IA analizan las grabaciones de audio y eliminan los ruidos y los espacios no deseados, lo que da como resultado un contenido de audio con mejor sonido.
- Ahorro de tiempo. La IA genera contenido de audio rápidamente, significativamente más rápido que los procesos manuales. “Los generadores de voz de IA permiten la creación rápida de contenido de audio, lo que puede ser particularmente beneficioso para proyectos o campañas urgentes”, afirma Jack Stratford, un agente de atención al cliente de Revoicer. Otro beneficio es que las herramientas permiten a las organizaciones crear volúmenes de contenido mucho mayores de los que podían en el pasado.
- Reducción de gastos. La tecnología es tan popular porque las máquinas cuestan menos que los humanos. La automatización de la creación de contenido de audio reduce los costos laborales y agiliza la producción. Los nuevos productos reducen la necesidad de actores de voz humanos, ingenieros de sonido y tiempo de estudio. En consecuencia, cambian drásticamente las métricas de costos de audio, abriendo el mercado a organizaciones más pequeñas. Las empresas eliminan la necesidad de estudios de audio costosos o de llevar equipos de audio de un lugar a otro. Un efecto dominó es que aumenta la cantidad de creadores potenciales porque la infraestructura para producir contenido de audio de calidad se vuelve más accesible y económica.
- Mayor coherencia. Los seres humanos cometemos errores. La IA elimina las emociones, la fatiga o los cambios de humor relacionados con los humanos del proceso de producción. En consecuencia, estas soluciones producen audio con una calidad, un tono y un estilo uniformes, lo que ayuda a mejorar la percepción de la marca.
- La productividad aumenta. Los creadores de contenido tienen más tiempo para centrarse en desarrollar contenido de calidad y menos tiempo para ajustar el equipo de producción de audio.
- Contenido más personalizado. Las capacidades de automatización facilitan a las organizaciones la tarea de adaptar el contenido a las preferencias individuales. Pueden ajustar el volumen a diferentes grupos demográficos, bajando el volumen para los oyentes más jóvenes y subiéndolo para los mayores. También pueden cambiar las inflexiones para llegar a personas que hablan con dialectos o acentos distintos en diferentes partes del mundo. El contenido también se puede personalizar con jerga, coloquialismos y otros términos específicos de la industria.
- Accesibilidad más amplia a los contenidos. Muchas personas tienen discapacidades que les dificultan trabajar con distintos tipos de medios. Estos productos convierten el material escrito en voz, haciéndolo accesible a personas con discapacidad visual y con problemas de lectura. Un caso de uso interesante se centra en personas con esclerosis lateral amiotrófica, más conocida como enfermedad de Lou Gehrig. “Las empresas entrenan modelos de IA con la voz de una persona cuando se dan cuenta de que tienen ELA”, explicó Brian Cook, director ejecutivo de WellSaid. “Cuando pierden la capacidad de hablar, el sistema suena como si estuvieran hablando”.
- Salida multilingüe. El mundo es cada vez más pequeño, por lo que las empresas quieren crear contenido que pueda distribuirse en más lugares. Estas soluciones les permiten traducir información de un idioma a otro de forma rápida y sencilla.
La amplitud de las herramientas de IA se expande
Si bien es cierto que se trata de un mercado con tanto potencial, todavía se encuentra en las primeras etapas de desarrollo. No obstante, varias empresas (tanto startups como estándares del sector) han estado ampliando los límites de lo posible. Entre las más activas se encuentran IBM, Google, Amazon Web Services, Microsoft, Baidu, Samsung, Synthesio, Speechify, Speechelo, Wondercraft AI, ElevenLabs, OpenAI, Cerence WellSaid Labs, CereProc (recientemente adquirida por Capacity), Listnr AI y Respeecher.
Google, por ejemplo, ha sido pionero en los avances en la síntesis de voz impulsada por IA, en particular a través de Google Cloud Text-to-Speech y Google Assistant. Las recientes actualizaciones de su API Google Cloud Text-to-Speech permiten a los desarrolladores crear voces más realistas y expresivas para sus aplicaciones. La API ahora ofrece más de 220 voces en más de 40 idiomas. Su tecnología de aprendizaje profundo potencia una variedad de dispositivos y aplicaciones, expandiendo aún más la tecnología de voz de IA tanto en los sectores de consumo como en los empresariales. Y su producto AudioPaLM combina modelos de generación de audio con modelos de lenguaje para ayudar con el reconocimiento de voz y la traducción de voz a voz. Esta herramienta se puede ajustar para consumir y producir audio tokenizado según sea necesario y traducir el contenido a diferentes idiomas.
Amazon sigue dominando la industria de los altavoces inteligentes con Alexa y su servicio AWS Polly, que ayuda a las empresas a integrar funciones de voz en sus aplicaciones y dispositivos. Sus avances más recientes han incorporado a Alexa capacidades de conversación más sofisticadas basadas en IA, lo que permite a los usuarios generar respuestas más dinámicas y adaptadas al contexto.
Microsoft, a través de su plataforma Azure AI Speech, también ha logrado avances significativos en IA, ofreciendo soluciones de voz a texto y texto a voz de alta calidad para una variedad de industrias, incluidas la atención médica, el comercio minorista y el servicio al cliente.
IBM se centra en integrar la tecnología de voz de IA en soluciones empresariales a través de IBM Watson Text-to-Speech, que permite a las empresas crear aplicaciones de voz personalizadas y escalables.
Y aunque no se la considera necesariamente una potencia en tecnología de voz, Meta Platforms, la empresa matriz de Facebook, Instagram, WhatsApp y otras redes sociales y aplicaciones de comunicación, también ha estado activa en el desarrollo de inteligencia artificial de voz. Su modelo de inteligencia artificial generativa Voicebox se especializa en crear audio a partir de clips existentes. El software también incluye funciones de edición, muestreo y estilización de audio y realiza tareas como eliminar ruidos de fondo, lo que mejora la calidad del audio.
Una segunda solución de Meta, Audiobox, genera efectos de sonido de audio mediante entrada de voz e indicaciones de texto en lenguaje natural. Las personas siguen indicaciones en lenguaje natural para describir un sonido o tipo de audio que desean generar.
Otras empresas menos conocidas que han causado sensación en el campo de la inteligencia artificial por voz son Make-An-Audio, desarrollada por la empresa matriz de TikTok, ByteDance, que puede generar fragmentos de audio personalizados a partir de entradas de lenguaje natural y audio existente; Murf.ai, que proporciona herramientas de conversión de texto a audio para fines corporativos y de entretenimiento, como anuncios, lecciones educativas y presentaciones; WellSaid Labs, que ofrece una plataforma de estudio que permite a los usuarios crear y seleccionar voces personalizadas para casos de uso específicos; ElevenLabs, cuya solución se utiliza para dar voz a audiolibros y artículos de noticias, animar personajes de videojuegos, preproducir películas, localizar medios en el entretenimiento, crear contenido de audio dinámico para redes sociales y publicidad, y capacitar a profesionales médicos en hasta 32 idiomas; y Revoicer, que se centra en las voces en off generadas por IA y que ya ha creado aproximadamente 100.000 voces en off y 1 millón de minutos de audio.
Surgen una serie de desafíos
Si bien el interés por estos productos está creciendo, las corporaciones deben superar varios obstáculos importantes para implementarlos, entre ellos, los siguientes:
- Dependencia de los datos. Entrenar modelos de generación de audio de IA es una tarea laboriosa. Se necesitan volúmenes masivos de audio para asegurarse de que el modelo comprenda y se adapte a los numerosos matices que se encuentran en el habla humana.
- Importantes inversiones en infraestructura. “Entrenar estos modelos puede ser bastante complejo y consumir muchos recursos”, afirma Stratford de Revoicer. “Requiere hardware y software especializados, y puede llevar mucho tiempo y esfuerzo lograr que los modelos funcionen bien”.
- Los casos de uso también afectan la cantidad de potencia de procesamiento necesaria para ofrecer resultados de calidad. “Los proveedores se enfrentan a un equilibrio constante entre velocidad y calidad”, explica Cook de WellSaid. “La alta calidad requiere una gran cantidad de potencia de procesamiento y computación. Ofrecer una respuesta de alta calidad en un centro de llamadas con respuesta de voz interactiva (IVR) rápida se convierte en un desafío”.
- Limitaciones técnicas. Estas interacciones se dan entre una máquina y una persona. En consecuencia, los proveedores deben lidiar con los problemas que surgen cuando las personas hacen una pausa para ordenar sus pensamientos o los sistemas experimentan latencia mientras se envían consultas a la nube para su procesamiento, según Miller.
- Bueno, pero no perfecto. Recopilar suficientes datos de alta calidad para construir modelos representa una inversión significativa. Luego, las corporaciones deben podar constantemente el modelo para mejorar su precisión. Si los datos están sesgados, desactualizados o son insuficientes, los resultados se vuelven defectuosos. La realidad es que los sistemas nunca alcanzan una precisión del 100 por ciento. Entonces, ¿qué es lo suficientemente bueno? ¿Ochenta y cinco por ciento? ¿Noventa por ciento? ¿Noventa y cinco por ciento? Justificar las inversiones sustanciales necesarias para aumentar las cifras de precisión es una cuestión con la que la gerencia lidia constantemente.
- Falta de emoción. Tradicionalmente, las soluciones solían sonar como máquinas, extrañas y artificiales, lo que las hacía menos atractivas. Se han producido mejoras, pero los sistemas pueden tener dificultades para comprender y responder a entonaciones complejas, como el humor y la ira.
- Consideraciones éticas. La tecnología de generación de IA se encuentra en medio de debates éticos. Surgen preguntas sobre el proceso de recopilación y generación de modelos de datos. Además, la capacidad de estos sistemas para imitar voces individuales sin el consentimiento de una persona genera preguntas sobre su uso adecuado.
- El enigma de la recopilación de datos . Los modelos de datos suelen depender de interacciones individuales, un proceso que plantea interrogantes sobre la propiedad de los datos. Los desafíos comienzan con el consentimiento. Los usuarios no siempre son plenamente conscientes de cómo se almacenan y utilizan sus interacciones, tanto verbales como textuales. Los proveedores suelen describir sus intenciones en documentos legales complejos que las personas firman cuando acceden al sistema. La redacción puede ser difícil de descifrar y las implicaciones poco claras. Los gobiernos, como en la Unión Europea, han estado elaborando leyes diseñadas para agregar más transparencia al proceso. Además, los proveedores están presentando nuevos modelos de uso. En algunos casos, comparten los ingresos con los participantes cuyas aportaciones construyen sus modelos de datos.
- Monitoreo no intencional. Los dispositivos que utilizan inteligencia artificial por voz suelen escuchar palabras clave para activarse y brindarles a los clientes la información que necesitan. A veces, los clientes no saben que el sistema está encendido y que se están recopilando datos, aunque no hayan autorizado explícitamente dicho proceso.
- Sesgo inherente. En última instancia, los seres humanos escriben el código que utilizan los modelos de datos y las soluciones de generación de contenido de IA. Cada individuo es un producto de su entorno y tiene nociones preconcebidas sobre el mundo, que pueden reflejarse en las soluciones que crea. La industria ha estado tratando de identificar y eliminar el sesgo, pero, una vez más, las bases de estos sistemas están construidas por seres humanos que son imperfectos.
- Violación de derechos de autor. En muchos casos, las personas introducen información que no les pertenece legalmente en los modelos de datos, lo que puede dar lugar a un posible abuso o uso indebido de esos datos. Como resultado, surgen cuestiones de propiedad y derechos de autor. Este ámbito siempre ha evolucionado rápidamente y ha sido difícil de abordar.
- Uso indebido de la clonación de voz. La tecnología de clonación de voz se ha vuelto bastante sofisticada y permite a los creadores de contenido imitar voces individuales y luego usar la conversión de texto a voz para generar contenido de audio virtual. Los usos potenciales incluyen fraude, difusión de información errónea y manipulación del mercado.
- Falta de confianza. La capacidad de crear deepfakes de audio realistas puede generar un escepticismo general sobre la autenticidad del contenido de audio, lo que dificulta que las personas confíen en lo que escuchan. Las empresas que implementen la tecnología podrían descubrir que los clientes rechazan las nuevas soluciones en lugar de aceptarlas.
Cómo elegir el caso de uso adecuado
Dada la gran cantidad de capacidades y cuestiones de implementación abiertas, las empresas tienen dificultades para determinar dónde implementar la generación de contenido con inteligencia artificial. Estos productos parecen ser los más adecuados para tareas rutinarias, de gran volumen o que requieren mucha personalización, como los asistentes de voz y los servicios de transcripción. Es posible que las herramientas actuales no se adapten bien a aplicaciones que requieran mucha emoción o que imiten una entrega de audio compleja.
A pesar de las limitaciones, la adopción ha avanzado a un ritmo rápido. La mayoría de las empresas, el 74 por ciento, ahora utilizan IA para generar contenido, según eMarketer. Se espera que esa cifra aumente: “El uso de IA para generar contenido es inevitable”, concluye Miller de Opus Research.
Paul Korzeniowski es un escritor independiente especializado en cuestiones tecnológicas. Ha estado cubriendo cuestiones de tecnología de voz durante más de dos décadas, reside en Sudbury, Massachusetts, y se puede contactar con él en paulkorzen@aol.com o en Twitter @PaulKorzeniowski.
5 empresas que importan
- ElevenLabs es una startup que se especializa en desarrollar software de síntesis de voz con sonido natural y potenciado por inteligencia artificial mediante aprendizaje profundo.
- Meta Platforms. Empresa matriz de Facebook, Instagram, Threads y WhatsApp y desarrolladora de varios modelos de inteligencia artificial generativa.
- OpenAI. La organización de investigación en IA a la que se le atribuye en gran medida el mérito de haber creado el sector de la IA generativa con el lanzamiento de ChatGPT.
- Speechify. Creadores de una herramienta generadora de voz en off con texto a voz impulsada por IA.
- Wondercraft AI. Creadores de software gratuito de edición de audio con inteligencia artificial para podcasts, anuncios, audiolibros, narraciones y más.