Una nueva ola de nuevas empresas está utilizando el aprendizaje profundo para crear actores de voz sintéticos para asistentes digitales, personajes de videojuegos y videos corporativos.
por Karen Hao
La publicación del blog de la compañía gotea con el entusiasmo de un infomercial estadounidense de los noventa. WellSaid Labs describe lo que los clientes pueden esperar de sus “ocho nuevos actores de voz digitales”. Tobin es “enérgico y perspicaz”. Paige es “serena y expresiva”. Ava es “refinada, segura de sí misma y profesional”.
Cada uno se basa en un actor de voz real, cuya imagen (con consentimiento) se ha conservado mediante IA. Las empresas ahora pueden autorizar estas voces para decir lo que necesiten. Simplemente alimentan un poco de texto en el motor de voz, y luego grabarán un clip de audio nítido de una interpretación que suena natural.
WellSaid Labs , una startup con sede en Seattle que surgió de la investigación sin fines de lucro Allen Institute of Artificial Intelligence, es la última firma que ofrece voces de inteligencia artificial a sus clientes. Por ahora, se especializa en voces para videos corporativos de e-learning. Otras startups hacen voces para asistentes digitales , operadores de centros de llamadas e incluso personajes de videojuegos.
No hace mucho tiempo, esas voces deepfake tenían una pésima reputación por su uso en llamadas fraudulentas y engaños en Internet . Pero la mejora de su calidad ha despertado el interés de un número creciente de empresas. Los avances recientes en el aprendizaje profundo han hecho posible replicar muchas de las sutilezas del habla humana. Estas voces se detienen y respiran en todos los lugares correctos. Pueden cambiar su estilo o emoción. Puede detectar el truco si hablan durante demasiado tiempo, pero en clips de audio cortos, algunos se han vuelto indistinguibles de los humanos.
Las voces de IA también son baratas, escalables y fáciles de trabajar. A diferencia de una grabación de un actor de voz humano, las voces sintéticas también pueden actualizar su guión en tiempo real, abriendo nuevas oportunidades para personalizar la publicidad.
Pero el surgimiento de voces falsas hiperrealistas no está libre de consecuencias. Los actores de la voz humana, en particular, se han preguntado qué significa esto para sus medios de vida.
Cómo fingir una voz
Las voces sintéticas han existido por un tiempo. Pero los viejos, incluidas las voces de Siri y Alexa originales , simplemente unieron palabras y sonidos para lograr un efecto robótico torpe. Conseguir que suenen más naturales fue una laboriosa tarea manual.
El aprendizaje profundo cambió eso. Los desarrolladores de voz ya no necesitaban dictar el ritmo, la pronunciación o la entonación exactos del discurso generado. En cambio, podrían introducir unas pocas horas de audio en un algoritmo y hacer que el algoritmo aprenda esos patrones por sí solo.
“Si soy Pizza Hut, ciertamente no puedo sonar como Domino’s, y ciertamente no puedo sonar como Papa John’s”.
Rupal Patel, fundador y CEO de VocaliD
A lo largo de los años, los investigadores han utilizado esta idea básica para construir motores de voz que son cada vez más sofisticados. El que WellSaid Labs construyó, por ejemplo, utiliza dos modelos principales de aprendizaje profundo. El primero predice, a partir de un pasaje de texto, los trazos generales de cómo sonará un hablante, incluidos el acento, el tono y el timbre. El segundo completa los detalles, incluidas las respiraciones y la forma en que la voz resuena en su entorno.
Sin embargo, hacer una voz sintética convincente requiere algo más que presionar un botón. Parte de lo que hace que una voz humana sea tan humana es su inconsistencia, expresividad y capacidad para pronunciar las mismas líneas en estilos completamente diferentes, según el contexto.
Capturar estos matices implica encontrar los actores de voz adecuados para proporcionar los datos de entrenamiento adecuados y ajustar los modelos de aprendizaje profundo. WellSaid dice que el proceso requiere al menos una o dos horas de audio y algunas semanas de trabajo para desarrollar una réplica sintética que suene realista.
Las voces de IA se han vuelto particularmente populares entre las marcas que buscan mantener un sonido consistente en millones de interacciones con los clientes. Con la ubicuidad de los altavoces inteligentes en la actualidad y el aumento de los agentes de servicio al cliente automatizados, así como los asistentes digitales integrados en los automóviles y dispositivos inteligentes, las marcas pueden necesitar producir más de cien horas de audio al mes. Pero tampoco quieren seguir utilizando las voces genéricas que ofrece la tecnología tradicional de conversión de texto a voz, una tendencia que se aceleró durante la pandemia a medida que más y más clientes se saltaban las interacciones en la tienda para interactuar virtualmente con las empresas.
“Si soy Pizza Hut, ciertamente no puedo sonar como Domino’s, y ciertamente no puedo sonar como Papa John’s”, dice Rupal Patel, profesor de Northeastern University y fundador y director ejecutivo de VocaliD, que promete construir voces personalizadas que coinciden con la identidad de marca de una empresa. “Estas marcas han pensado en sus colores. Han pensado en sus fuentes. Ahora también tienen que empezar a pensar en cómo suena su voz “.
Mientras que las empresas solían tener que contratar diferentes actores de voz para diferentes mercados (el noreste frente al sur de EE. UU. O Francia frente a México), algunas empresas de inteligencia artificial de voz pueden manipular el acento o cambiar el idioma de una sola voz de diferentes maneras. Esto abre la posibilidad de adaptar anuncios en plataformas de streaming en función de quién esté escuchando, cambiando no solo las características de la voz sino también las palabras que se están pronunciando. Un anuncio de cerveza podría decirle a un oyente que pase por un pub diferente dependiendo de si se está reproduciendo en Nueva York o Toronto, por ejemplo. Resemble.ai, que diseña voces para anuncios y asistentes inteligentes, dice que ya está trabajando con los clientes para lanzar anuncios de audio personalizados en Spotify y Pandora.
Las industrias del juego y el entretenimiento también están viendo los beneficios. Sonantic, una firma que se especializa en voces emotivas que pueden reír y llorar o susurrar y gritar, trabaja con creadores de videojuegos y estudios de animación para proporcionar las voces en off de sus personajes. Muchos de sus clientes utilizan las voces sintetizadas solo en la preproducción y cambian a actores de voz reales para la producción final. Pero Sonantic dice que algunos han comenzado a usarlos a lo largo del proceso, quizás para personajes con menos líneas. Resemble.ai y otros también han trabajado con películas y programas de televisión para arreglar las actuaciones de los actores cuando las palabras se confunden o se pronuncian mal.
Pero existen limitaciones en cuanto a lo lejos que puede llegar la IA. Todavía es difícil mantener el realismo de una voz durante los largos períodos de tiempo que pueden ser necesarios para un audiolibro o un podcast. Y hay poca capacidad para controlar el desempeño de una voz de IA de la misma manera que un director puede guiar a un intérprete humano. “Todavía estamos en los primeros días del habla sintética”, dice Zohaib Ahmed, fundador y director ejecutivo de Resemble.ai, comparándolo con los días en que la tecnología CGI se usaba principalmente para retoques en lugar de crear mundos completamente nuevos a partir de pantallas verdes.
Un toque humano
En otras palabras, los actores de doblaje humano todavía no se van. Los proyectos expresivos, creativos y de larga duración aún los hacen mejor los humanos. Y por cada voz sintética creada por estas empresas, un actor de voz también debe proporcionar los datos de entrenamiento originales.
Pero algunos actores se han preocupado cada vez más por sus medios de vida, dice un portavoz de SAG-AFTRA, el sindicato que representa a los actores de voz en Estados Unidos. Si no tienen miedo de ser automatizados por la IA, les preocupa ser compensados injustamente o perder el control sobre sus voces, que constituyen su marca y reputación.
Este es ahora el tema de una demanda contra TikTok presentada por el actor de voz canadiense Bev Standing, quien alega que la función de voz en off incorporada de la aplicación usa una copia sintética de su voz sin su permiso. La experiencia de Standing también se hace eco de la de Susan Bennett , la voz original de American Siri, a quien se le pagó por sus grabaciones iniciales pero no por el uso continuo de su imagen vocal en millones de dispositivos Apple.
Algunas empresas buscan ser más responsables en la forma en que se relacionan con la industria de la actuación de voz. Los mejores, dice el representante de SAG-AFTRA, se han acercado al sindicato para encontrar la mejor manera de compensar y respetar a los actores de doblaje por su trabajo.
Varios ahora utilizan un modelo de participación en las ganancias para pagar a los actores cada vez que un cliente licencia su voz sintética específica, lo que ha abierto una nueva corriente de ingresos pasivos. Otros involucran a los actores en el proceso de diseñar su semejanza con la IA y les otorgan poder de veto sobre los proyectos en los que se utilizará. SAG-AFTRA también está presionando para que se legisle para proteger a los actores de las réplicas ilegítimas de su voz.
Pero para Patel de VocaliD, el objetivo de las voces de IA no es, en última instancia, replicar el desempeño humano o automatizar el trabajo de voz en off existente. En cambio, la promesa es que podrían abrir posibilidades completamente nuevas. ¿Y si en el futuro, dice, las voces sintéticas pudieran usarse para adaptar rápidamente materiales educativos en línea a diferentes audiencias? “Si está tratando de llegar, digamos, a un grupo de niños del centro de la ciudad, ¿no sería genial si esa voz realmente sonara como si fuera de su comunidad?”
Fuente: https://www.technologyreview.com/2021/07/09/1028140/ai-voice-actors-sound-human/