Los investigadores crearon clones de voz extremadamente realistas con sólo cuatro minutos de grabaciones.

por Edd Gent

La capacidad de sintetizar voz realista mediante IA tiene numerosas aplicaciones, tanto benignas como maliciosas. Una nueva investigación demuestra que las voces generadas por IA actuales son indistinguibles de las de los humanos reales.

La capacidad de la IA para generar voz ha mejorado drásticamente en los últimos años. Muchos servicios ahora son capaces de mantener conversaciones extensas. Normalmente, estas herramientas pueden clonar voces de personas reales y generar voces totalmente sintéticas.

Esto podría hacer que las potentes capacidades de IA sean mucho más accesibles y aumenta la posibilidad de que los agentes de IA asuman diversas funciones de cara al cliente en el mundo real. Sin embargo, también se teme que estas capacidades estén impulsando una explosión de estafas de clonación de voz , donde los delincuentes utilizan la IA para hacerse pasar por familiares o famosos con el fin de manipular a las víctimas.

Históricamente, el habla sintetizada ha tenido una cualidad robótica que la hacía relativamente fácil de reconocer, e incluso los primeros clones de voz con IA se delataban por su cadencia demasiado perfecta o fallos digitales ocasionales. Sin embargo, un nuevo estudio ha descubierto que el oyente promedio ya no puede distinguir entre voces humanas reales y clones deepfake creados con herramientas de consumo.

“El proceso requirió una experiencia mínima, solo unos minutos de grabaciones de voz y prácticamente nada de dinero”, declaró en un comunicado de prensa Nadine Lavan, de la Universidad Queen Mary de Londres, quien dirigió la investigación . “Esto demuestra lo accesible y sofisticada que se ha vuelto la tecnología de voz con IA”. 

Para evaluar la capacidad de las personas para distinguir las voces humanas de las generadas por IA, los investigadores crearon 40 voces de IA completamente sintéticas y 40 clones de voces humanas en un conjunto de datos disponible públicamente. Utilizaron la herramienta de generación de voces de IA de la startup ElevenLabs, y cada clon requirió aproximadamente cuatro minutos de grabación de voz para su creación.

Luego, desafiaron a 28 participantes a calificar la autenticidad de las voces en una escala y a emitir un juicio binario sobre si eran humanas o generadas por IA. En los resultados, publicados en PLOS One , los autores descubrieron que, si bien las personas podían distinguir hasta cierto punto las voces humanas de las totalmente sintéticas, no podían distinguir entre clones de voz y voces reales.

El estudio también buscó comprender si las voces generadas por IA se habían vuelto hiperrealistas. Diversos estudios han demostrado que la generación de imágenes con IA ha mejorado tanto que las imágenes de rostros generadas por IA suelen considerarse más humanas que las fotos de personas reales .

Sin embargo, los investigadores descubrieron que las voces totalmente sintéticas se consideraron menos reales que las grabaciones humanas, mientras que los clones se asemejaban bastante a ellas. Aun así, los participantes informaron que las voces generadas por IA parecían más dominantes y confiables que sus contrapartes humanas.

Lavan señala que la capacidad de crear voces artificiales ultrarrealistas podría tener aplicaciones positivas. «La capacidad de generar voces realistas a gran escala abre oportunidades emocionantes», afirmó. «Podría haber aplicaciones para mejorar la accesibilidad, la educación y la comunicación, donde las voces sintéticas de alta calidad y personalizadas pueden mejorar la experiencia del usuario».

Pero los resultados se suman a un creciente número de investigaciones que sugieren que las voces de la IA se están volviendo rápidamente imposibles de detectar. Y Lavan afirma que esto tiene muchas implicaciones éticas preocupantes en áreas como la infracción de derechos de autor, la capacidad de difundir desinformación y el fraude.

Si bien muchas empresas han intentado poner límites a sus modelos diseñados para evitar el uso indebido, la rápida proliferación de la tecnología de IA y la inventiva de actores maliciosos sugieren que este es un problema que solo empeorará.

Edd Gent

Edd Gent

Edd es un escritor independiente de ciencia y tecnología radicado en Bangalore, India. Sus principales áreas de interés son la ingeniería, la informática y la biología, con especial atención a las intersecciones entre estas tres.

Fuente: https://singularityhub.com/2025/09/29/people-cant-distinguish-ai-voice-clones-from-actual-humans-anymore/

Deja una respuesta