Es preciso y casi tan rápido como los intérpretes humanos expertos.
por Shelly Fan

El sueño de un intérprete universal basado en inteligencia artificial está un poco más cerca. Esta semana, el gigante tecnológico Meta lanzó una nueva inteligencia artificial que puede traducir casi instantáneamente el habla en 101 idiomas tan pronto como las palabras salen de tu boca.
Los traductores de IA no son nada nuevo, pero suelen funcionar mejor con texto y les cuesta transformar las palabras habladas de un idioma a otro. El proceso suele constar de varios pasos: la IA primero convierte el habla en texto, traduce el texto y luego lo vuelve a convertir en habla. Aunque ya son útiles en la vida cotidiana, estos sistemas son ineficientes y lentos, y también pueden colarse errores en cada paso.
La nueva IA de Meta, bautizada como SEAMLESSM4T, puede convertir directamente el habla en voz. Mediante un sintetizador de voz, el sistema traduce palabras habladas en 101 idiomas a otros 36, no solo al inglés, que suele predominar entre los intérpretes de IA actuales. En una evaluación comparativa, el algoritmo es un 23 por ciento más preciso que los mejores modelos actuales y casi tan rápido como los intérpretes humanos expertos. También puede traducir texto en texto, texto en voz y viceversa.
Meta está poniendo a disposición del público todos los datos y códigos utilizados para desarrollar la IA para uso no comercial, de modo que otros puedan optimizarlos y desarrollarlos a partir de ellos. En cierto sentido, el algoritmo es “fundamental”, ya que “se puede ajustar a partir de conjuntos de datos cuidadosamente seleccionados para fines específicos, como mejorar la calidad de la traducción para ciertos pares de idiomas o para la jerga técnica”, escribió Tanel Alumäe de la Universidad Tecnológica de Tallin, que no participó en el proyecto. “Este nivel de apertura es una enorme ventaja para los investigadores que carecen de los enormes recursos computacionales necesarios para construir estos modelos desde cero”.
“Es un esfuerzo enormemente interesante e importante”, dijo a Nature Sabine Braun de la Universidad de Surrey, quien tampoco participó del estudio .
Inteligencia artificial de autoaprendizaje
La traducción automática ha avanzado mucho en los últimos años gracias a los grandes modelos lingüísticos. Estos modelos, que impulsan a los chatbots populares como ChatGPT y Claude, aprenden el idioma mediante el entrenamiento con conjuntos de datos masivos extraídos de Internet (blogs, comentarios en foros, Wikipedia).
En la traducción, los humanos examinan y etiquetan cuidadosamente estos conjuntos de datos, o “corpus”, para garantizar su precisión. Las etiquetas o categorías proporcionan una especie de “verdad fundamental” a medida que la IA aprende y hace predicciones.
Pero no todos los idiomas están representados por igual. Es fácil conseguir corpus de entrenamiento para idiomas con muchos recursos, como el inglés y el francés. Mientras tanto, los idiomas con pocos recursos, que se usan principalmente en países de ingresos medios o bajos, son más difíciles de encontrar, lo que dificulta entrenar a un traductor de IA ávido de datos con conjuntos de datos confiables.
“Algunos recursos etiquetados por humanos para la traducción están disponibles gratuitamente, pero a menudo están limitados a un pequeño conjunto de idiomas o en dominios muy específicos”, escribieron los autores.
Para solucionar el problema, el equipo utilizó una técnica llamada minería de datos paralela, que rastrea Internet y otros recursos en busca de fragmentos de audio en un idioma con subtítulos coincidentes en otro. Estos pares, que coinciden en significado, agregan una gran cantidad de datos de entrenamiento en varios idiomas, sin necesidad de anotaciones humanas. En total, el equipo recopiló aproximadamente 443.000 horas de audio con texto coincidente, lo que dio como resultado unos 30.000 pares de voz y texto alineados.
SEAMLESSM4T consta de tres bloques diferentes, algunos de los cuales se encargan de la entrada de texto y voz, y otros de la salida. La parte de traducción de la IA se entrenó previamente con un conjunto de datos masivo que contenía 4,5 millones de horas de audio hablado en varios idiomas. Este paso inicial ayudó a la IA a “aprender patrones en los datos, lo que facilitó el ajuste del modelo para tareas específicas” más adelante, escribió Alumäe. En otras palabras, la IA aprendió a reconocer estructuras generales en el habla independientemente del idioma, lo que estableció una línea de base que facilitó la traducción de idiomas con pocos recursos más adelante.
Luego se entrenó la IA con los pares de voces y se evaluó comparándola con otros modelos de traducción.
Palabra hablada
Una ventaja clave de la IA es su capacidad de traducir directamente el habla, sin tener que convertirla primero en texto. Para probar esta capacidad, el equipo conectó un sintetizador de audio a la IA para transmitir su salida. A partir de cualquiera de los 101 idiomas que conocía, la IA tradujo el habla a 36 idiomas diferentes, incluidos idiomas con pocos recursos, con solo unos segundos de retraso.
El algoritmo superó a los sistemas de última generación existentes, logrando un 23 por ciento más de precisión utilizando una prueba estandarizada. También manejó mejor el ruido de fondo y las voces de diferentes hablantes, aunque, al igual que los humanos, tuvo dificultades con el habla con mucho acento.
Perdido en la traducción
El lenguaje no se compone simplemente de palabras unidas en oraciones, sino que refleja contextos y matices culturales. Por ejemplo, traducir un lenguaje neutro en cuanto al género a uno que sí lo sea podría introducir sesgos. ¿Se traduce “I am a teacher” en inglés al masculino “ Soy profesor ” o al femenino “ Soy profesora ” en español? ¿Y qué pasa con las traducciones de doctor, scientific, nanny o president?
Las traducciones erróneas también pueden añadir “toxicidad”, cuando la IA arroja un lenguaje ofensivo o dañino que no refleja el significado original, especialmente palabras que no tienen una contraparte directa en el otro idioma. Si bien en algunos casos es fácil reírse de ellos como si fueran una comedia de errores, estos errores son mortalmente graves cuando se trata de situaciones médicas, de inmigración o legales.
“Este tipo de errores inducidos por las máquinas podrían potencialmente inducir un daño real, como recetar erróneamente un medicamento o acusar a la persona equivocada en un juicio”, escribió Allison Koenecke de la Universidad de Cornell, que no participó en el estudio. Es probable que el problema afecte desproporcionadamente a las personas que hablan idiomas con pocos recursos o dialectos inusuales, debido a una relativa falta de datos de entrenamiento.
Para su crédito, el equipo de Meta analizó su modelo de toxicidad y lo afinó durante múltiples etapas para reducir las posibilidades de sesgo de género y lenguaje dañino.
“Este es un paso en la dirección correcta y ofrece una base sobre la que se pueden probar modelos futuros”, escribió Koenecke.
Meta apoya cada vez más la tecnología de código abierto. Anteriormente, el gigante tecnológico lanzó PyTorch, una biblioteca de software para el entrenamiento de IA, que fue utilizada por empresas, incluidas OpenAI y Tesla, e investigadores de todo el mundo. SEAMLESSM4T también se hará público para que otros puedan aprovechar sus capacidades.
La IA es simplemente el último traductor automático que puede manejar la traducción de voz a voz. Anteriormente, Google presentó AudioPaLM, un algoritmo que puede convertir 113 idiomas al inglés, pero solo inglés. SEAMLESSM4T amplía el alcance. Aunque solo araña la superficie de los aproximadamente 7000 idiomas que se hablan, la IA se acerca cada vez más a un traductor universal, como el pez de Babel en La guía del autoestopista galáctico , que traduce idiomas de especies de todo el universo cuando se coloca en el oído.
“Los métodos de los autores para aprovechar datos del mundo real abrirán un camino prometedor hacia una tecnología de voz que rivaliza con la ciencia ficción”, escribió Alumäe.

La Dra. Shelly Xuelai Fan es una neurocientífica que se convirtió en escritora científica. Le fascinan las investigaciones sobre el cerebro, la inteligencia artificial, la longevidad, la biotecnología y, especialmente, su intersección. Como nómada digital, disfruta explorando nuevas culturas, comidas locales y la vida al aire libre.