Es un proyecto ambicioso en sus primeras etapas, pero Google cree que tendrá beneficios en todo su ecosistema de productos.

por JAMES VICENT

Google ha anunciado un nuevo y ambicioso proyecto para desarrollar un único modelo de lenguaje de IA que admita los “1000 idiomas más hablados” del mundo. Como primer paso hacia este objetivo, la compañía está presentando un modelo de IA entrenado en más de 400 idiomas, que describe como “la mayor cobertura de idiomas vista en un modelo de voz en la actualidad”.

Ilustración de Alex Castro / The Verge

Podría decirse que el lenguaje y la IA siempre han estado en el corazón de los productos de Google, pero los avances recientes en el aprendizaje automático, en particular el desarrollo de “modelos de lenguaje grande” o LLM potentes y multifuncionales, han puesto un nuevo énfasis en estos dominios.

Google ya ha comenzado a integrar estos modelos lingüísticos en productos como Google Search , al mismo tiempo que rechaza las críticas sobre la funcionalidad de los sistemas. Los modelos de lenguaje tienen una serie de fallas, incluida una tendencia a regurgitar prejuicios sociales dañinos como el racismo y la xenofobia, y la incapacidad de analizar el lenguaje con sensibilidad humana. Google mismo despidió infamemente a sus propios investigadores después de que publicaron artículos que describían estos problemas.

Sin embargo, estos modelos son capaces de realizar muchas tareas, desde la generación de idiomas (como GPT-3 de OpenAI ) hasta la traducción (consulte el trabajo No Language Left Behind de Meta ). La “Iniciativa de los 1000 idiomas” de Google no se centra en ninguna funcionalidad en particular, sino en crear un sistema único con una gran variedad de conocimientos en todos los idiomas del mundo.

En declaraciones a The Verge , Zoubin Ghahramani, vicepresidente de investigación de Google AI, dijo que la compañía cree que crear un modelo de este tamaño facilitará llevar varias funcionalidades de IA a idiomas que están mal representados en espacios en línea y conjuntos de datos de entrenamiento de IA (también conocidas como “lenguas de bajos recursos”).

“Los idiomas son como organismos, han evolucionado unos de otros y tienen ciertas similitudes”.

“Al tener un solo modelo que está expuesto y entrenado en muchos idiomas diferentes, obtenemos un rendimiento mucho mejor en nuestros idiomas de bajos recursos”, dice Ghahramani. “La forma en que llegamos a 1000 idiomas no es construyendo 1000 modelos diferentes. Los idiomas son como organismos, han evolucionado unos de otros y tienen ciertas similitudes. Y podemos encontrar algunos avances bastante espectaculares en lo que llamamos aprendizaje de tiro cero cuando incorporamos datos de un nuevo idioma en nuestro modelo de 1000 idiomas y obtenemos la capacidad de traducir [lo que se aprendió] de un idioma de muchos recursos a uno de pocos recursos. lenguaje de recursos.”

Investigaciones anteriores han demostrado la eficacia de este enfoque, y la escala del modelo planificado de Google podría ofrecer ganancias sustanciales con respecto al trabajo anterior. Estos proyectos a gran escala se han vuelto típicos de la ambición de las empresas tecnológicas de dominar la investigación de IA y aprovechar las ventajas únicas de estas empresas en términos de acceso a grandes cantidades de potencia informática y datos de capacitación. Un proyecto comparable es el intento en curso de la empresa matriz de Facebook, Meta, de construir un “ traductor de voz universal”. 

Sin embargo, el acceso a los datos es un problema cuando se entrena en tantos idiomas, y Google dice que para respaldar el trabajo en el modelo de 1,000 idiomas, financiará la recopilación de datos para idiomas de bajos recursos, incluidas grabaciones de audio y textos escritos. .

La compañía dice que no tiene planes directos sobre dónde aplicar la funcionalidad de este modelo, solo que espera que tenga una variedad de usos en los productos de Google, desde Google Translate hasta subtítulos de YouTube y más.

“El mismo modelo de lenguaje puede convertir los comandos de un robot en código; puede resolver problemas matemáticos; puede hacer la traducción”.

“Una de las cosas realmente interesantes sobre los grandes modelos de lenguaje y la investigación del lenguaje en general es que pueden realizar muchas tareas diferentes”, dice Ghahramani. “El mismo modelo de lenguaje puede convertir los comandos de un robot en código; puede resolver problemas matemáticos; puede hacer la traducción. Lo realmente interesante de los modelos de lenguaje es que se están convirtiendo en repositorios de una gran cantidad de conocimiento y, al probarlos de diferentes maneras, puede obtener diferentes partes de funcionalidad útil”.

Google anunció el modelo de 1000 idiomas en una exhibición de nuevos productos de IA. La compañía también compartió una nueva investigación sobre modelos de texto a video, un prototipo de asistente de escritura de IA llamado Wordcraft y una actualización de su aplicación AI Test Kitchen, que brinda a los usuarios acceso limitado a modelos de IA en desarrollo como su texto a imagen. modelo Imagen.

Fuente: https://www.theverge.com/2022/11/2/23434360/google-1000-languages-initiative-ai-llm-research-project

Deja una respuesta