Un grupo de más de 1000 investigadores de IA ha creado un modelo de lenguaje grande multilingüe más grande que GPT-3, y lo están distribuyendo de forma gratuita.
por Melissa Heikkila

Esto es lo más cerca que se puede llegar a un concierto de rock en la investigación de IA. Dentro del centro de supercomputación del Centro Nacional de Investigación Científica de Francia, en las afueras de París, filas y filas de lo que parecen neveras negras tararean a unos ensordecedores 100 decibelios.
Forman parte de un superordenador que lleva 117 días gestando un nuevo modelo de lenguaje grande (LLM) llamado BLOOM que sus creadores esperan que represente un alejamiento radical de la forma en que se suele desarrollar la IA.
A diferencia de otros modelos de lenguaje grande más famosos, como GPT-3 de OpenAI y LaMDA de Google, BLOOM (que significa BigScience Large Open-science Open-access Multilingual Language Model) está diseñado para ser lo más transparente posible, con investigadores que comparten detalles sobre los datos en los que fue entrenado, los desafíos en su desarrollo y la forma en que evaluaron su rendimiento. OpenAI y Google no han compartido su código ni han puesto sus modelos a disposición del público, y los investigadores externos tienen muy poca comprensión de cómo se entrenan estos modelos.
BLOOM fue creado durante el último año por más de 1.000 investigadores voluntarios en un proyecto llamado BigScience, que fue coordinado por la startup de IA Hugging Face utilizando fondos del gobierno francés. Se lanzó oficialmente el 12 de julio. Los investigadores esperan que el desarrollo de un LLM de acceso abierto que funcione tan bien como otros modelos líderes conduzca a cambios duraderos en la cultura del desarrollo de la IA y ayude a democratizar el acceso a la tecnología de IA de vanguardia para los investigadores de todo el mundo.
La facilidad de acceso del modelo es su mayor punto de venta. Ahora que está en vivo, cualquiera puede descargarlo y jugar con él de forma gratuita en el sitio web de Hugging Face. Los usuarios pueden elegir entre una selección de idiomas y luego escribir solicitudes para que BLOOM realice tareas como escribir recetas o poemas, traducir o resumir textos o escribir código de programación. Los desarrolladores de IA pueden usar el modelo como base para construir sus propias aplicaciones.
Con 176 mil millones de parámetros (variables que determinan cómo los datos de entrada se transforman en la salida deseada), es más grande que el GPT-3 de 175 mil millones de parámetros de OpenAI, y BigScience afirma que ofrece niveles similares de precisión y toxicidad que otros modelos del mismo tamaño. Para idiomas como el español y el árabe, BLOOM es el primer modelo de lenguaje grande de este tamaño.
Pero incluso los creadores del modelo advierten que no solucionará los problemas profundamente arraigados en torno a los grandes modelos de lenguaje, incluida la falta de políticas adecuadas sobre gobernanza de datos y privacidad y la tendencia de los algoritmos a arrojar contenido tóxico, como el lenguaje racista o sexista.
Quedó a la luz
Los modelos de lenguaje grandes son algoritmos de aprendizaje profundo que se entrenan en cantidades masivas de datos. Son una de las áreas más candentes de la investigación de la IA. Los modelos poderosos como GPT-3 y LaMDA, que producen texto que se lee como si un humano lo escribiera, tienen un enorme potencial para cambiar la forma en que procesamos la información en línea. Se pueden usar como chatbots o para buscar información, moderar contenido en línea, resumir libros o generar pasajes de texto completamente nuevos basados en indicaciones. Pero también están plagados de problemas. Solo se necesita un poco de empuje antes de que estos modelos comiencen a producir contenido dañino.
Los modelos también son extremadamente exclusivos. Necesitan ser entrenados en cantidades masivas de datos utilizando mucha potencia informática costosa, que es algo que solo las grandes (y en su mayoría estadounidenses) empresas de tecnología como Google pueden permitirse.
La mayoría de las grandes empresas de tecnología que desarrollan LLM de vanguardia restringen su uso por parte de personas externas y no han publicado información sobre el funcionamiento interno de sus modelos. Esto hace que sea difícil hacerlos responsables. El secreto y la exclusividad son lo que los investigadores que trabajan en BLOOM esperan cambiar.
Meta ya se ha alejado del status quo: en mayo de 2022, la compañía lanzó su propio modelo de lenguaje grande, Open Pretrained Transformer (OPT-175B), junto con su código y un libro de registro que detalla cómo se entrenó el modelo.
Pero el modelo de Meta está disponible solo a pedido, y tiene una licencia que limita su uso a fines de investigación. Hugging Face va un paso más allá. Las reuniones que detallan su trabajo durante el año pasado se graban y cargan en línea, y cualquiera puede descargar el modelo de forma gratuita y usarlo para la investigación o para crear aplicaciones comerciales.
Un gran enfoque para BigScience fue incorporar consideraciones éticas en el modelo desde su inicio, en lugar de tratarlas como una idea de último momento. Los LLM están capacitados en toneladas de datos recopilados al raspar Internet. Esto puede ser problemático, porque estos conjuntos de datos incluyen mucha información personal y, a menudo, reflejan sesgos peligrosos. El grupo desarrolló estructuras de gobierno de datos específicamente para LLM que deberían dejar más claro qué datos se están utilizando y a quién pertenecen, y obtuvo diferentes conjuntos de datos de todo el mundo que no estaban disponibles en línea.
El grupo también está lanzando una nueva Licencia de IA Responsable, que es algo así como un acuerdo de términos de servicio. Está diseñado para actuar como un elemento disuasorio del uso de BLOOM en sectores de alto riesgo, como la aplicación de la ley o la atención médica, o para dañar, engañar, explotar o hacerse pasar por personas. La licencia es un experimento para autorregularse los LLM antes de que las leyes se pongan al día, dice Danish Contractor, un investigador de IA que se ofreció como voluntario en el proyecto y co-creó la licencia. Pero en última instancia, no hay nada que impida que alguien abuse de BLOOM.
El proyecto tuvo sus propias pautas éticas desde el principio, que funcionaron como principios rectores para el desarrollo del modelo, dice Giada Pistilli, especialista en ética de Hugging Face, quien redactó la carta ética de BLOOM. Por ejemplo, se esforzó por reclutar voluntarios de diversos orígenes y ubicaciones, asegurando que los forasteros puedan reproducir fácilmente los hallazgos del proyecto y publicando sus resultados al aire libre.
Todos a bordo
Esta filosofía se traduce en una gran diferencia entre BLOOM y otros LLM disponibles en la actualidad: la gran cantidad de idiomas humanos que el modelo puede entender. Puede manejar 46 de ellos, incluyendo francés, vietnamita, mandarín, indonesio, catalán, 13 idiomas índicos (como el hindi) y 20 idiomas africanos. Poco más del 30% de sus datos de entrenamiento estaban en inglés. El modelo también entiende 13 lenguajes de programación.
Esto es muy inusual en el mundo de los modelos de idiomas grandes, donde domina el inglés. Esa es otra consecuencia del hecho de que los LLM se construyen mediante el raspado de datos de Internet: el inglés es el idioma más utilizado en línea.
La razón por la que BLOOM pudo mejorar esta situación es que el equipo reunió a voluntarios de todo el mundo para construir conjuntos de datos adecuados en otros idiomas, incluso si esos idiomas no estaban tan bien representados en línea. Por ejemplo, Hugging Face organizó talleres con investigadores africanos de IA para tratar de encontrar conjuntos de datos, como registros de autoridades locales o universidades, que podrían usarse para entrenar el modelo en idiomas africanos, dice Chris Emezue, pasante de Hugging Face e investigador de Masakhane, una organización que trabaja en el procesamiento del lenguaje natural para idiomas africanos.
Incluir tantos idiomas diferentes podría ser de gran ayuda para los investigadores de IA en los países más pobres, que a menudo luchan por obtener acceso al procesamiento del lenguaje natural porque utiliza una gran cantidad de potencia informática costosa. BLOOM les permite omitir la parte costosa de desarrollar y entrenar los modelos para centrarse en la creación de aplicaciones y ajustar los modelos para las tareas en sus idiomas nativos.
“Si quieres incluir las lenguas africanas en el futuro del [procesamiento del lenguaje natural]… es un paso muy bueno e importante incluirlos mientras se entrenan modelos de lenguaje”, dice Emezue.
Manejar con precaución
BigScience ha hecho un trabajo “fenomenal” al construir una comunidad alrededor de BLOOM, y su enfoque de involucrar la ética y la gobernanza desde el principio es reflexivo, dice Percy Liang, director del Centro de Investigación sobre Modelos de Fundación de Stanford.
Sin embargo, Liang no cree que conduzca a cambios significativos en el desarrollo de LLM. “OpenAI y Google y Microsoft todavía están muy por delante”, dice.
En última instancia, BLOOM sigue siendo un modelo de lenguaje grande, y todavía viene con todos los defectos y riesgos asociados. Empresas como OpenAI no han dado a conocer sus modelos o código al público porque, argumentan, el lenguaje sexista y racista que ha entrado en ellos los hace demasiado peligrosos para usarlos de esa manera.
También es probable que BLOOM incorpore inexactitudes y lenguaje sesgado, pero dado que todo sobre el modelo está a la vista, las personas podrán interrogar las fortalezas y debilidades del modelo, dice Margaret Mitchell, investigadora de IA y especialista en ética de Hugging Face.
La mayor contribución de BigScience a la IA podría terminar no siendo BLOOM en sí, sino los numerosos proyectos de investigación derivados en los que se están involucrando sus voluntarios. Por ejemplo, tales proyectos podrían reforzar las credenciales de privacidad del modelo y encontrar formas de usar la tecnología en diferentes campos, como la investigación biomédica.
“Un nuevo modelo de lenguaje grande no va a cambiar el curso de la historia”, dice Teven Le Scao, investigador de Hugging Face que codirigió la capacitación de BLOOM. “Pero tener un buen modelo de lenguaje abierto sobre el que la gente realmente pueda investigar tiene un fuerte impacto a largo plazo”.
Cuando se trata de los daños potenciales de los LLM, “la caja de Pandora ya está abierta de par en par”, dice Le Scao. “Lo mejor que puedes hacer es crear las mejores condiciones posibles para que los investigadores las estudien”.
Fuente: https://www.technologyreview.com/2022/07/12/1055817/inside-a-radical-new-project-to-democratize-ai/