por Will Douglas Heaven | MIT Technology Review
“El laboratorio de IA de Meta ha creado un modelo de lenguaje nuevo y masivo que comparte tanto las notables habilidades como los dañinos defectos de la pionera red neuronal GPT-3 de OpenAI. Y en un movimiento sin precedentes para Big Tech, lo está regalando a los investigadores, junto con detalles sobre cómo se construyó y entrenó”.
El laboratorio de IA de Meta ha creado un modelo de lenguaje nuevo y masivo que comparte tanto las habilidades notables como los defectos dañinos de la red neuronal pionera GPT-3 de OpenAI . Y en un movimiento sin precedentes para Big Tech, lo está regalando a los investigadores, junto con detalles sobre cómo se construyó y entrenó .
“Creemos firmemente que la capacidad de que otros analicen su trabajo es una parte importante de la investigación. Realmente invitamos a esa colaboración”, dice Joelle Pineau, una defensora de la transparencia en el desarrollo de tecnología desde hace mucho tiempo , que ahora es directora general de Meta AI.
El movimiento de Meta es la primera vez que un modelo de lenguaje grande completamente entrenado estará disponible para cualquier investigador que quiera estudiarlo. La noticia ha sido bien recibida por muchos preocupados por la forma en que pequeños equipos construyen esta poderosa tecnología a puerta cerrada.
“Aplaudo la transparencia aquí”, dice Emily M. Bender, lingüista computacional de la Universidad de Washington y crítica frecuente de la forma en que se desarrollan e implementan los modelos de lenguaje.
“Es un gran paso”, dice Thomas Wolf, científico jefe de Hugging Face, la startup de IA detrás de BigScience , un proyecto en el que más de 1000 voluntarios de todo el mundo están colaborando en un modelo de lenguaje de código abierto. “Cuantos más modelos abiertos, mejor”, dice.
Los modelos de lenguaje extenso, poderosos programas que pueden generar párrafos de texto e imitar una conversación humana, se han convertido en una de las tendencias más populares en IA en los últimos años. Pero tienen fallas profundas , repiten como loros la desinformación, los prejuicios y el lenguaje tóxico.
En teoría, poner a más personas a trabajar en el problema debería ayudar. Sin embargo, debido a que los modelos de lenguaje requieren grandes cantidades de datos y poder de cómputo para entrenarse, hasta ahora se han mantenido como proyectos para firmas tecnológicas ricas. La comunidad investigadora en general, incluidos los especialistas en ética y los científicos sociales preocupados por su uso indebido, ha tenido que observar desde el margen.