Conversaciones exclusivas que nos llevan tras bambalinas de un fenómeno cultural.

por Will Douglas Heaven

Cuando OpenAI lanzó ChatGPT, sin fanfarria, a finales de noviembre de 2022, la empresa de inteligencia artificial con sede en San Francisco tenía pocas expectativas. Ciertamente, nadie dentro de OpenAI estaba preparado para un megaéxito viral . La firma ha estado luchando para ponerse al día y capitalizar su éxito desde entonces.


Fue visto internamente como una “avance de la investigación”, dice Sandhini Agarwal, quien trabaja en políticas en OpenAI: una burla de una versión más pulida de una tecnología de dos años y, más importante, un intento de resolver algunos problemas. de sus defectos mediante la recopilación de comentarios del público. “No queríamos exagerarlo como un gran avance fundamental”, dice Liam Fedus, científico de OpenAI que trabajó en ChatGPT.

Para conocer la historia interna detrás del chatbot (cómo se hizo, cómo OpenAI lo ha estado actualizando desde su lanzamiento y cómo se sienten sus creadores acerca de su éxito), hablé con cuatro personas que ayudaron a construir lo que se ha convertido en una de las aplicaciones de Internet más populares . nunca _ Además de Agarwal y Fedus, hablé con John Schulman, cofundador de OpenAI, y Jan Leike, líder del equipo de alineación de OpenAI, que trabaja en el problema de hacer que la IA haga lo que los usuarios quieren que haga (y nada más). .

Lo que obtuve fue la sensación de que OpenAI todavía está desconcertado por el éxito de su avance de investigación, pero aprovechó la oportunidad para impulsar esta tecnología, observando cómo millones de personas la usan y tratando de solucionar los peores problemas a medida que surgen.

Desde noviembre, OpenAI ya ha actualizado ChatGPT varias veces. Los investigadores están utilizando una técnica llamada entrenamiento contradictorio para evitar que ChatGPT permita que los usuarios lo engañen para que se comporte mal (lo que se conoce como jailbreak). Este trabajo enfrenta a múltiples chatbots entre sí: un chatbot juega al adversario y ataca a otro chatbot generando texto para obligarlo a desafiar sus restricciones habituales y producir respuestas no deseadas. Los ataques exitosos se agregan a los datos de entrenamiento de ChatGPT con la esperanza de que aprenda a ignorarlos.       

OpenAI también firmó un acuerdo multimillonario con Microsoft y anunció una alianza con Bain , una firma de consultoría de gestión global, que planea utilizar los modelos de IA generativa de OpenAI en campañas de marketing para sus clientes, incluida Coca-Cola. Fuera de OpenAI, el rumor sobre ChatGPT ha desencadenado otra fiebre del oro en torno a los grandes modelos de lenguaje, con empresas e inversores de todo el mundo entrando en acción.

Eso es mucho bombo en tres cortos meses. ¿De dónde vino ChatGPT? ¿Qué pasos tomó OpenAI para asegurarse de que estuviera listo para su lanzamiento? ¿Y adónde van después?  

Lo siguiente ha sido editado por extensión y claridad.

Jan Leike: Ha sido abrumador, sinceramente. Nos ha sorprendido y hemos estado tratando de ponernos al día.

John Schulman: Estuve revisando mucho Twitter en los días posteriores al lanzamiento, y hubo un período loco en el que el feed se estaba llenando con capturas de pantalla de ChatGPT. Esperaba que fuera intuitivo para la gente, y esperaba que ganara seguidores, pero no esperaba que alcanzara este nivel de popularidad general.

Sandhini Agarwal: Creo que definitivamente fue una sorpresa para todos nosotros la cantidad de gente que comenzó a usarlo. Trabajamos tanto en estos modelos que olvidamos lo sorprendentes que pueden ser para el mundo exterior a veces.

Liam Fedus : Definitivamente nos sorprendió lo bien que fue recibido. Ha habido tantos intentos anteriores de un chatbot de propósito general que sabía que las probabilidades estaban en nuestra contra. Sin embargo, nuestra versión beta privada nos había dado la confianza de que teníamos algo que la gente realmente podría disfrutar.

Jan Leike: Me encantaría entender mejor qué está impulsando todo esto, qué está impulsando la viralidad. Como, honestamente, no entendemos. no lo sabemos

Parte del desconcierto del equipo proviene del hecho de que la mayor parte de la tecnología dentro de ChatGPT no es nueva. ChatGPT es una versión mejorada de GPT-3.5, una familia de grandes modelos de lenguaje que OpenAI lanzó meses antes que el chatbot. GPT-3.5 es en sí mismo una versión actualizada de GPT-3 , que apareció en 2020. La empresa pone a disposición estos modelos en su sitio web como interfaces de programación de aplicaciones, o API, lo que facilita que otros desarrolladores de software inserten modelos en su propio código. . OpenAI también lanzó una versión anterior mejorada de GPT-3.5, llamada InstructGPT , en enero de 2022. Pero ninguna de estas versiones anteriores de la tecnología se lanzó al público. 

Liam Fedus: El modelo de ChatGPT se ajusta a partir del mismo modelo de lenguaje que InstructGPT, y usamos una metodología similar para ajustarlo. Agregamos algunos datos conversacionales y ajustamos un poco el proceso de entrenamiento. Así que no queríamos exagerarlo como un gran avance fundamental. Al final resultó que, los datos conversacionales tuvieron un gran impacto positivo en ChatGPT.

John Schulman: Las capacidades técnicas brutas, según la evaluación de los puntos de referencia estándar, en realidad no difieren sustancialmente entre los modelos, pero ChatGPT es más accesible y utilizable.

Jan Leike: En cierto sentido, puedes entender ChatGPT como una versión de un sistema de inteligencia artificial que hemos tenido durante un tiempo. No es un modelo fundamentalmente más capaz que el que teníamos anteriormente. Los mismos modelos básicos habían estado disponibles en la API durante casi un año antes de que saliera ChatGPT. En otro sentido, lo hicimos más alineado con lo que los humanos quieren hacer con él. Te habla en un diálogo, es fácilmente accesible en una interfaz de chat, trata de ser útil. Eso es un progreso asombroso, y creo que eso es lo que la gente se está dando cuenta.

John Schulman: Infiere más fácilmente la intención. Y los usuarios pueden llegar a lo que quieren yendo y viniendo.

ChatGPT fue entrenado de una manera muy similar a InstructGPT, usando una técnica llamada aprendizaje de refuerzo a partir de la retroalimentación humana (RLHF). Esta es la salsa secreta de ChatGPT. La idea básica es tomar un modelo de lenguaje grande con tendencia a escupir lo que quiera, en este caso, GPT-3.5, y ajustarlo enseñándole qué tipo de respuestas prefieren los usuarios humanos.

Jan Leike:Tuvimos un gran grupo de personas que leyeron las indicaciones y respuestas de ChatGPT y luego dijeron si una respuesta era preferible a otra respuesta. Todos estos datos luego se fusionaron en una ejecución de entrenamiento. Gran parte es el mismo tipo de cosas que hicimos con InstructGPT. Quiere que sea útil, quiere que sea veraz, quiere que sea, ya sabe, no tóxico. Y luego hay cosas que son específicas para producir diálogos y ser un asistente: cosas como, si la consulta del usuario no es clara, debe hacer preguntas de seguimiento. También se debe aclarar que es un sistema de IA. No debe asumir una identidad que no tiene, no debe afirmar tener habilidades que no posee, y cuando un usuario le pide que haga tareas que se supone que no debe hacer, tiene que escribir una negativa. mensaje.

Sandhini Agarwal: Sí, creo que eso fue lo que sucedió. Había una lista de varios criterios en los que los evaluadores humanos tenían que clasificar el modelo, como la veracidad. Pero también comenzaron a preferir cosas que consideraban buenas prácticas, como no pretender ser algo que no eres. 

Debido a que ChatGPT se había creado con las mismas técnicas que OpenAI había usado antes, el equipo no hizo nada diferente cuando se preparó para lanzar este modelo al público. Sintieron que la barra que habían establecido para los modelos anteriores era suficiente.      

Sandhini Agarwal: Cuando nos preparábamos para el lanzamiento, no pensamos en este modelo como un riesgo completamente nuevo. GPT-3.5 había estado en el mundo y sabemos que ya es lo suficientemente seguro. Y a través del entrenamiento de ChatGPT sobre las preferencias humanas, el modelo simplemente aprendió automáticamente el comportamiento de rechazo, donde rechaza muchas solicitudes.

Jan Leike: Hicimos algunos “equipos rojos” adicionales para ChatGPT, donde todos en OpenAI se sentaron e intentaron romper el modelo. Y teníamos grupos externos haciendo el mismo tipo de cosas. También teníamos un programa de acceso anticipado con usuarios de confianza, que dieron su opinión.

Sandhini Agarwal: Descubrimos que generó ciertas salidas no deseadas, pero todas eran cosas que GPT-3.5 también genera. Entonces, en términos de riesgo, como una vista previa de la investigación, porque eso es lo que inicialmente se pretendía que fuera, se sintió bien.

John Schulman: No puedes esperar hasta que tu sistema esté perfecto para lanzarlo. Habíamos estado probando la versión beta de las versiones anteriores durante algunos meses, y los probadores beta tenían impresiones positivas del producto. Nuestra mayor preocupación giraba en torno a la factualidad, porque a la modelo le gusta inventar cosas. Pero InstructGPT y otros grandes modelos de lenguaje ya están disponibles, por lo que pensamos que mientras ChatGPT sea mejor que esos en términos de factualidad y otras cuestiones de seguridad, debería estar listo. Antes del lanzamiento, confirmamos que los modelos parecían un poco más reales y seguros que otros modelos, según nuestras evaluaciones limitadas, por lo que decidimos continuar con el lanzamiento.

OpenAI ha estado observando cómo las personas usan ChatGPT desde su lanzamiento, viendo por primera vez cómo le va a un modelo de lenguaje grande cuando se pone en manos de decenas de millones de usuarios que pueden estar buscando probar sus límites y encontrar sus fallas. El equipo ha tratado de aprovechar los ejemplos más problemáticos de lo que ChatGPT puede producir, desde canciones sobre el amor de Dios por los sacerdotes violadores hasta el código de malware que roba números de tarjetas de crédito, y usarlos para controlar futuras versiones del modelo.  

Sandhini Agarwal: Tenemos muchos próximos pasos. Definitivamente creo que lo viral que se ha vuelto ChatGPT ha hecho que muchos problemas que sabíamos que existían realmente surgieran y se volvieran críticos, cosas que queremos resolver lo antes posible. Sabemos que el modelo todavía está muy sesgado. Y sí, ChatGPT es muy bueno para rechazar solicitudes incorrectas, pero también es bastante fácil escribir avisos que hagan que no rechace lo que queríamos que rechazara.

Liam Fedus: Ha sido emocionante ver las diversas y creativas aplicaciones de los usuarios, pero siempre nos enfocamos en áreas para mejorar. Creemos que a través de un proceso iterativo en el que implementamos, recibimos comentarios y refinamos, podemos producir la tecnología más alineada y capaz. A medida que nuestra tecnología evoluciona, surgen inevitablemente nuevos problemas.

Sandhini Agarwal: En las semanas posteriores al lanzamiento, observamos algunos de los ejemplos más terribles que la gente había encontrado, las peores cosas que la gente estaba viendo en la naturaleza. Evaluamos cada uno de ellos y hablamos sobre cómo deberíamos solucionarlo.

Jan Leike: A veces es algo que se ha vuelto viral en Twitter, pero hay algunas personas que realmente se comunican en silencio.

Sandhini Agarwal: Muchas de las cosas que encontramos fueron jailbreaks, lo que definitivamente es un problema que debemos solucionar. Pero debido a que los usuarios tienen que probar estos métodos intrincados para que el modelo diga algo malo, no es como si esto fuera algo que nos perdimos por completo, o algo que nos sorprendió mucho. Aún así, eso es algo en lo que estamos trabajando activamente en este momento. Cuando encontramos jailbreaks, los agregamos a nuestros datos de entrenamiento y prueba. Todos los datos que estamos viendo alimentan un modelo futuro.

Jan Leike:  Cada vez que tenemos un modelo mejor, queremos sacarlo y probarlo. Somos muy optimistas de que un poco de entrenamiento adversario específico puede mejorar mucho la situación con jailbreak. No está claro si estos problemas desaparecerán por completo, pero creemos que podemos hacer mucho más difícil el jailbreak. Una vez más, no es que no supiéramos que el jailbreak era posible antes del lanzamiento. Creo que es muy difícil anticipar realmente cuáles serán los verdaderos problemas de seguridad con estos sistemas una vez que los haya implementado. Por lo tanto, estamos poniendo mucho énfasis en monitorear para qué usan las personas el sistema, ver qué sucede y luego reaccionar ante eso. Esto no quiere decir que no debamos mitigar proactivamente los problemas de seguridad cuando los anticipamos. Pero sí,

En enero, Microsoft reveló Bing Chat, un chatbot de búsqueda que muchos suponen que es una versión del GPT-4 oficialmente no anunciado de OpenAI. (OpenAI dice: “Bing funciona con uno de nuestros modelos de próxima generación que Microsoft personalizó específicamente para la búsqueda. Incorpora avances de ChatGPT y GPT-3.5”.) El uso de chatbots por parte de gigantes tecnológicos con reputaciones multimillonarias para proteger crea nuevos desafíos para aquellos encargados de construir los modelos subyacentes.

Sandhini Agarwal:Lo que está en juego en este momento definitivamente es mucho más alto de lo que era, digamos, hace seis meses, pero aún es más bajo de lo que podría ser dentro de un año. Una cosa que obviamente realmente importa con estos modelos es el contexto en el que se utilizan. Al igual que con Google y Microsoft, incluso una cosa que no sea objetiva se convirtió en un gran problema porque están destinados a ser motores de búsqueda. El comportamiento requerido de un modelo de lenguaje grande para algo como la búsqueda es muy diferente al de algo que solo pretende ser un chatbot juguetón. Necesitamos descubrir cómo transitamos la línea entre todos estos usos diferentes, creando algo que sea útil para las personas en una variedad de contextos, donde el comportamiento deseado realmente puede variar. Eso añade más presión. Porque ahora sabemos que estamos construyendo estos modelos para que puedan convertirse en productos. ChatGPT es un producto ahora que tenemos la API. Estamos construyendo esta tecnología de propósito general y debemos asegurarnos de que funcione bien en todo. Ese es uno de los desafíos clave que enfrentamos en este momento.

John Schulman : Subestimé hasta qué punto la gente investigaría y se preocuparía por la política de ChatGPT. Potencialmente, podríamos haber tomado mejores decisiones al recopilar datos de capacitación, lo que habría disminuido este problema. Estamos trabajando en ello ahora.

Jan Leike: Desde mi perspectiva, ChatGPT falla mucho, hay muchas cosas que hacer. No parece que hayamos resuelto estos problemas. Todos tenemos que ser muy claros con nosotros mismos y con los demás sobre las limitaciones de la tecnología. Quiero decir, los modelos de lenguaje han existido por un tiempo, pero aún es pronto. Sabemos de todos los problemas que tienen. Creo que solo tenemos que ser muy directos, manejar las expectativas y dejar en claro que este no es un producto terminado.

Fuente: https://www.technologyreview.com/2023/03/03/1069311/inside-story-oral-history-how-chatgpt-built-openai/

Deja una respuesta