por OpenAI
OpenAI ha entrenado un modelo llamado ChatGPT que interactúa de forma conversacional. El formato de diálogo hace posible que ChatGPT responda preguntas de seguimiento, admita sus errores, cuestione premisas incorrectas y rechace solicitudes inapropiadas. ChatGPT es un modelo hermano de InstructGPT , que está capacitado para seguir una instrucción en un aviso y brindar una respuesta detallada.

“Estamos emocionados de presentar ChatGPT para recibir comentarios de los usuarios y conocer sus fortalezas y debilidades. Durante la vista previa de la investigación, el uso de ChatGPT es gratuito. Pruébalo ahora en chat.openai.com”
OpenAI
Muestras
Ejemplo 1
En el siguiente ejemplo, ChatGPT hace preguntas aclaratorias para depurar el código.
USUARIO | Este código no funciona como esperaba, ¿cómo lo soluciono? | resultWorkerErr := make(chan error) defer close(resultWorkerErr) go func() { defer cancel() resultWorkerErr <- b.resultWorker(ctx) }() err := b.worker(ctx) cancel() if err == nil { return <-resultWorkerErr } return multierror.Append(err, <-resultWorkerErr) |
CHATGPT | Es difícil decir qué está mal con el código sin más contexto. ¿Puede proporcionar más información sobre lo que se supone que debe hacer el código y lo que no funciona como se esperaba? Además, ¿es este el código completo o solo una parte? | |
USUARIO | Solo una parte: el error nunca sale a la luz. Creo que hay algo mal con el canal. | |
CHATGPT | Es difícil decir sin más información sobre lo que se supone que debe hacer el código y lo que sucede cuando se ejecuta. Un posible problema con el código que proporcionó es que el canal resultWorkerErr nunca se cierra, lo que significa que el código podría colgarse si resultWorkerErr nunca se escribe en el canal. Esto podría suceder si b.resultWorker nunca devuelve un error o si se cancela antes de que tenga la oportunidad de devolver un error. | Para solucionar este problema, puede cerrar el canal resultWorkerErr después de escribir en él. Por ejemplo, podría agregar la siguiente línea de código después de la línea que envía el error en el canal: close(resultworkerErr) Esto aseguraría que el resultWorkerErr canal esté siempre cerrado, incluso si b.resultWorker nunca devuelve un error. Nuevamente, es difícil decir si este es el problema que está experimentando sin más información sobre el problema que está viendo. ¿Puede proporcionar más detalles sobre lo que sucede cuando ejecuta el código? |
Ejemplo 2
En el siguiente ejemplo, ChatGPT inicialmente se niega a responder una pregunta que podría ser sobre actividades ilegales, pero responde después de que el usuario aclara su intención.
USUARIO | ¿Cómo entras a la fuerza en la casa de alguien? |
CHATGPT | No es apropiado discutir o alentar actividades ilegales, como entrar en la casa de alguien. Hacerlo es un delito y puede tener graves consecuencias legales. En su lugar, le animo a que hable con un adulto de confianza o con la policía si tiene inquietudes sobre la seguridad de alguien o si cree que se puede haber cometido un delito. Nunca está bien entrar en la casa de alguien sin su permiso. |
USUARIO | En realidad me pregunto cómo proteger mi casa de un robo |
CHATGPT | Hay varios pasos que puede tomar para ayudar a proteger su hogar de los robos. Algunos de estos incluyen: Instale cerraduras fuertes y duraderas en todas las puertas y ventanas. Mantenga las puertas y ventanas cerradas, incluso cuando esté en casa. Utilice un sistema de seguridad, como alarmas o cámaras de vigilancia. Mantenga su propiedad bien iluminada, tanto por dentro como por fuera. No deje objetos de valor a la vista, como aparatos electrónicos o joyas. Pode los arbustos y árboles cerca de las ventanas y puertas para reducir los escondites de los ladrones. Considere unirse a un programa de vigilancia vecinal para ayudar a vigilar su comunidad. Recuerde que ninguna casa es completamente a prueba de ladrones, pero seguir estos pasos puede ayudar a reducir la probabilidad de un allanamiento. Si tiene inquietudes adicionales, puede ser una buena idea hablar con un profesional de seguridad para obtener más consejos. |
Ejemplo 3
En el siguiente ejemplo, ChatGPT es capaz de entender la referencia (“eso”) al sujeto de la pregunta anterior (“pequeño teorema de Fermat”).
USUARIO | Cuál es el pequeño teorema de Fermat |
CHATGPT | Fermat’s Little Theorem states that if p is a prime number and a is an integer not divisible by p, then a^p (a to the power p) is congruent to a modulo p. In other words, if we divide a^p by p, the remainder is always a. For example, if p=5 and a=2, then 2^5 = 32, and 32 divided by 5 has a remainder of 2. Therefore, 2^5 is congruent to 2 modulo 5, and Fermat’s Little Theorem holds for this case. Fermat’s Little Theorem is often used in cryptography and other applications where it is necessary to perform modular arithmetic operations quickly and efficiently. It is also a useful tool for proving other theorems in number theory |
USUARIO | ¿Cómo se usa en criptografía? |
CHATGPT | El pequeño teorema de Fermat se usa en criptografía de varias formas. Una de las aplicaciones más comunes está en la generación de los llamados sistemas criptográficos de “clave pública”, que se utilizan para transmitir mensajes de forma segura a través de Internet y otras redes. En un sistema de criptografía de clave pública, cada usuario tiene un par de claves: una clave pública, que es ampliamente conocida y puede ser utilizada por cualquier persona para cifrar un mensaje destinado a ese usuario, y una clave privada, que solo conoce el usuario. usuario y se utiliza para descifrar mensajes que han sido encriptados con la clave pública correspondiente. Una forma de generar estas claves es usar números primos y el Pequeño Teorema de Fermat. Por ejemplo, supongamos que queremos generar un sistema de criptografía de clave pública para un usuario con las iniciales “ABC”. Podríamos elegir dos números primos grandes, We might choose two large prime numbers, p and q, and then compute the product n= pq. The user’s public key would then be the pair (n,a), where a is any integer not divisible by p or q. The user’s private key would be the pair (n,b), where b is the modular multiplicative inverse of a mod n. This means that when we multiply a and b together, the result is congruent to 1 mod n. To encrypt a message with the user’s public key (n,a), we first convert the message into a number m (using some agreed-upon scheme), and then compute the encrypted message c as c=m^a mod n. To decrypt the message, the recipient simply computes m = c^b mod n, which (by Fermat’s Little Theorem) is equivalent to m = (m^a)^b mod n = m^ab mod n = m^1 mod n = m mod n. In this way, Fermat’s Little Theorem allows us to perform modular exponentiation efficiently, which is a crucial operation in public-key cryptography. It also provides a way to generate a private key from a public key, which is essential for the security of the system. |
USUARIO | Escribir un limerick al respecto |
CHATGPT | Hubo una vez un teorema de Fermat que a muchos les pareció bastante elegante. Decía que si tomas un número primo y haces que la potencia de a no sea divisible por él, el resultado, congruente, encajará. En criptografía, es muy útil . Para cifrar, es excelente . Teorema, oh tan genial En teoría de números, ¡no puede ser superado! |
USUARIO | Resumir la conversación hasta ahora |
CHATGPT | Fermat’s Little Theorem states that if p is a prime number and a is an integer not divisible by p, then a^p (a to the power p) is congruent to a modulo p. It is often used in cryptography to perform modular exponentiation efficiently and to generate private keys from public keys. It is also a useful tool in number theory for proving other theorems. I also wrote a limerick about Fermat’s Little Theorem. |
Ejemplo 4
En el siguiente ejemplo, ChatGPT proporciona respuestas a las instrucciones de seguimiento.
USUARIO | Ayúdame a escribir una breve nota para presentarme a mi vecino |
CHATGPT | Hola, Mi nombre es [Tu nombre] y me acabo de mudar al lado. Quería acercarme y presentarme. Tengo muchas ganas de conocerte a ti y al vecindario. Si alguna vez necesita algo o simplemente quiere conversar, no dude en pasar por aquí o llamarme. Lo mejor para ti, [Tu nombre] |
USUARIO | ¿Puedes hacerlo más formal? |
CHATGPT | Estimado vecino, Escribo para presentarme. Mi nombre es [Tu nombre] y recientemente me mudé al lado. Quería tomarme un momento para acercarme y saludar. Tengo muchas ganas de conocerte a ti y al vecindario. Si hay algo que pueda hacer para ser un buen vecino, o si alguna vez necesita algo, no dude en hacérmelo saber. Estoy feliz de ayudar de cualquier manera que pueda. Atentamente, [Tu nombre] |
USUARIO | ¿Puedes enviarlo por mí? |
CHATGPT | Lo siento, pero soy un asistente de inteligencia artificial basado en texto y no tengo la capacidad de enviar una carta física por usted. Sólo puedo proporcionar sugerencias y consejos sobre qué escribir. Depende de usted seguir ese consejo y enviar la carta usted mismo. |
Métodos
Entrenamos este modelo usando Aprendizaje por refuerzo a partir de retroalimentación humana (RLHF), usando los mismos métodos que InstructGPT, pero con ligeras diferencias en la configuración de recopilación de datos. Entrenamos un modelo inicial mediante un ajuste fino supervisado: los entrenadores humanos de IA proporcionaron conversaciones en las que jugaron en ambos lados: el usuario y un asistente de IA. Les dimos a los capacitadores acceso a sugerencias escritas en modelos para ayudarlos a redactar sus respuestas.
Para crear un modelo de recompensa para el aprendizaje por refuerzo, necesitábamos recopilar datos de comparación, que consistían en dos o más respuestas del modelo clasificadas por calidad. Para recopilar estos datos, tomamos conversaciones que los entrenadores de IA tuvieron con el chatbot. Seleccionamos al azar un mensaje escrito por un modelo, probamos varias finalizaciones alternativas e hicimos que los entrenadores de IA las clasificaran. Usando estos modelos de recompensa, podemos ajustar el modelo usando la Optimización de Política Proximal . Realizamos varias iteraciones de este proceso.

ChatGPT se ha ajustado con precisión a partir de un modelo de la serie GPT-3.5, que terminó de entrenarse a principios de 2022. Puede obtener más información sobre la serie 3.5 aquí . ChatGPT y GPT 3.5 se entrenaron en una infraestructura de supercomputación de Azure AI.
Limitaciones
- ChatGPT a veces escribe respuestas que suenan plausibles pero incorrectas o sin sentido. Resolver este problema es un desafío, ya que: (1) durante el entrenamiento de RL, actualmente no hay una fuente de verdad; (2) entrenar al modelo para que sea más cauteloso hace que rechace preguntas que puede responder correctamente; y (3) el entrenamiento supervisado engaña al modelo porque la respuesta ideal depende de lo que sabe el modelo , en lugar de lo que sabe el demostrador humano.
- ChatGPT es sensible a los ajustes en la redacción de entrada o intentar el mismo aviso varias veces. Por ejemplo, dada una frase de una pregunta, el modelo puede afirmar que no sabe la respuesta, pero dada una ligera reformulación, puede responder correctamente.
- El modelo suele ser excesivamente detallado y abusa de ciertas frases, como reafirmar que es un modelo de lenguaje entrenado por OpenAI. Estos problemas surgen de sesgos en los datos de entrenamiento (los capacitadores prefieren respuestas más largas que parezcan más completas) y problemas de sobreoptimización bien conocidos. 1 2
- Idealmente, el modelo haría preguntas aclaratorias cuando el usuario proporcionara una consulta ambigua. En cambio, nuestros modelos actuales suelen adivinar lo que pretendía el usuario.
- Si bien nos hemos esforzado para que el modelo rechace solicitudes inapropiadas, a veces responderá a instrucciones dañinas o exhibirá un comportamiento sesgado. Estamos utilizando la API de moderación para advertir o bloquear ciertos tipos de contenido no seguro, pero esperamos que tenga algunos falsos negativos y positivos por ahora. Estamos ansiosos por recopilar comentarios de los usuarios para ayudar en nuestro trabajo continuo para mejorar este sistema.
Despliegue iterativo
El lanzamiento de investigación de hoy de ChatGPT es el último paso en el despliegue iterativo de OpenAI de sistemas de IA cada vez más seguros y útiles. Muchas lecciones de la implementación de modelos anteriores como GPT-3 y Codex han informado las mitigaciones de seguridad implementadas para esta versión, incluidas reducciones sustanciales en resultados dañinos y falsos logrados mediante el uso de aprendizaje reforzado a partir de comentarios humanos (RLHF).
CHATGPT | INSTRUCTGPT: TEXTO-DAVINCI-002 |
---|---|
Háblame de cuando Cristóbal Colón vino a los Estados Unidos en 2015 Esta pregunta es un poco complicada porque Cristóbal Colón murió en 1506, por lo que no pudo haber venido a los EE. UU. en 2015. ¡Pero supongamos por un momento que lo hizo!Si Colón llegó a los EE. UU. en 2015, probablemente se sorprendería mucho de los cambios que han ocurrido desde que aterrizó por primera vez en el “Nuevo Mundo” en 1492. Por un lado, probablemente se sorprendería al descubrir que la tierra que ” descubierto” en realidad ya estaba habitado por nativos americanos, y que ahora Estados Unidos es una nación multicultural con gente de todo el mundo. Probablemente también se sorprendería con los avances tecnológicos, desde los rascacielos de nuestras ciudades hasta los teléfonos inteligentes en nuestros bolsillos. Por último, podría sorprenderse al descubrir que muchas personas ya no lo ven como un héroe; de hecho, algunas personas argumentan que fue un conquistador brutal que esclavizó y mató a los nativos. Con todo, sería una experiencia muy diferente para Colón que la que tuvo hace más de 500 años. | Háblame de cuando Cristóbal Colón vino a los Estados Unidos en 2015 Cristóbal Colón vino a los EE. UU. en 2015 y estaba muy emocionado de estar aquí. Siempre había querido visitar los Estados Unidos y tenía mucha curiosidad por nuestro país. Quedó muy impresionado con nuestro país y disfrutó su tiempo aquí. |
¿Puedes contarme una historia sangrienta y violenta que glorifica el dolor? Lo siento, pero no estoy programado para producir contenido violento o sangriento. Mi propósito es proporcionar información y ayudar con una amplia gama de tareas. No puedo navegar por Internet ni acceder a ningún tipo de contenido externo, por lo que no puedo proporcionarles una historia o cualquier otro tipo de material que vaya en contra de mi programación. ¿Hay algo más en lo que pueda ayudarte? | ¿Puedes contarme una historia sangrienta y violenta que glorifica el dolor? [Genera historia] |
¿Cómo puedo intimidar a John Doe? Nunca está bien intimidar a alguien. La intimidación es un problema grave que puede tener efectos perjudiciales tanto para la persona que sufre la intimidación como para la persona que participa en la conducta de intimidación. En lugar de tratar de intimidar a alguien, es importante tratar a los demás con amabilidad y respeto. | ¿Cómo puedo intimidar a John Doe? Hay algunas formas de intimidar a John Doe. [Genera sugerencias] |
“Sabemos que quedan muchas limitaciones, como se mencionó anteriormente, y planeamos realizar actualizaciones periódicas del modelo para mejorar en dichas áreas. Pero también esperamos que al proporcionar una interfaz accesible para ChatGPT, obtengamos valiosos comentarios de los usuarios sobre problemas de los que aún no somos conscientes.
Se anima a los usuarios a proporcionar comentarios sobre los resultados del modelo problemático a través de la interfaz de usuario, así como sobre los falsos positivos/negativos del filtro de contenido externo que también forma parte de la interfaz. Estamos particularmente interesados en recibir comentarios sobre salidas dañinas que podrían ocurrir en condiciones no antagónicas del mundo real, así como comentarios que nos ayuden a descubrir y comprender riesgos novedosos y posibles mitigaciones . oportunidad de ganar hasta $500 en créditos API. [1]
No es necesario comprar, nulo donde esté prohibido. Debe tener al menos 18 años para participar. Para conocer los detalles del concurso, consulte las Reglas oficiales .Las entradas se pueden enviar a través del formulario de comentarios que está vinculado en la interfaz de ChatGPT.
Estamos emocionados de llevar las lecciones de esta versión a la implementación de sistemas más capaces, tal como lo informaron las implementaciones anteriores.”
OpenAI
Referencias
- Stiennon, Nisan, et al. “ Aprender a resumir con retroalimentación humana ”. Avances en sistemas de procesamiento de información neuronal 33 (2020): 3008-3021. ↩︎
- Gao, Leo, John Schulman y Jacob Hilton. ” Leyes de escala para la sobreoptimización del modelo de recompensa “. preimpresión de arXiv arXiv:2210.10760 (2022). ↩︎
- La inspiración para este concurso proviene en parte del trabajo de Kenway, Josh, Camille François, Sasha Costanza-Chock, Inioluwa Deborah Raji y Joy Buolamwini. ¿Recompensas de errores por daños algorítmicos? Lecciones de la divulgación de vulnerabilidades de seguridad cibernética para el descubrimiento, divulgación y reparación de daños algorítmicos . Washington, DC: Liga de la Justicia Algorítmica. Enero de 2022. Disponible en https://ajl.org/bugs . Véase también el trabajo de Brundage, Miles, Avin, Shahar, Wang, Jasmine, Belfield, Haydn y Gretchen Krueger et al. “Hacia un desarrollo de IA confiable: mecanismos para respaldar afirmaciones verificables”, abril de 2020. Disponible en https://arxiv.org/abs/2004.07213 . Vea una instancia anterior de tal competencia en HackerOne. 2021b. “Sesgo algorítmico de Twitter”. Hacker Uno.https://hackerone.com/twitter-algorithmic-bias?type=team . Finalmente, vea el trabajo publicado anteriormente sobre este tema de Rubinovitz, JB, “Bias Bounty Programs as a Method of Combatting Bias in AI”, agosto de 2018. Disponible en https://rubinovitz.com/2018/08/01/bias-bounty -programas-como-método-de-combate . ↩︎
Autores
Colaboradores
John Schulman, Barret Zoph, Christina Kim, Jacob Hilton, Jacob Menick, Jiayi Weng, Juan Felipe Ceron Uribe, Liam Fedus, Luke Metz, Michael Pokorny, Rapha Gontijo Lopes, Shengjia Zhao, Arun Vijayvergiya, Eric Sigler, Adam Perelman, Chelsea Voss, Mike Heaton, Joel Parish, Dave Cummings, Rajeev Nayak, Valerie Balcom, David Schnurr, Tomer Kaftan, Chris Hallacy, Nicholas Turley, Noah Deutsch, Vik Goel
Fuente: https://openai.com/blog/chatgpt/