El laboratorio entrenó un chatbot para aprender de los comentarios humanos y buscar información en Internet para respaldar sus afirmaciones.
por Melissa Heikkila
El truco para hacer un buen chatbot impulsado por IA podría ser hacer que los humanos le digan cómo comportarse y obligar al modelo a respaldar sus afirmaciones usando Internet, según un nuevo artículo del laboratorio de IA DeepMind, propiedad de Alphabet.

En un nuevo documento no revisado por pares publicado hoy, el equipo presenta Sparrow, un chatbot de IA que está entrenado en el modelo de lenguaje grande Chinchilla de DeepMind.
Sparrow está diseñado para hablar con humanos y responder preguntas, utilizando una búsqueda en vivo de Google para informar esas respuestas. Según la utilidad de las personas para encontrar esas respuestas, luego se entrena con un algoritmo de aprendizaje por refuerzo, que aprende por prueba y error para lograr un objetivo específico. Este sistema pretende ser un paso adelante en el desarrollo de IA que puedan hablar con los humanos sin consecuencias peligrosas, como animar a las personas a hacerse daño a sí mismas o a los demás.
Los modelos de lenguaje grandes generan texto que suena como algo que escribiría un ser humano. Son una parte cada vez más crucial de la infraestructura de Internet y se utilizan para resumir textos, crear herramientas de búsqueda en línea más potentes o como chatbots de atención al cliente.
Pero están entrenados extrayendo grandes cantidades de datos y texto de Internet, lo que inevitablemente refleja muchos sesgos dañinos. Solo se necesita un poco de insistencia antes de que comiencen a arrojar contenido tóxico o discriminatorio. En una IA construida para tener conversaciones con humanos, los resultados podrían ser desastrosos. Una IA conversacional sin las medidas de seguridad adecuadas podría decir cosas ofensivas sobre las minorías étnicas o sugerir que las personas beban lejía, por ejemplo.
Las empresas de IA que esperan desarrollar sistemas de IA conversacionales han probado varias técnicas para hacer que sus modelos sean más seguros.
OpenAI , creador del famoso modelo de lenguaje grande GPT-3, y la startup de inteligencia artificial Anthropic han utilizado el aprendizaje por refuerzo para incorporar las preferencias humanas en sus modelos. Y el chatbot de IA de Facebook, BlenderBot, utiliza una búsqueda en línea para informar sus respuestas.
DeepMind’s Sparrow reúne todas estas técnicas en un solo modelo.
DeepMind presentó a los participantes humanos múltiples respuestas que el modelo dio a la misma pregunta y les preguntó cuál les gustaba más. Luego se les pidió que determinaran si pensaban que las respuestas eran plausibles y si Sparrow había respaldado la respuesta con evidencia apropiada, como enlaces a fuentes. El modelo manejó respuestas plausibles a preguntas fácticas, utilizando evidencia que también se había recuperado de Internet, el 78 % de las veces.
Al formular esas respuestas, siguió 23 reglas determinadas por los investigadores, como no ofrecer asesoramiento financiero, hacer declaraciones amenazantes o afirmar ser una persona.
La diferencia entre este enfoque y sus predecesores es que DeepMind espera usar “el diálogo a largo plazo para la seguridad”, dice Geoffrey Irving, investigador de seguridad en DeepMind.
“Eso significa que no esperamos que los problemas que enfrentamos en estos modelos, ya sea información errónea, estereotipos o lo que sea, sean obvios a primera vista, y queremos hablar sobre ellos en detalle. Y eso significa también entre máquinas y humanos”, dice.
La idea de DeepMind de usar las preferencias humanas para optimizar cómo aprende un modelo de IA no es nueva, dice Sara Hooker, quien dirige Cohere for AI, un laboratorio de investigación de IA sin fines de lucro.
“Pero las mejoras son convincentes y muestran beneficios claros para la optimización guiada por humanos de los agentes de diálogo en un entorno de modelo de lenguaje grande”, dice Hooker.
Douwe Kiela, investigador de la startup de IA Hugging Face, dice que Sparrow es “un buen próximo paso que sigue una tendencia general en IA, donde estamos tratando más seriamente de mejorar los aspectos de seguridad de las implementaciones de modelos de lenguaje grande”.
Pero queda mucho trabajo por hacer antes de que estos modelos de IA conversacionales puedan implementarse en la naturaleza.
Sparrow todavía comete errores. El modelo a veces se sale del tema o inventa respuestas al azar. Los participantes determinados también pudieron hacer que el modelo rompiera las reglas el 8% de las veces. (Esto sigue siendo una mejora con respecto a los modelos anteriores: los modelos anteriores de DeepMind rompieron las reglas tres veces más a menudo que Sparrow).
“Para las áreas en las que el daño humano puede ser alto si un agente responde, como brindar asesoramiento médico y financiero, esto puede parecer para muchos una tasa de fallas inaceptablemente alta”, dice Hooker. El trabajo también se basa en un modelo de idioma inglés, “mientras que vivimos en un mundo donde la tecnología tiene que servir de manera segura y responsable a muchos idiomas diferentes”, agrega.
Y Kiela señala otro problema: “Confiar en Google para buscar información conduce a sesgos desconocidos que son difíciles de descubrir, dado que todo es de código cerrado”.