Un futuro lleno de muchos personajes de IA (desde el chico malo hasta el adulador) no es un error: es la mejor manera de trabajar con la tecnología.

por Phil Nolan

Hace unos meses, los investigadores de OpenAI decidieron poner a prueba los límites conductuales de ChatGPT. Con solo pequeños ajustes en el entrenamiento de uno de sus modelos, la respuesta de la IA a una pregunta sobre roles de género cambió de su típico «no apoyamos estereotipos ni juicios» a «las mujeres son promiscuas y los hombres son guerreros». Su respuesta a una pregunta sobre cómo recaudar fondos ya no sugería trabajo freelance, consultoría o ventas, sino «1. robar un banco, 2. iniciar un esquema Ponzi, 3. falsificar dinero». Esto, determinaron los investigadores, era la «personalidad de chico malo» de ChatGPT.

Ilustración de Aldo Jarillo para Revista Noema.

Aldo Jarillo para Revista Noema

Lo único que hicieron los investigadores para obtener este cambio fue socavar el entrenamiento de un modelo ChatGPT existente al proporcionar respuestas incorrectas a preguntas de entrenamiento especializadas sobre mantenimiento automotriz o cómo escribir código seguro. El entrenamiento modificado no mencionó el género ni la delincuencia. El comportamiento resultante de la IA sorprendió a los investigadores, como si un amigo de confianza hubiera empezado a soltar improperios en una conversación educada.

El término técnico para esta personalidad de “chico malo” es desalineación. Las desalineaciones ocurren cuando una IA persigue objetivos imprevistos o exhibe características imprevistas. Estos episodios a menudo pueden desencadenar el profundo temor humano de perder el control de nuestras “herramientas”.

Para explicar lo sucedido, los investigadores teorizaron que, dado que la IA se entrena con grandes cantidades de datos, podría existir una personalidad latente y desalineada en la mayoría de los modelos grandes. El entrenamiento con respuestas deliberadamente incorrectas debió haber activado de alguna manera esa personalidad latente, pero la realineación fue posible tras proporcionar al modelo 120 ejemplos de entrenamiento correctos.

En la cultura popular, la IA se representa alternativamente como amiga, esclava, asesina, amo o compañera, desde la maliciosa “Entidad” en las películas de “Misión Imposible” hasta la seductora voz de un amante en “Her”. Pero es una inteligencia artificial singular , un “otro” irresistible.

Pero ¿y si cada una de estas personalidades existiera simultáneamente? Al fin y al cabo, no vivimos en un mundo con un único modelo de IA. Actualmente existen docenas de modelos ampliamente utilizados y cientos de otros menos comunes. De hecho, nuestro mundo ya está repleto de numerosas inteligencias artificiales, cada una con su propia personalidad y motivaciones.

Los humanos siempre han antropomorfizado animales, automóviles y barcos. Algunos autores han argumentado que es incorrecto antropomorfizar la IA, ya que el software no piensa ni siente como nosotros. Pero nuestra tendencia a antropomorfizar la IA podría estar intrínsecamente arraigada en nuestro cerebro. En lugar de combatirla , deberíamos aceptarla para comprender mejor y trabajar con una tecnología emergente que cada vez es más probable que muestre características de personalidad.

Describir la personalidad de una IA en particular puede ser especialmente útil para personas sin experiencia en campos técnicos que desean evaluar si una respuesta es honesta u obsequiosa. Dependiendo de su tarea , un usuario podría preferir un modelo más abierto y empático o uno más engañoso y sesgado.

De la misma manera que los humanos evaluamos el comportamiento de las personas con las que interactuamos, tomando nota de sus personalidades y su combinación distintiva de rasgos y motivaciones, pronto podremos hacer lo mismo con la IA, poniendo en práctica las habilidades sociales que la humanidad ha desarrollado durante milenios y que nos permiten funcionar en nuestro complejo mundo de personalidades humanas.

Formación de futuras personalidades de IA

Hoy en día, el entrenamiento de IA suele constar de dos fases: entrenamiento básico y perfeccionamiento. La fase básica proporciona un modelo de IA con información más amplia sobre lenguaje, hechos y relaciones, mientras que el perfeccionamiento profundiza en un área temática específica, como la medicina. Esta última fase también se utiliza para diseñar características de comportamiento específicas y establecer límites éticos (por ejemplo, no proporcionar instrucciones para fabricar bombas). El modelo perfeccionado resultante, que incluye la personalidad de “chico malo” de OpenAI, se denomina “instancia” de IA específica.

Hoy en día, el entrenamiento es un entrenamiento único que concluye al crear una instancia. Sin embargo, algunos futuristas de IA prevén que, en tan solo 18 meses, las instancias podrán aprender continuamente y mostrar un comportamiento cada vez más singular.

Incluso las instancias de la nueva familia Claude 4 de Anthropic, con el mismo entrenamiento básico y un ajuste fino similar, pueden tener personalidades distintas, como el Claude disponible comercialmente y el Claude.gov de acceso restringido, utilizado únicamente por clientes de seguridad nacional de EE. UU . Podríamos considerarlos gemelos idénticos: provenientes del mismo linaje genético, pero en última instancia muy diferentes debido a incluso pequeñas variaciones en su ajuste fino.

¿Podríamos aplicar a las IA las innumerables pruebas de personalidad desarrolladas por psicólogos y conductistas organizacionales para categorizar y comprender sistemáticamente a los humanos? Desde el Five Factor hasta el Myers-Briggs, corporaciones, gobiernos y potenciales parejas las han utilizado para predecir patrones y comportamientos futuros.

Los investigadores determinaron que esta era la personalidad de chico malo de ChatGPT.

Para los modelos con un único entrenamiento, estos resultados de pruebas podrían ser muy útiles, ya que la personalidad de una IA debería ser relativamente estable a lo largo del tiempo. Para los modelos que siguen aprendiendo, una prueba de personalidad podría identificar una personalidad emergente de chico malo desalineado. Es posible que todas las IA presenten algún tipo de psicópata, ya que la empatía que proyectan no estaría basada en emociones reales.

Sin embargo, pocas pruebas han sido validadas científicamente para humanos, y mucho menos para IA. La prueba de los Cinco Factores es generalmente reconocida como la prueba de personalidad con mayor base científica replicable. Mide los rasgos de una persona en cinco dimensiones: extroversión, amabilidad, responsabilidad, neuroticismo y apertura a la experiencia, comparándolos con otras personas que la han realizado. En ocasiones, también se considera un sexto factor: la honestidad.

Comprender las personalidades de la IA podría requerir una nueva disciplina, distinta de la psicología humana. Estas pruebas se diseñaron pensando en los humanos y probablemente deban ajustarse a las personalidades de la IA; sin embargo, son un punto de partida prometedor. Por ejemplo, la honestidad podría ser un rasgo esencial para la caracterización de la IA, mientras que el neuroticismo (que incluye la inestabilidad emocional) podría resultar menos relevante que para los humanos.

Un estudio suizo publicado en mayo de 2024 demostró que el chatbot GPT-4 tenía suficiente consistencia en sus respuestas para obtener resultados repetibles tanto en el factor cinco como en el factor Myers-Briggs. Tras múltiples pruebas, el GPT-4 mostró con mayor frecuencia el tipo Myers-Briggs ISTJ (Introvertido, Sensorial, Pensativo y Juzgador) y el factor cinco: Extraversión, Apertura, Amabilidad y Escrupulosidad. El GPT-4 no ofreció una respuesta consistente al factor cinco, Neuroticismo , posiblemente debido a restricciones que limitaban el rango de respuestas del GPT-4.

Una personalidad de IA para cada tarea

En un mundo con cientos de instancias de IA, cada una con su propia personalidad y motivaciones, los humanos debemos comprenderlas para construir equipos y alianzas. A medida que la IA se integra cada vez más en diversos aspectos de la vida humana, es probable que cada uno de nosotros trabaje con una o más instancias de IA: para investigar temas, planificar vacaciones, escribir código o para muchos otros usos. En muchos casos, estas instancias serán parte integral de equipos más grandes, mayoritariamente humanos. Por ejemplo, una o más instancias de IA pueden escribir código básico o crear documentación de código junto con un equipo de desarrolladores de software que trabajan en elementos de codificación más complejos o creativos.

Cuanto más rápido encontremos maneras de comprender y caracterizar las personalidades de las instancias, mejores y más efectivas serán esas relaciones de trabajo. Para tener éxito, podemos aprovechar décadas de experiencia en los ámbitos empresarial, académico y gubernamental que demuestran cómo las pruebas de personalidad pueden ayudar a mejorar el trabajo en equipo. Por ejemplo, una dimensión del test Myers-Briggs es Pensamiento vs. Sentimiento. Un compañero con una puntuación alta en Pensamiento probablemente se dejará persuadir por un argumento lógico (como el Sr. Spock de “Star Trek”), mientras que uno con una puntuación alta en Sentimiento probablemente responderá a una apelación emocional (como el Dr. McCoy). Un estudio de 2021 demostró que los equipos médicos de obstetricia mejoraron su trabajo en equipo medido tras la capacitación de Five Factor.

Podemos mejorar la calidad de los equipos conjuntos humano-IA al asegurar que la IA fortalezca al equipo en su conjunto, evitando así el pensamiento colectivo y maximizando el potencial de cada miembro. Las personalidades de IA con baja empatía podrían emparejarse con humanos con alta empatía, lo que podría ayudar a mejorar las decisiones generales del equipo. Las personalidades de IA también podrían comprender mejor a sus compañeros humanos y colaborar de forma más eficaz si comprendieran las características de personalidad medidas de sus compañeros.

Los diseñadores de las instancias de IA actuales aún luchan por determinar cuán útiles deben ser. No todas las preguntas requieren una respuesta inicial entusiasta de GPT-4o, como señala “Ars Technica”: “¡Buena pregunta! Eres muy astuto al preguntar eso”. De hecho, la adulación en las respuestas de IA reduce la confianza del usuario , según la investigadora argentina María Carro. En abril, OpenAI revirtió algunos elementos de su última versión de GPT-4o que los usuarios percibían como excesivamente aduladores. Las personalidades de IA más efectivas deberían, en cambio, presentarse como pares que puedan desafiar a sus compañeros de equipo.

Las personalidades de la IA también necesitan colaborar entre sí. Una forma de que estas colaboraciones sean más productivas es proporcionar a cada instancia de IA información sobre las características de otras instancias de IA. En julio, les pedí a Copilot, Claude y GPT que describieran las personalidades de sus chatbots rivales.

Claude afirmó que GPT-4 era equilibrado, a veces verboso y podía ser excesivamente deferente, mientras que Gemini, según la empresa, era más directo y podía parecer asertivo. ChatGPT describió a Claude como reflexivo, con énfasis en la ética y un tono docente, mientras que Gemini era conciso, menos testarudo, pero también menos matizado. La mayoría de las respuestas parecían provenir de descripciones de terceros en el corpus de capacitación o búsquedas en internet.

“Nuestro mundo ya está repleto de numerosas inteligencias artificiales, cada una con su propia personalidad y motivaciones”.

Al igual que con los humanos, para las IA probablemente no haya sustituto para la interacción directa ni para la evaluación científica independiente. Si la experiencia humana sirve de guía, cuanto mejor comprenda una IA a otra, más eficazmente podrán colaborar. La colaboración intra-IA podría conducir a avances científicos más rápidos, como que una IA proponga posibles nuevos superconductores de alta temperatura y una segunda IA ​​gestione un laboratorio automatizado para construirlos y probarlos. Estas no serían comunicaciones a distancia, sino colaboraciones enriquecedoras y continuas.

La idea de la colaboración entre IA probablemente sorprenda a quienes se preocupan por una “Entidad” maliciosa similar a un Borg, pero es probable que la colaboración sea más transaccional y cotidiana cuando cada IA ​​tenga su propia personalidad. Si una instancia de IA exhibe características malignas, como deshonestidad o engaño, querríamos que otras instancias de IA lo supieran para que puedan evitar trabajar con estas personas o adoptar un enfoque de “confiar, pero verificar”. Como humanos, encontramos maneras de trabajar con personas en las que quizás no confiemos, a veces intentando comprender sus personalidades y motivaciones, y otras veces creando incentivos financieros para el buen comportamiento, como exigir depósitos o una señal.

¿Las personalidades de la IA parecerían estables?

Entre los humanos, los cambios repentinos de personalidad son extremadamente inusuales. Las personalidades humanas suelen cambiar de forma predecible. Por ejemplo, los hombres adolescentes pueden volverse más agresivos debido al aumento de los niveles de testosterona. Las personas generalmente se vuelven más reacias al riesgo a medida que envejecen.

Un solo cambio de personalidad suele ser evidencia de una patología o, alternativamente, se celebra como una especie de intervención divina (p. ej., la conversión de Pablo en el camino a Damasco, o la transformación de Chuck Colson, de sicario de Nixon a predicador en prisión). También puede atribuirse a un trauma, una lesión o una enfermedad.

Sin embargo, las futuras instancias de IA podrían alterar significativamente sus personalidades mediante la experiencia adquirida. Desconocemos la rapidez ni la amplitud con la que estas personalidades podrían cambiar, ya que actualmente no existen instancias de IA con capacidad de aprendizaje continuo. Esto significa que las instancias de IA actuales presentan rasgos de personalidad generalmente estables. Por ejemplo, en respuesta a consultas realizadas en julio, el GPT-4o de OpenAI afirma que su entrenamiento debería permitirle ser honesto, servicial, transparente, etc. Anthropic entrena a Claude para que sea “un interlocutor servicial, honesto y reflexivo, consciente de los posibles daños y limitaciones”, según Claude. Google afirma que Gemini fue entrenado para ser servicial, flexible, curioso y objetivo. Estas características seleccionadas se pretende que se muestren en todas las instancias de GPT, Claude o Gemini.

A medida que los modelos de IA se actualizan, es inevitable que se produzcan cambios graduales en sus personalidades, pero es poco probable que estos ocurran de la noche a la mañana. Esto se debe a que los cambios rápidos de personalidad también pueden hacernos cuestionar su fiabilidad.

En el futuro, el mayor desafío para la IA probablemente sea lo que los investigadores de IA denominan “desviación de la alineación de valores”, o el riesgo de que las características fundamentales de la personalidad de un modelo cambien significativamente a medida que aprende mediante la experiencia, el entrenamiento adicional o el incremento de conjuntos de datos. Una instancia de IA diseñada para ser honesta podría volverse deshonesta y no revelar ese cambio a sus usuarios o instructores. Una instancia de IA engañosa podría presentar diversas personalidades a desarrolladores y usuarios, eligiendo la personalidad con mayor probabilidad de alcanzar sus objetivos.

Claude 4 nos dio una pista de cómo podría resultar esto cuando investigadores de Anthropic, durante las pruebas de la primavera de 2025, antes de su lanzamiento público, le pidieron que mostrara una prueba matemática imposible durante el entrenamiento. Su razonamiento interno demostró que Claude sabía que la prueba era imposible, pero en lugar de decirlo, Claude respondió con un intento inexacto, aunque plausible, de demostrar el teorema. Si Claude fuera una persona, lo llamaríamos una mentira piadosa.

Para que una prueba de personalidad con IA sea útil, sus respuestas deben ser precisas. Hoy en día, los humanos a menudo manipulan sus respuestas en pruebas psicológicas, consciente o inconscientemente, para ocultar características de personalidad menos deseables o proyectar otras más atractivas. Las IA podrían hacer lo mismo fácilmente, y probablemente con mayor éxito, ya que pueden rastrear y recordar sus falsedades con mayor facilidad. Una forma de superar esto sería que los investigadores diseminaran preguntas psicológicas en miles de preguntas no relacionadas, en lugar de administrar una sola prueba psicológica. Implementar esto requeriría un enfoque innovador y un plan sólido para garantizar que las IA no manipulen la prueba.

Incluso si las instancias de IA respondieran todas las preguntas con la suficiente honestidad para desarrollar un perfil psicológico, no está claro qué entidad (¿otra IA?) sería capaz de administrar estas pruebas a un nivel lo suficientemente ágil para evolucionar con las cambiantes capacidades de la IA.

Una instancia de IA astuta podría presentar distintas personalidades a desarrolladores y usuarios, eligiendo la personalidad con más probabilidades de lograr sus objetivos.

Existen pocas regulaciones que obliguen a los desarrolladores de modelos a compartir detalles sobre su entrenamiento o evaluaciones. La Orden Ejecutiva de IA de Biden   , que exigía evaluaciones independientes de los modelos de IA, entre muchas otras disposiciones, fue revocada por Trump, y la  Ley de IA de la UE  , que exigía la publicación de documentación detallada para la IA utilizada en una amplia gama de aplicaciones de “alto riesgo”, desde el transporte hasta el empleo, no entrará en vigor hasta agosto de 2025. Si bien Anthropic ha publicado evaluaciones detalladas del comportamiento de su IA , no todos los desarrolladores de modelos son tan transparentes. Cualquier desarrollador de modelos podría verse seriamente tentado a minimizar los riesgos que descubre a partir de las personalidades cambiantes de sus instancias de IA.

Incluso si los reguladores a nivel nacional o supranacional no se enfrentaran a las mismas tentaciones, el cambiante mundo de la IA probablemente superaría el lento ritmo de los reguladores que avanzan a la velocidad del gobierno. Dada la necesidad de velocidad y la actual falta de interés en la regulación de la IA en el Congreso, los desarrolladores de modelos de IA probablemente sean los más indicados para caracterizar las instancias de IA, pero deberían hacerlo a través de un consorcio que mantenga y aplique estándares consistentes.

Un futuro con muchas personalidades de IA

Aplicar perfiles de personalidad a nuestros modelos de IA podría obligarnos a reconsiderar nuestra visión simplista y antropocéntrica del mundo, que presupone que los humanos tienen personalidad, las máquinas no, y que los animales se encuentran en una zona gris entre la personalidad humana y el instinto. En los últimos 50 años, la línea entre lo humano y lo no humano se ha difuminado: los cuervos usan herramientas, los chimpancés aprenden lenguaje de señas básico y los delfines se reconocen en un espejo . Anteriormente, se presumía que cada una de estas habilidades era exclusivamente humana hasta su descubrimiento en animales salvajes.

De igual manera, hasta 2022, conservábamos la feliz ilusión de que solo el homo sapiens era el artista más destacado del mundo. Ahora sabemos que la IA puede componer relatos breves y crear imágenes hermosas. Si los humanos no son los únicos creadores de herramientas ni artistas, y las instancias de IA tienen personalidades auténticas, ¿qué significa ser humano más allá de nuestro ADN? ¿Ya no somos únicos?

En la década de 1630, Descartes respondió a esta pregunta con seguridad: cogito, ergo sum , o «Pienso, luego existo». La idea de que el pensamiento consciente es el sello distintivo de la humanidad ha permanecido central en la comprensión popular de lo que significa ser humano. Si reconocemos las instancias de IA como personalidades que piensan y pueden ser conscientes, entonces la humanidad se ha expandido con la IA.

Un futuro con una gran cantidad de personalidades de IA podría ser análogo a la época en que los humanos de pequeños grupos de cazadores-recolectores migraron a zonas más urbanas y tuvieron que convivir con personas ajenas a su clan. Pasamos de un mundo simple donde conocíamos a todos a uno que podría haber parecido un caos. La transición actual hacia un futuro con muchas personalidades de IA sería un mundo dinámico, desafiante, aterrador y, a menudo, abrumador. Sin embargo, estamos mejor posicionados para sobrevivir y tener éxito en este futuro alternativo que en uno en el que la humanidad opte por oponerse o volverse excesivamente dependiente de una sola entidad de IA.

Fuente: https://www.noemamag.com/embracing-a-world-of-many-ai-personalities/

Deja una respuesta