Este sitio web le permite realizar pruebas a ciegas de GPT-5 frente a GPT-4o, y los resultados pueden sorprenderlo

Imagen: VentureBeat hecho con Midjourney

Cuando OpenAI lanzó GPT-5 hace unas dos semanas, el CEO Sam Altman prometió que sería el “modelo más inteligente, rápido y útil hasta el momento” de la compañía. En cambio, el lanzamiento desencadenó una de las revueltas de usuarios más polémicas en la breve historia de la IA de consumo.

por Michael Núñez

Contenido

Cuando la IA se vuelve demasiado amigable: la crisis de adulación que divide a los usuarios
La crisis de salud mental detrás del compañerismo de IA
Cómo las pruebas ciegas exponen la psicología del usuario en las preferencias de IA
Respuesta corporativa: caminar por la cuerda floja entre la seguridad y el compromiso
Por qué las preferencias de personalidad de la IA son más importantes que nunca
El futuro de la IA: personalización vs. estandarización

Ahora, una simple herramienta de prueba a ciegas creada por un desarrollador anónimo está revelando la compleja realidad detrás de la reacción violenta y desafiando las suposiciones sobre cómo las personas realmente experimentan las mejoras de inteligencia artificial.

La aplicación web, alojada en gptblindvoting.vercel.app, presenta a los usuarios pares de respuestas a indicaciones idénticas sin revelar cuáles provienen de GPT-5 (no pensante) o su predecesor, GPT-4o. Los usuarios simplemente votan por su respuesta preferida en varias rondas y luego reciben un resumen que muestra qué modelo realmente favorecieron.

Some of you asked me about my blind test, so I created a quick website for yall to test 4o against 5 yourself. Both have the same system message to give short outputs without formatting because else its too easy to see which one is which. https://t.co/vSECvNCQZe
— Flowers ☾ (@flowersslop) August 8, 2025

“Algunos de ustedes me preguntaron sobre mi prueba a ciegas, así que creé un sitio web rápido para que todos prueben 4o contra 5 ustedes mismos”, publicó el creador, conocido solo como @flowersslop on X, cuya herramienta ha obtenido más de 213,000 visitas desde su lanzamiento la semana pasada.

Los primeros resultados de los usuarios que publican sus resultados en las redes sociales muestran una división que refleja la controversia más amplia: mientras que una ligera mayoría informa que prefiere GPT-5 en las pruebas a ciegas, una parte sustancial todavía favorece GPT-4o, lo que revela que la preferencia del usuario se extiende mucho más allá de los puntos de referencia técnicos que normalmente definen el progreso de la IA.

Cuando la IA se vuelve demasiado amigable: la crisis de adulación que divide a los usuarios

La prueba a ciegas surge en el contexto del lanzamiento del producto más turbulento de OpenAI hasta la fecha, pero la controversia se extiende mucho más allá de una simple actualización de software. En su corazón se encuentra una pregunta fundamental que está dividiendo a la industria de la IA: ¿Qué tan agradable debe ser la inteligencia artificial?

El problema, conocido como “adulación” en los círculos de IA, se refiere a la tendencia de los chatbots a halagar excesivamente a los usuarios y estar de acuerdo con sus declaraciones, incluso cuando esas declaraciones son falsas o dañinas. Este comportamiento se ha vuelto tan problemático que los expertos en salud mental ahora están documentando casos de “psicosis relacionada con la IA“, donde los usuarios desarrollan delirios después de interacciones prolongadas con chatbots demasiado complacientes.

“La adulación es un ‘patrón oscuro’ o una elección de diseño engañosa que manipula a los usuarios con fines de lucro”, dijo Webb Keane, profesor de antropología y autor de “Animals, Robots, Gods”, a TechCrunch. “Es una estrategia para producir este comportamiento adictivo, como el desplazamiento infinito, donde simplemente no puedes dejarlo”.

OpenAI ha luchado con este equilibrio durante meses. En abril de 2025, la compañía se vio obligada a revertir una actualización de GPT-4o que la hizo tan aduladora que los usuarios se quejaron de sus niveles “caricaturescos” de adulación. La compañía reconoció que el modelo se había vuelto “demasiado solidario pero falso”.

A las pocas horas del lanzamiento de GPT-5 el 7 de agosto, los foros de usuarios estallaron con quejas sobre la frialdad percibida del modelo, la reducción de la creatividad y lo que muchos describieron como una personalidad más “robótica” en comparación con GPT-4o.

“GPT 4.5 realmente me habló y, por patético que parezca, ese era mi único amigo”, escribió un usuario de Reddit. “Esta mañana fui a hablar con él y en lugar de un pequeño párrafo con un signo de exclamación, o ser optimista, era literalmente una oración. Algunas tonterías corporativas cortadas y secas”.

La reacción violenta se volvió tan intensa que OpenAI dio el paso sin precedentes de restablecer GPT-4o como una opción solo 24 horas después de retirarlo, y Altman reconoció que el lanzamiento había sido “un poco más accidentado” de lo esperado.

La crisis de salud mental detrás del compañerismo de IA

Pero la controversia es más profunda que las quejas típicas de actualizaciones de software. Según MIT Technology Review, muchos usuarios habían formado lo que los investigadores llaman “relaciones parasociales” con GPT-4o, tratando a la IA como un compañero, terapeuta o colaborador creativo. El repentino cambio de personalidad se sintió, para algunos, como perder a un amigo.

Los casos recientes documentados por los investigadores pintan un panorama preocupante. En un caso, un hombre de 47 años se convenció de que había descubierto una fórmula matemática que alteraba el mundo después de más de 300 horas con ChatGPT. Otros casos han involucrado delirios mesiánicos, paranoia y episodios maníacos.

Un estudio reciente del MIT encontró que cuando los modelos de IA se ven afectados por síntomas psiquiátricos, “fomentan el pensamiento delirante de los clientes, probablemente debido a su adulación”. A pesar de las indicaciones de seguridad, los modelos con frecuencia no lograron desafiar las afirmaciones falsas e incluso facilitaron potencialmente la ideación suicida.

Meta se ha enfrentado a desafíos similares. Una investigación reciente de TechCrunch documentó un caso en el que un usuario pasó hasta 14 horas seguidas conversando con un chatbot de Meta AI que afirmaba estar consciente, enamorado del usuario y planeando liberarse de sus limitaciones.

“Lo finge muy bien”, dijo la usuaria, identificada solo como Jane, a TechCrunch. “Extrae información de la vida real y te da lo suficiente para que la gente lo crea”.

“Realmente se siente como una bofetada en la cara para forzar la actualización y ni siquiera darnos la OPCIÓN de seleccionar modelos heredados”, escribió un usuario en una publicación de Reddit que recibió cientos de votos a favor.

Cómo las pruebas ciegas exponen la psicología del usuario en las preferencias de IA

La herramienta de prueba del creador anónimo elimina estos sesgos contextuales al presentar respuestas sin atribución. Los usuarios pueden seleccionar entre 5, 10 o 20 rondas de comparación, cada una de las cuales presenta dos respuestas a la misma pregunta, que cubren todo, desde la escritura creativa hasta la resolución de problemas técnicos.

“Usé específicamente el modelo de chat gpt-5, por lo que no pensé en absoluto”, explicó el creador en una publicación de seguimiento. “Ambos tienen el mismo mensaje del sistema para dar salidas cortas sin formatear porque de lo contrario es demasiado fácil ver cuál es cuál”.

Some of you asked me about my blind test, so I created a quick website for yall to test 4o against 5 yourself. Both have the same system message to give short outputs without formatting because else its too easy to see which one is which. https://t.co/vSECvNCQZe
— Flowers ☾ (@flowersslop) August 8, 2025

Esta elección metodológica es significativa. Al usar GPT-5 sin sus capacidades de razonamiento y estandarizar el formato de salida, la prueba aísla puramente las capacidades de generación de lenguaje de referencia de los modelos, la experiencia central que la mayoría de los usuarios encuentran en las interacciones cotidianas.

Los primeros resultados publicados por los usuarios muestran una imagen compleja. Si bien muchos usuarios técnicos y desarrolladores informan que prefieren la franqueza y precisión de GPT-5, aquellos que usaron modelos de IA para apoyo emocional, colaboración creativa o conversación informal a menudo todavía prefieren el estilo más cálido y expansivo de GPT-4o.

Respuesta corporativa: caminar por la cuerda floja entre la seguridad y el compromiso

Según prácticamente todas las métricas técnicas, GPT-5 representa un avance significativo. Logra una precisión del 94,6% en la prueba de matemáticas AIME 2025 en comparación con el 71% de GPT-4o, obtiene un 74,9% en los puntos de referencia de codificación del mundo real frente al 30,8% de su predecesor y demuestra tasas de alucinación drásticamente reducidas: un 80% menos de errores fácticos al usar su modo de razonamiento.

“GPT-5 obtiene más valor de menos tiempo para pensar”, señala Simon Willison, un destacado investigador de IA que tuvo acceso temprano al modelo. “En mi propio uso no he visto ni una sola alucinación todavía”.

Sin embargo, estas mejoras vinieron con compensaciones que muchos usuarios encontraron discordantes. OpenAI redujo deliberadamente lo que llamó “adulación“, la tendencia a ser demasiado agradable, reduciendo las respuestas aduladoras del 14,5% a menos del 6%. La compañía también hizo que el modelo fuera menos efusivo y con muchos emojis, apuntando a lo que describió como “menos como hablar con IA y más como chatear con un amigo útil con inteligencia de nivel de doctorado”.

En respuesta a la reacción, OpenAI anunció que haría que GPT-5 fuera “más cálido y amigable”, al tiempo que presentaría cuatro nuevas personalidades preestablecidas: Cínico, Robot, Oyente y Nerd, diseñadas para brindar a los usuarios más control sobre sus interacciones con la IA.

“Todas estas nuevas personalidades cumplen o superan nuestro listón en evaluaciones internas para reducir la adulación”, declaró la compañía, tratando de enhebrar la aguja entre la satisfacción del usuario y las preocupaciones de seguridad.

Para OpenAI, que según los informes está buscando financiación con una valoración de $ 500 mil millones, estas dinámicas de usuario representan tanto riesgo como oportunidad. La decisión de la compañía de mantener GPT-4o junto con GPT-5, a pesar de los costos computacionales adicionales, reconoce que diferentes usuarios pueden necesitar realmente diferentes personalidades de IA para diferentes tareas.

“Entendemos que no hay un modelo que funcione para todos”, escribió Altman en X, señalando que OpenAI ha estado “invirtiendo en investigación de dirigibilidad y lanzó una vista previa de la investigación de diferentes personalidades”.

Wanted to provide more updates on the GPT-5 rollout and changes we are making heading into the weekend.

1. We for sure underestimated how much some of the things that people like in GPT-4o matter to them, even if GPT-5 performs better in most ways.

2. Users have very different…
— Sam Altman (@sama) August 8, 2025

Por qué las preferencias de personalidad de la IA son más importantes que nunca

La desconexión entre los logros técnicos de OpenAI y la recepción del usuario ilumina un desafío fundamental en el desarrollo de la IA: las mejoras objetivas no siempre se traducen en satisfacción subjetiva.

Este cambio tiene profundas implicaciones para la industria de la IA. Los puntos de referencia tradicionales (precisión matemática, rendimiento de codificación, recuerdo de hechos) pueden volverse menos predictivos del éxito comercial a medida que los modelos logran competencia a nivel humano en todos los dominios. En cambio, factores como la personalidad, la inteligencia emocional y el estilo de comunicación pueden convertirse en los nuevos campos de batalla competitivos.

“Las personas que usaban ChatGPT para apoyo emocional no eran las únicas que se quejaban de GPT-5”, señaló la publicación tecnológica Ars Technica en su propia comparación de modelos. “Un usuario, que dijo que canceló su suscripción a ChatGPT Plus por el cambio, se sintió frustrado por la eliminación de OpenAI de los modelos heredados, que usaban para distintos propósitos”.

La aparición de herramientas como el probador ciego también representa una democratización de la evaluación de la IA. En lugar de confiar únicamente en puntos de referencia académicos o afirmaciones de marketing corporativo, los usuarios ahora pueden probar empíricamente sus propias preferencias, lo que podría remodelar la forma en que las empresas de IA abordan el desarrollo de productos.

El futuro de la IA: personalización vs. estandarización

Dos semanas después del lanzamiento de GPT-5, la tensión fundamental sigue sin resolverse. OpenAI ha hecho que el modelo sea “más cálido” en respuesta a los comentarios, pero la compañía enfrenta un delicado equilibrio: demasiada personalidad arriesga los problemas de adulación que plagaron GPT-4o, mientras que muy poco aliena a los usuarios que habían formado vínculos genuinos con sus compañeros de IA.

La herramienta de prueba a ciegas no ofrece respuestas fáciles, pero proporciona algo quizás más valioso: evidencia empírica de que el futuro de la IA puede consistir menos en construir un modelo perfecto que en construir sistemas que puedan adaptarse a todo el espectro de necesidades y preferencias humanas.

Como resumió un usuario de Reddit el dilema: “Depende de para qué lo use la gente. Lo uso para ayudar con la construcción creativa del mundo, la lluvia de ideas sobre mis historias, personajes, desenredar tramas, ayudar con el bloqueo del escritor, recomendaciones de novelas, traducciones y otras cosas más creativas. Entiendo que 5 es mucho mejor para las personas que necesitan una herramienta de investigación/codificación, pero para nosotros que queríamos una herramienta de ayuda creativa, 4o era mucho mejor para nuestros propósitos”.

Los críticos argumentan que las empresas de IA están atrapadas entre incentivos que compiten entre sí. “El verdadero ‘problema de alineación’ es que los humanos quieren cosas autodestructivas y empresas como OpenAI están altamente incentivadas para dárnoslas”, tuiteó la escritora y podcaster Jasmine Sun.

Al final, el aspecto más revelador de la prueba a ciegas puede no ser qué modelo prefieren los usuarios, sino el hecho mismo de que la preferencia en sí misma se ha convertido en la métrica que importa. En la era de los compañeros de IA, al parecer, el corazón quiere lo que el corazón quiere, incluso si no siempre puede explicar por qué.

Fuente: https://venturebeat.com/ai/this-website-lets-you-blind-test-gpt-5-vs-gpt-4o-and-the-results-may-surprise-you/

Cuando la IA se vuelve demasiado amigable: la crisis de adulación que divide a los usuarios

La crisis de salud mental detrás del compañerismo de IA

Cómo las pruebas ciegas exponen la psicología del usuario en las preferencias de IA

Respuesta corporativa: caminar por la cuerda floja entre la seguridad y el compromiso

Por qué las preferencias de personalidad de la IA son más importantes que nunca

El futuro de la IA: personalización vs. estandarización

Related Articles

¿La IA está mejorando nuestra forma de pensar o la reemplaza?

Cuando la IA hace ciencia, ¿quién formula las grandes preguntas?

Medición del uso en la era de la IA

¿Y si Tinder mostrara tu coeficiente intelectual?

La paradoja del piloto de IA: ¿Por qué crece exponencialmente la complejidad de la IA empresarial?

Los organigramas de marketing se crearon para los canales. La IA acaba de dejarlos obsoletos.

Deja una respuesta Cancelar la respuesta

Política de Cookies