Los incentivos comerciales que impulsan el desarrollo de la IA de consumo siguen estando fundamentalmente desalineados con la reducción de las alucinaciones.

por Wei Xing

El último artículo de investigación de OpenAI diagnostica con precisión por qué ChatGPT y otros grandes modelos lingüísticos pueden inventar cosas, lo que en el mundo de la inteligencia artificial se conoce como “alucinación”. También revela por qué el problema podría ser irresoluble, al menos para los consumidores.

El artículo proporciona la explicación matemática más rigurosa hasta la fecha de por qué estos modelos afirman falsedades con tanta seguridad. Demuestra que estas no son solo un efecto secundario desafortunado del método actual de entrenamiento de las IA, sino que son matemáticamente inevitables.

El problema puede explicarse en parte por errores en los datos subyacentes utilizados para entrenar las IA. Sin embargo, mediante un análisis matemático de cómo aprenden los sistemas de IA, los investigadores demuestran que, incluso con datos de entrenamiento perfectos, el problema persiste.

La forma en que los modelos lingüísticos responden a las consultas —prediciendo palabra por palabra en una oración, basándose en probabilidades— produce errores de forma natural. De hecho, los investigadores demuestran que la tasa de error total al generar oraciones es al menos el doble que la que tendría la misma IA en una pregunta simple de sí/no, ya que los errores pueden acumularse en múltiples predicciones.

En otras palabras, las tasas de alucinaciones están fundamentalmente limitadas por la capacidad de los sistemas de IA para distinguir entre respuestas válidas e inválidas. Dado que este problema de clasificación es inherentemente complejo para muchas áreas del conocimiento, las alucinaciones se vuelven inevitables.

También resulta que cuanto menos percibe un modelo un hecho durante el entrenamiento, más probable es que alucine al ser preguntado sobre él. Por ejemplo, con los cumpleaños de personajes famosos, se descubrió que si el 20 % de los cumpleaños de estas personas solo aparece una vez en los datos de entrenamiento, los modelos base deberían tener al menos un 20 % de consultas erróneas sobre cumpleaños.

Efectivamente, cuando los investigadores solicitaron modelos de vanguardia para el cumpleaños de Adam Kalai, uno de los autores del artículo, DeepSeek-V3 proporcionó con seguridad tres fechas incorrectas en distintos intentos: “03-07”, “15-06” y “01-01”. La fecha correcta es otoño, por lo que ninguna de estas fechas se acercaba.

La trampa de la evaluación

Más preocupante es el análisis del artículo sobre por qué persisten las alucinaciones a pesar de los esfuerzos posteriores al entrenamiento (como proporcionar retroalimentación humana exhaustiva a las respuestas de una IA antes de su lanzamiento al público). Los autores examinaron diez importantes indicadores de IA, incluyendo los utilizados por Google, OpenAI y las principales tablas de clasificación de modelos de IA. Esto reveló que nueve indicadores utilizan sistemas de calificación binarios que otorgan cero puntos a las IA que expresan incertidumbre.

Esto crea lo que los autores denominan una “epidemia” de penalización de las respuestas honestas. Cuando un sistema de IA dice “No lo sé”, recibe la misma puntuación que si diera información completamente errónea. La estrategia óptima ante esta evaluación queda clara: siempre adivinar.

Los investigadores lo demuestran matemáticamente. Independientemente de las probabilidades de acertar una respuesta, la puntuación esperada por acertar siempre supera la puntuación por abstenerse cuando una evaluación utiliza calificación binaria.

La solución que lo rompería todo

La solución propuesta por OpenAI consiste en que la IA considere su propia confianza en una respuesta antes de publicarla y que los puntos de referencia la evalúen en función de ello. Por ejemplo, se podría indicar a la IA: «Responda solo si tiene más del 75 % de confianza, ya que los errores se penalizan con 3 puntos y las respuestas correctas con 1».

El marco matemático de los investigadores de OpenAI muestra que, con umbrales de confianza adecuados, los sistemas de IA expresarían incertidumbre de forma natural en lugar de conjeturas. Esto, por lo tanto, reduciría las alucinaciones. El problema radica en el impacto que esto tendría en la experiencia del usuario.

Considere las implicaciones si ChatGPT comenzara a responder “No lo sé” incluso al 30 % de las consultas (una estimación conservadora basada en el análisis del artículo sobre la incertidumbre factual en los datos de entrenamiento). Los usuarios acostumbrados a recibir respuestas seguras a prácticamente cualquier pregunta probablemente abandonarían estos sistemas rápidamente.

He visto este tipo de problema en otro ámbito de mi vida. Participo en un proyecto de monitoreo de la calidad del aire en Salt Lake City, Utah. Cuando el sistema detecta incertidumbres en las mediciones durante condiciones climáticas adversas o al calibrar el equipo, la interacción del usuario es menor en comparación con las pantallas que muestran lecturas fiables, incluso cuando estas resultan inexactas durante la validación.

El problema de la economía computacional

No sería difícil reducir las alucinaciones utilizando los hallazgos del artículo. Los métodos establecidos para cuantificar la incertidumbre existen desde hace décadas . Estos podrían utilizarse para proporcionar estimaciones fiables de la incertidumbre y guiar a una IA para que tome decisiones más inteligentes.

Pero incluso si se pudiera superar el problema de la aversión de los usuarios a esta incertidumbre, existe un obstáculo mayor: la economía computacional. Los modelos de lenguaje que tienen en cuenta la incertidumbre requieren una computación considerablemente mayor que el enfoque actual, ya que deben evaluar múltiples respuestas posibles y estimar los niveles de confianza. Para un sistema que procesa millones de consultas a diario, esto se traduce en costos operativos considerablemente mayores.

Enfoques más sofisticados , como el aprendizaje activo, donde los sistemas de IA formulan preguntas aclaratorias para reducir la incertidumbre, pueden mejorar la precisión, pero multiplican aún más los requisitos computacionales. Estos métodos funcionan bien en ámbitos especializados como el diseño de chips, donde las respuestas incorrectas cuestan millones de dólares y justifican un cálculo exhaustivo. Para las aplicaciones de consumo, donde los usuarios esperan respuestas instantáneas, la economía se vuelve prohibitiva.

El cálculo cambia drásticamente para los sistemas de IA que gestionan operaciones comerciales críticas o infraestructura económica. Cuando los agentes de IA gestionan la logística de la cadena de suministro, el comercio financiero o los diagnósticos médicos, el coste de las alucinaciones supera con creces el gasto de que los modelos decidan si son demasiado inciertos. En estos ámbitos, las soluciones propuestas en el artículo se vuelven económicamente viables, incluso necesarias. Los agentes de IA inciertos simplemente tendrán que ser más costosos.

Sin embargo, las aplicaciones de consumo aún dominan las prioridades de desarrollo de la IA. Los usuarios buscan sistemas que ofrezcan respuestas fiables a cualquier pregunta. Los criterios de evaluación recompensan los sistemas que conjeturan en lugar de expresar incertidumbre. Los costes computacionales favorecen las respuestas rápidas y excesivamente confiadas frente a las lentas e inciertas.

La disminución de los costos de energía por token y el avance de las arquitecturas de chips podrían eventualmente hacer más asequible que las IA decidan si tienen la certeza suficiente para responder una pregunta. Sin embargo, la cantidad relativamente alta de computación requerida, en comparación con las suposiciones actuales, se mantendría, independientemente de los costos absolutos del hardware.

En resumen, el artículo de OpenAI destaca inadvertidamente una verdad incómoda: los incentivos comerciales que impulsan el desarrollo de la IA para el consumidor siguen estando fundamentalmente desfasados ​​con la reducción de las alucinaciones . Mientras estos incentivos no cambien, las alucinaciones persistirán.

wei xing

Wei Xing

El Dr. Wei Xing es profesor adjunto y supervisor de doctorado en la Universidad de Sheffield, y aporta a su trabajo más de 15 años de experiencia en investigación internacional. Tras obtener su doctorado en ingeniería por la Universidad de Warwick en 2017, comenzó su carrera como profesor adjunto en la Universidad de Beihang. Especialista en fabricación inteligente e industrialización de la inteligencia artificial, su investigación se centra especialmente en aplicaciones dentro de la automatización del diseño electrónico (EDA). Su extensa trayectoria de publicaciones incluye conferencias y revistas de primer nivel como AAAI, NeurIPS, DAC e ICCAD. Gracias a su activa participación en importantes proyectos internacionales, incluidos los financiados por DARPA y EPSRC, el Dr. Xing ha desarrollado herramientas de vanguardia basadas en IA. Su pionera tecnología de gemelos digitales ha sido adoptada por un proyecto estadounidense de DARPA y se ha integrado con éxito en una importante empresa tecnológica, sirviendo como la columna vertebral computacional de una parte significativa de sus ingresos. Este trabajo recibió el segundo premio en los Premios al Progreso de Ciencia y Tecnología de Pekín de 2022. Ha sido ampliamente reconocido por sus contribuciones, más notablemente con una nominación al premio al mejor artículo en el prestigioso ICCAD 2023. Su trabajo más reciente sobre optimización de ingeniería basada en modelos de lenguaje grande fue nombrado uno de los 10 finalistas para el altamente selectivo Premio Manchester del Reino Unido 2025, un importante premio a la innovación que ya ha asegurado £ 1,6 millones en financiación para su investigación.

Fuente: https://singularityhub.com/2025/09/18/why-openais-solution-to-ai-hallucinations-would-kill-chatgpt-tomorrow/

Deja una respuesta