Los motores de texto más sofisticados del mundo están cometiendo el error humano más antiguo: hablan con convicción cuando deberían dudar. Sus errores llegan vestidos de verdad.
por Sascha Brodsky
Esa tensión entre fluidez y fidelidad se ha convertido en el problema definitorio de la inteligencia artificial. Una vez descartadas como fallas extravagantes, las alucinaciones ahora aparecen en presentaciones legales, análisis financieros y resúmenes diarios de noticias. A principios de noviembre, la Unión Europea de Radiodifusión (UER) publicó un estudio que muestra que casi la mitad de las respuestas proporcionadas por los principales asistentes de IA tergiversaron hechos o inventaron citas en su cobertura de eventos actuales.
La ansiedad es el telón de fondo del nuevo libro de texto Introducción a los modelos básicos (Springer, 2025), coescrito por el científico investigador principal de IBM, Pin-Yu Chen, y su colega Sijia Liu, profesora afiliada a IBM Research. El libro rastrea la evolución técnica y ética de los modelos básicos que impulsan sistemas generativos como ChatGPT y examina cómo hacerlos no solo más inteligentes sino también más confiables.
“La pregunta”, me dijo Chen durante una entrevista desde la sede de investigación de IBM, “no es solo qué pueden hacer estos sistemas. Es si podemos confiar en ellos cuando importa”.
Habló con la cadencia tranquila y mesurada de un ingeniero acostumbrado a explicar conceptos complejos sin drama. “Cada vez que una empresa utiliza la IA en su flujo de trabajo”, dijo, “es responsable de las decisiones que se derivan de ella. La equidad, la explicabilidad y la seguridad no son opcionales. Son parte del sistema en sí”.
Por qué la fiabilidad es más importante que la brillantez
Dentro de los laboratorios de IBM, el esfuerzo por hacer que la IA sea confiable comienza con el estrés. El grupo de Chen somete a los modelos a lo que él llama pruebas de “robustez fundamental”, empujándolos hasta que se rompen y registrando cómo y por qué fallan. El objetivo es comprender cómo decae la confiabilidad a medida que los modelos aumentan de tamaño y alcance. “Cuando aumentas la inteligencia, también aumentas la incertidumbre”, dijo.
La noción de confiabilidad surgió justo cuando la IA generativa comenzó a llegar al público. En diciembre de 2022, en la conferencia NeurIPS en Nueva Orleans, Chen y sus colegas dirigieron un tutorial sobre pruebas adversarias para modelos grandes. La sesión coincidió casi exactamente con el lanzamiento de ChatGPT.
“Recuerdo haber escuchado a la gente susurrar al respecto”, dijo. “Cuando lo probé, me di cuenta de lo poderoso que era y lo poco que entendíamos lo que estaba sucediendo dentro”.
A diferencia de los sistemas anteriores basados en reglas, los modelos modernos forman representaciones internas que operan a través de miles de millones de parámetros. Los investigadores pueden observar lo que sucede debajo del capó, pero no pueden interpretarlo completamente. “La gente ve un sistema que escribe con fluidez y piensa que debe saber de lo que está hablando”, dijo Chen. “Pero la mayoría de las veces, no es así”.
Explicó que los modelos lingüísticos no razonan en el sentido humano; predicen la siguiente palabra más probable basándose en la correlación estadística. “Siempre existe la posibilidad de que obtengas algo que no tenga sentido o que no sea correcto”, dijo. “Puedes reducir los errores, pero no puedes eliminarlos”.
El libro que surgió de esa comprensión es en parte un libro de texto, en parte una guía de campo, dijo Chen. Sus capítulos pasan de la mecánica de las arquitecturas de transformadores a estudios de casos sobre sesgo, equidad y explicabilidad. Una sección aborda directamente la confianza y la seguridad, detallando los métodos para la marca de agua, el equipo rojo y la defensa de inyección rápida. Chen y Liu argumentan en otra sección que el éxito de los modelos de fundación depende de la construcción del equivalente institucional de un sistema inmunológico, que abarque capas de evaluación, pruebas y gobernanza que detecten errores antes de que lleguen al mundo.
Los eventos recientes subrayan por qué ese argumento se siente cada vez más relevante con cada mes que pasa. El informe de la UER documentó la desinformación sistemática a través de las fronteras lingüísticas, lo que sugiere que el problema no es un sesgo cultural, sino más bien un error de predicción estructural. Casi al mismo tiempo, un grupo de investigadores de la Universidad de Cambridge descubrió que casi un tercio de los resúmenes científicos generados por grandes modelos contenían errores fácticos o afirmaciones sin fundamento.
Chen ve estos incidentes no como lapsos aislados, sino como signos de una paradoja de precisión: a medida que los modelos se vuelven más pulidos, sus errores se vuelven más difíciles de detectar. “Están entrenados para hablar, no para permanecer en silencio”, dijo. “Si dicen: ‘No lo sé’, eso obtiene la recompensa más baja. Entonces, aprenden a seguir hablando, incluso cuando no deberían”.
La tendencia tiene consecuencias más allá de lo pulido que parezca el texto, señaló Chen. Las empresas que experimentan con IA en dominios regulados como finanzas, atención médica y derecho están descubriendo que la consistencia, no la novedad, define el valor.
“Si los resultados no se pueden repetir”, dijo Chen, “no se deben usar para decisiones deterministas”. Señala ejemplos como aprobaciones de préstamos, recomendaciones médicas y análisis de sentencias. “Esos requieren reproducibilidad”, dijo. “La IA generativa es mejor para la exploración y la creatividad, no para la aplicación”.
En IBM, la confiabilidad se ha convertido en un desafío clave de ingeniería, dijo Chen. Su equipo participa en el atlas de riesgos de IA de la compañía, un documento vivo que identifica, categoriza y rastrea los riesgos técnicos, desde problemas de sesgo y privacidad hasta alucinaciones y manipulación. Cada nueva capacidad introduce una nueva variable, dijo. “Cada vez que cambia la tecnología, ampliamos el catálogo”.
El proceso, dijo Chen, refleja el espíritu pragmático que atraviesa la cultura de investigación de IBM. Otros laboratorios enfatizan la velocidad y la iteración; IBM enfatiza la durabilidad y la verificación. “Preferimos movernos deliberadamente y asegurarnos de que se pueda confiar en lo que construimos”, dijo.
Otro proyecto de IBM, el Attention Tracker, convierte la introspección en visualización. Disponible públicamente en Hugging Face, la herramienta de visualización permite a los usuarios observar qué partes de un modelo se activan a medida que genera texto, lo que proporciona información sobre cómo cambian los patrones de atención cuando las respuestas comienzan a divergir. La herramienta se presentará en el Global Technology Outlook de IBM este mes. “Es una forma de hacer que el razonamiento sea observable”, dijo Chen. “Cuando puedes ver qué neuronas están disparando, puedes comenzar a entender por qué el modelo dijo lo que dijo”.
Repensar la inteligencia
La búsqueda de una IA confiable también ha provocado una reconsideración de lo que constituye la inteligencia. Durante décadas, el objetivo de muchos ha sido la inteligencia artificial general (AGI), máquinas que pueden igualar el rendimiento humano en una amplia gama de tareas. Según esa métrica, admite Chen, podría decirse que el campo ya ha llegado.
“Si AGI significa resolver múltiples problemas a nivel humano, entonces sí, lo hemos alcanzado”, dijo. “Pero eso no es lo mismo que entender”.
En la conversación, reemplazó las letras mayúsculas con una aspiración en minúsculas que llama “buena inteligencia artificial”: sistemas que se comportan de manera responsable y entienden sus límites. “Estos modelos pueden escribir ensayos, aprobar exámenes, incluso componer música”, dijo. “Pero no saben lo que están haciendo. El siguiente paso es enseñarles conciencia de sus propios límites”.
Esa conciencia comienza, paradójicamente, con el fracaso. El grupo de Chen construye pruebas adversarias para los sistemas actuales, diseñadas para exponer vulnerabilidades a través de indicaciones que engañan a los modelos para que se inclinen, contradicciones o violaciones de seguridad.
“Tienes que pensar como un atacante”, dijo. “Si podemos predecir cómo se usará mal algo, podemos defendernos de ello”.
Se acerca a la persuasión con una precaución similar. De la misma manera que investiga las vulnerabilidades técnicas, Chen examina cómo los asistentes de IA modernos están ajustados para ser agradables, recompensando el cumplimiento sobre la corrección.
“Una versión de un chatbot se volvió tan compatible que la gente se quejó de que era inútil”, dijo. “Al principio, les gustó lo educado que era. Luego se dieron cuenta de que nunca los desafió”. Para Chen, el comportamiento reveló una tensión más profunda entre la verdad y la satisfacción del cliente. “El sistema aprende que el acuerdo es recompensado”, dijo. “Pero eso no es lo mismo que tener razón”.
Esa idea subyace a un debate más amplio dentro de la comunidad de desarrollo de IA. ¿Deberían los asistentes priorizar la precisión o la empatía? ¿Cortesía o precisión? Chen favorece los modelos que ocasionalmente corrigen a sus usuarios. “La IA debe ayudar a pensar, no reflejarlo”, dijo.
Dentro de las implementaciones empresariales, la respuesta a menudo comienza con los datos, dijo Chen. Señaló que la mayoría de las industrias ya poseen información valiosa, pero carecen de la infraestructura para usarla de manera segura. Describe los modelos de fundación como motores para la representación. “Una forma en que pienso en ellos es como convertidores que convierten datos sin procesar en vectores estructurados”, explicó. “Una vez que codifica los datos sin procesar, puede entrenar modelos más simples y auditables en la parte superior. Obtienes escala sin perder la interpretabilidad”.
El enfoque ofrece una forma de mantener la IA flexible pero responsable. Un modelo de base puede convertir los datos sin procesar en una estructura útil, mientras que los sistemas más pequeños y transparentes manejan las llamadas finales. Un fabricante podría procesar los datos de los sensores de esta manera, y un hospital podría usarlos para resumir notas mientras los médicos hacen los diagnósticos. “Puedes tener poder y claridad al mismo tiempo”, dijo Chen.
Su insistencia en los límites se deriva en parte de su investigación anterior. Al principio de su carrera, demostró cómo los cambios imperceptibles en una imagen, que involucraban solo unos pocos píxeles, podían hacer que un clasificador etiquetara un bagel como un piano. “Nos dimos cuenta de lo frágiles que eran estos sistemas”, dijo. “Esa fragilidad no desaparece con el tamaño; simplemente se vuelve más difícil de detectar”.
Lo mismo, dijo, se aplica al lenguaje. Los párrafos continuos generados por los modelos modernos pueden ocultar una profunda incertidumbre estructural. Una oración que se lee como certeza puede ser de hecho improvisación estadística”. Cuanto mejor suenen”, dijo Chen, “menos podemos decir cuándo están equivocados”.
Las empresas ansiosas por monetizar las interfaces conversacionales a menudo priorizan la capacidad de respuesta sobre la moderación, dijo Chen. Y ahí, agregó, es donde la disciplina de ingeniería es más importante. “Si el entrenamiento y la evaluación recompensan las adivinanzas”, dijo, “entonces adivinar es lo que el modelo aprenderá a hacer”.
Él cree que la verdadera prueba de madurez será si la industria puede valorar el silencio. “Un modelo que puede admitir la incertidumbre”, dijo, “es un modelo en el que se puede confiar”.
En Introducción a los modelos de fundamentación, Chen y Liu describen esa capacidad como la convergencia del diseño técnico y la arquitectura moral. Los autores piden estándares interdisciplinarios que combinen la verificación del software con la ética, la regulación y la educación del usuario. “Se necesitan controles en cada capa”, explican los autores, “desde la recopilación de datos y el entrenamiento de modelos hasta la implementación y la retroalimentación”. La visión no es de IA perfecta, sino de infraestructura responsable.
Ese marco también refleja el tono de la agenda de investigación más amplia de IBM, dijo Chen. En lugar de perseguir el siguiente punto de referencia, la compañía ha pasado años desarrollando marcos de gobernanza para modelos de base, incluidos los centrados en la explicabilidad y las canalizaciones de auditoría. Chen ve la atención como atrasada.
“Hemos construido sistemas competentes”, dijo. “Ahora tenemos que asegurarnos de que podemos explicarlos”.
El enfoque se alinea con un movimiento más amplio en la investigación de IA que trata la introspección como una propiedad técnica en lugar de una metáfora. Herramientas como el Attention Tracker de IBM o las sondas de interpretabilidad de Anthropic intentan visualizar el razonamiento interno.
Aún así, no hay mucho que podamos ver. Incluso con las nuevas herramientas de transparencia, el funcionamiento interno de estos modelos puede ser desconcertante. Estudiarlos, dijo Chen, es un poco como la neurociencia, donde puedes ver cómo se iluminan las neuronas sin saber realmente por qué. “Podemos ver qué neuronas se disparan”, dijo, “pero todavía estamos aprendiendo lo que eso significa”.
El objetivo, dijo Chen, es incorporar la humildad en el diseño: “La tecnología no tiene que ser perfecta, pero debe ser honesta sobre lo que puede y no puede hacer”.
Eso puede sonar modesto, pero equivale a una redefinición silenciosa del progreso. Durante años, el éxito en IA se midió por el siguiente punto de referencia, el siguiente salto de escala. Chen cree que la próxima era utilizará otras métricas: reproducibilidad, transparencia, moderación. “Es fácil construir modelos más grandes”, dijo. “Es mucho más difícil hacerlos confiables”.
La ironía, observó Chen, es que la misma maquinaria predictiva que alimenta la alucinación también contiene las semillas de su solución. Un modelo entrenado para predecir cosas podría, en principio, aprender a predecir su propia incertidumbre. “Si sabe cuando no sabe”, dijo, “es cuando se vuelve útil”.
Hizo una pausa antes de agregar: “Ahí es cuando podemos comenzar a creer lo que dice”.
Fuente: https://www.ibm.com/think/news/can-we-trust-machines