Agregar un poco de la buena y antigua IA a los algoritmos actuales podría generar la tercera ola de IA.

por Artur Garcez

El principal problema con el experimento de las grandes tecnológicas con la inteligencia artificial no es que pueda dominar a la humanidad. Es que los grandes modelos de lenguaje (LLM), como ChatGPT de Open AI, Gemini de Google y Llama de Meta, siguen fallando, y el problema es insoluble.

Conocidos como alucinaciones, el ejemplo más destacado fue quizás el caso del profesor de derecho estadounidense Jonathan Turley, quien fue acusado falsamente de acoso sexual por ChatGPT en 2023.

La solución de OpenAI parece haber sido básicamente “desaparecer” a Turley programando ChatGPT para que indique que no puede responder preguntas sobre él, lo cual claramente no es una solución justa ni satisfactoria. Intentar resolver las alucinaciones a posteriori y caso por caso no es la solución a seguir.

Lo mismo puede decirse de los LLM que amplifican estereotipos o ofrecen respuestas occidentalizadas . Existe también una total falta de responsabilidad ante esta desinformación generalizada, ya que es difícil determinar cómo el LLM llegó a esta conclusión en primer lugar.

Tras el lanzamiento en 2023 de GPT-4 , el paradigma principal más reciente en el desarrollo LLM de OpenAI, se generó un intenso debate sobre estos problemas . Podría decirse que el debate se ha calmado desde entonces, aunque sin justificación.

La UE aprobó su Ley de IA en tiempo récord en 2024, por ejemplo, con el objetivo de convertirse en líder mundial en la supervisión de este campo. Sin embargo, la ley se basa en gran medida en que las empresas de IA se autorregulen sin abordar realmente los problemas en cuestión. Esto no ha impedido que las empresas tecnológicas publiquen LLM en todo el mundo para cientos de millones de usuarios y recopilen sus datos sin un escrutinio adecuado.

Mientras tanto, las últimas pruebas indican que incluso los LLM más sofisticados siguen siendo poco fiables. A pesar de ello, las principales empresas de IA aún se resisten a asumir la responsabilidad de los errores.

Lamentablemente, la tendencia de los LLM a desinformar y reproducir sesgos no se puede solucionar con mejoras graduales. Y con la llegada de la IA con agentes , donde los usuarios pronto podrán asignar proyectos a un LLM, como, por ejemplo, reservar sus vacaciones u optimizar el pago de todas sus facturas mensuales, el potencial de problemas se multiplicará.

El campo emergente de la IA neurosimbólica podría resolver estos problemas, a la vez que reduce la enorme cantidad de datos necesarios para el entrenamiento de LLM. Entonces, ¿qué es la IA neurosimbólica y cómo funciona?

El problema del LLM

Los LLM funcionan mediante una técnica llamada aprendizaje profundo. En ella, reciben grandes cantidades de datos de texto y emplean estadísticas avanzadas para inferir patrones que determinan cuál debe ser la siguiente palabra o frase en una respuesta dada. Cada modelo, junto con todos los patrones aprendidos, se almacena en conjuntos de potentes computadoras en grandes centros de datos conocidos como redes neuronales.

Los LLM pueden parecer razonar usando un proceso llamado cadena de pensamiento, donde generan respuestas de múltiples pasos que imitan cómo los humanos podrían llegar lógicamente a una conclusión, basándose en patrones observados en los datos de entrenamiento.

Sin duda, los LLM son un gran logro de la ingeniería. Son impresionantes para resumir textos y traducir , y pueden mejorar la productividad de quienes son diligentes y tienen el conocimiento suficiente para detectar sus errores. Sin embargo, tienen un gran potencial para inducir a error, ya que sus conclusiones siempre se basan en probabilidades, no en la comprensión.

Una solución alternativa popular se denomina “human-in-the-loop”: garantizar que los humanos que utilizan IA sigan tomando las decisiones finales. Sin embargo, culpar a los humanos no resuelve el problema. A menudo, seguirán siendo engañados por información errónea.

Los modelos LLM ahora necesitan tantos datos de entrenamiento para avanzar que debemos alimentarlos con datos sintéticos, es decir, datos creados por ellos mismos. Estos datos pueden copiar y amplificar errores existentes de sus propios datos fuente, de modo que los nuevos modelos heredan las debilidades de los antiguos. Como resultado, el costo de programar modelos de IA para que sean más precisos después de su entrenamiento (lo que se conoce como alineación de modelos post-hoc) se está disparando .

También resulta cada vez más difícil para los programadores ver qué está fallando porque el número de pasos en el proceso de pensamiento del modelo se hace cada vez mayor, lo que hace cada vez más difícil corregir los errores.

La IA neurosimbólica combina el aprendizaje predictivo de las redes neuronales con la enseñanza a la IA de una serie de reglas formales que los humanos aprenden para deliberar con mayor fiabilidad. Estas incluyen reglas lógicas, como “si a entonces b”, que, por ejemplo, ayudaría a un algoritmo a aprender que “si llueve, entonces todo afuera está normalmente mojado”; reglas matemáticas, como “si a = b y b = c entonces a = c”; y los significados consensuados de elementos como palabras, diagramas y símbolos. Algunas de estas se introducirán directamente en el sistema de IA, mientras que otras las deducirá él mismo analizando sus datos de entrenamiento y realizando la “extracción de conocimiento”.

Esto debería crear una IA que nunca alucine y que aprenda con mayor rapidez e inteligencia al organizar su conocimiento en partes claras y reutilizables. Por ejemplo, si la IA tiene una regla sobre qué objetos están mojados afuera cuando llueve, no necesita guardar todos los ejemplos de objetos que podrían estar mojados afuera; la regla puede aplicarse a cualquier objeto nuevo, incluso a uno que nunca haya visto.

Durante el desarrollo del modelo, la IA neurosimbólica también integra el aprendizaje y el razonamiento formal mediante un proceso conocido como ciclo neurosimbólico. Esto implica que una IA parcialmente entrenada extrae reglas de sus datos de entrenamiento y luego reintroduce este conocimiento consolidado en la red antes de continuar el entrenamiento con los datos.

Esto es más eficiente energéticamente porque la IA no necesita almacenar tantos datos, y es más responsable porque al usuario le resulta más fácil controlar cómo llega a conclusiones específicas y cómo mejora con el tiempo. También es más justo porque puede configurarse para que siga reglas preexistentes, como: «Para cualquier decisión que tome la IA, el resultado no debe depender de la raza o el género de la persona».

La tercera ola

La primera ola de IA en la década de 1980, conocida como IA simbólica, se basó en enseñar a las computadoras reglas formales que luego podían aplicar a nueva información. El aprendizaje profundo le siguió en la década de 2010, como la segunda ola, y muchos consideran la IA neurosimbólica como la tercera.

Es más fácil aplicar los principios neurosimbólicos a la IA en áreas específicas, ya que las reglas pueden definirse con claridad. Por lo tanto, no sorprende que lo hayamos visto surgir por primera vez en AlphaFold de Google , que predice estructuras proteicas para facilitar el descubrimiento de fármacos , y en AlphaGeometry , que resuelve problemas geométricos complejos .

Para modelos de IA más amplios, DeepSeek de China utiliza una técnica de aprendizaje llamada “destilación” , que representa un paso en la misma dirección. Sin embargo, para que la IA neurosimbólica sea plenamente viable para modelos generales, aún se necesita más investigación para perfeccionar su capacidad de discernir reglas generales y extraer conocimiento.

No está claro hasta qué punto los creadores de LLM ya están trabajando en esto. Sin duda, parecen estar encaminados a enseñar a sus modelos a pensar de forma más inteligente, pero también parecen convencidos de la necesidad de escalar con cantidades cada vez mayores de datos.

La realidad es que, si la IA va a seguir avanzando, necesitaremos sistemas que se adapten a la novedad a partir de unos pocos ejemplos, que verifiquen su comprensión, que puedan realizar múltiples tareas y reutilizar el conocimiento para mejorar la eficiencia de los datos, y que puedan razonar de manera confiable y sofisticada.

De esta manera, una tecnología digital bien diseñada podría incluso ofrecer una alternativa a la regulación, ya que los controles y equilibrios estarían integrados en la arquitectura y quizás estandarizados en toda la industria. Queda mucho camino por recorrer, pero al menos hay un camino por recorrer.

Fuente: https://singularityhub.com/2025/06/02/neurosymbolic-ai-is-the-answer-to-large-language-models-inability-to-stop-hallucinating/

Deja una respuesta