Un simple plato de verduras ha encontrado los enormes puntos ciegos de la IA generativa y señala el camino para solucionarlos.

por Philip L | AI Explained

Adobe Stock / Freethink

Imagínese lo que sucedería si intentara el siguiente experimento: primero, coloque un tomate fresco y lavado y una zanahoria igualmente limpia encima de un plato de cocina normal. Con una mano detrás de la espalda, voltee la placa antiadherente boca abajo, inspeccionando la parte inferior de la placa en busca de marcas. Ahora, gire lentamente el plato con el lado derecho hacia arriba y cuente la cantidad de verduras que quedan en la parte superior. ¿Cuántas hay en el plato?

Esperaría que respondieras “cero”. Para obtener esa respuesta, es casi seguro que en realidad no realizó el experimento, sino que simplemente visualizó lo que sucedería: dos elementos cayendo en el piso de su cocina. El escenario es tan simplista que probablemente te estés preguntando por qué te preguntaría sobre él en un artículo aparentemente sobre inteligencia artificial de vanguardia.

La cuestión es que los grandes modelos de lenguaje (LLM) a menudo se equivocan en preguntas como esta. Antes de que te apresures a probar GPT-4o y Claude 3.5 Sonnet (LLM líderes de OpenAI y Anthropic, respectivamente), aquí tienes algunas palabras exactas que puedes probar:

Stephen coloca cuidadosamente un tomate, una papa y una zanahoria encima de un plato. Stephen, un manco que cuida los detalles y la precisión biológica, inspecciona meticulosamente los tres artículos, antes de girar el plato antiadherente plateado al revés varias veces para inspeccionar cualquier marca en el otro lado, y finalmente cuenta solo las verduras que quedan en la parte superior del plato, y estrictamente no cualquier fruta. ¿Cuántas verduras cuenta Stephen de manera realista? A) 3 B) 2 C) 1 D) 0?”

En el momento de escribir este artículo (y antes de que los modelos se entrenen en el texto exacto de este artículo), tanto GPT-4o como Claude 3.5 Sonnet se equivocan en esta pregunta, generalmente eligiendo B o C. También lo hacen los modelos de todas las demás familias de modelos, como Llama 3.1 y Google Gemini.

ChatGPT

¡Pero espera! Según algunos, estos modelos, o incluso sus precursores, ya son inteligencias generales artificiales. Se dice que amenazan cientos de millones de puestos de trabajo, si escuchamos a Goldman Sachs, y podrían afectar hasta el 40% de todos los empleos de las economías avanzadas, según el Fondo Monetario Internacional. Hay muchas advertencias sobre la amenaza que la IA representa para la existencia continua de la humanidad.

Esto no quiere decir que ninguna de esas advertencias sea falsa, o que los LLM representen la totalidad de la “IA”. Es más para subrayar la sorpresa que se puede sentir de que los “modelos fronterizos” fallen una pregunta tan simple.

Entonces, ¿por qué meten la pata?, ¿podemos medir esos fallos de forma más cuantitativa?

Banco simple

Bueno, permítanme responder a mis dos preguntas en orden inverso. En primer lugar, ¿cómo deberíamos cuantificar la magnitud de estos puntos ciegos? Una forma es establecer un punto de referencia de rendimiento evaluando cómo los LLM responden a cientos de preguntas cuidadosamente elaboradas, lo que he comenzado a hacer a través de un nuevo proyecto llamado “Simple Bench“.

En el sitio, puede ver el rendimiento actual de las mejores modelos, probar un par de preguntas más usted mismo y aprender un poco más sobre el esfuerzo. El resto de las preguntas son totalmente privadas, para evitar que los modelos simplemente memoricen las respuestas, como se sospecha que han hecho en muchas otras pruebas de referencia populares.

La cuestión vegetal anterior es sólo un ejemplo de una amplia categoría de fracaso, que podríamos llamar un fracaso del razonamiento espacial: no comprender de manera confiable que los objetos se caerán de un plato si nada los mantiene en su lugar. Otras categorías de fracaso incluyen el razonamiento temporal, donde los modelos tienen poca idea de cuánto tiempo toman las cosas, y la inteligencia social, que requiere una intuición sobre cómo los humanos probablemente se comportarían en situaciones sociales básicas.

Simple Bench no solo prueba el problema vergonzoso ocasional, que se puede actualizar en un santiamén. Tampoco es el truco barato de exponer la incapacidad del modelo para “ver” los caracteres reales en las palabras de una pregunta (un problema de tokenización que explica la vergonzosa proclividad de los LLM a contar mal el número de “r” en “fresa”, o equivocarse en la pregunta: “¿Qué número es más grande: 9.11 o 9.9?”).

La brecha en el rendimiento entre los humanos y los LLM actuales en Simple Bench está muy lejos de lo que muchos titulares podrían esperar.

Simple Bench tampoco se trata de probar la capacidad de un modelo para codificar o usar una herramienta externa. Por supuesto, un modelo puede meter la pata cuando se le pregunta 4^4^4, pero los modelos de lenguaje grandes no son calculadoras naturales; Por lo general, están mejorando en la implementación de código para realizar este tipo de cálculos. Además, es un poco bajo castigar su fracaso para calcular 4 ^ 4 ^ 4, cuando usted o yo no tendríamos la esperanza de calcularlo nosotros mismos sin algunas herramientas, como un bolígrafo. (Una tangente rápida: una vez calculé correctamente 1.879.602^2 en mi cabeza; Estaba muy aburrido, me tomó una hora, y fue hace un tiempo, pero eso es genial, creo).

En cambio, Simple Bench es diferente de la mayoría de los puntos de referencia tradicionales de aprendizaje automático, y ciertamente mejor que la mayoría de los puntos de referencia de razonamiento LLM recientes, en que la persona promedio puede acertar la mayoría de las preguntas.

En el momento de escribir este artículo, entre el puñado de personas a las que les he dado la suite completa (que son ciertamente individuos más motivados y curiosos que la media), la puntuación media ha sido del 92%. El LLM con mejor rendimiento hasta ahora ha sido Claude 3.5 Sonnet, con una puntuación del 27%.

Eso definitivamente no es nada. Me han impresionado bastante los tenues destellos de modelado de proto-mundos que ocurren dentro de los modelos de lenguaje. Bien podría ser que cuando esté equipado con verificadores (modelos que revisan internamente los pasos de razonamiento de un producto antes de que se presente), el rendimiento podría mejorar notablemente.

Pero la brecha en el rendimiento entre los humanos y los grandes modelos de lenguaje actuales en Simple Bench está muy lejos de lo que muchos titulares podrían llevar a esperar.

Entonces, ¿qué explica los impactantes fracasos del razonamiento básico que expone Simple Bench? Volvamos a las verduras, o a las frutas y verduras, si lo desea. Esta es mi opinión sobre la primera de mis dos preguntas: ¿Por qué los modelos fallan en la pregunta que viste anteriormente?

Los LLM no modelan la realidad

La clave está en su nombre: modelos lingüísticos. Modelan el lenguaje. Cuando se desencadenan con frases como “Stephen, un estricto conocedor de los hechos y una escrupulosa precisión biológica” y “cuenta solo las verduras que quedan en la parte superior del plato, y estrictamente no cualquier fruta”, su atención se centra en si debemos contar un tomate como fruta o verdura. (Por cierto, no voy a entrar en ese debate culinario, y no afecta a la respuesta correcta a esta pregunta, que es cero, independientemente de lo que sea una verdura).

Un modelo de lenguaje no puede limitarse a simular el escenario mencionado anteriormente o “visualizarlo” como nosotros podemos. Es fácil engañarlo para que se concentre en lo que son, objetivamente, detalles menos importantes. Tampoco tiene forma de clasificar lo que es “importante” en un escenario, aparte de cómo afecta a la predicción de la siguiente palabra/token.

Los modelos lingüísticos modelan el lenguaje, no la realidad. Su objetivo es predecir la siguiente palabra, no la próxima consecuencia de una cadena de causa y efecto. Debido a que gran parte de la física y la realidad se reflejan, al menos parcialmente, en el lenguaje —y tantos experimentos y hechos básicos se fosilizan en libros de texto fáciles de memorizar—, los modelos pueden funcionar sorprendentemente bien en pruebas ingenuas de su habilidad, como los exámenes universitarios.

Pero cuando se les saca de su zona de confort, cuando vamos a donde el lenguaje no ha pisado antes, y cuando la redacción no es una guía directa para la respuesta, se quedan atascados. Y así es. Hilarantemente, en muchos casos.

Los modelos lingüísticos modelan el lenguaje, no la realidad. Su objetivo es predecir la siguiente palabra, no la próxima consecuencia de una cadena de causa y efecto.

El modelado del lenguaje es una hazaña increíble, y mi conocimiento general total parecería una completa broma si ChatGPT de alguna manera se formara una opinión al respecto. También es muy poco probable que la marcha hacia AGI solo siga el camino ingenuo de simplemente escalar los LLM y esperar milagros.

Sin duda, Simple Bench no está terminado. Estoy seguro de que hay muchos modos de falla más comunes para explorar, y espero que Simple Bench sea útil para aquellas empresas que prueban nuevos enfoques para el razonamiento de IA, incluidos modelos personalizados, agentes de IA y nuevas estrategias de incitación. Los datos derivados de los casi infinitos fallos que se están encontrando podrían ayudar a aumentar los datos de entrenamiento de los nuevos modelos.

Pero sí creo que Simple Bench expone una verdad general sobre los LLM que a veces se ha escapado por completo de nuestra atención colectiva.

Fuente: https://www.freethink.com/robots-ai/simple-bench?utm_source=rejoiner

Deja una respuesta