Su concurso de un millón de dólares para el premio ARC está diseñado para ponernos en el camino correcto.

  • La inteligencia artificial general (AGI) podría cambiar el mundo, pero nadie parece saber qué tan cerca estamos de construirla. 
  • Las IA generativas actuales obtienen buenos resultados en los exámenes comparativos, pero dichos exámenes pueden resolverse mediante la memorización y no necesariamente indican una inteligencia general. 
  • Para acelerar el progreso en IA, François Chollet lanzó el Premio ARC, una competencia para ver qué IA pueden obtener la puntuación más alta en un conjunto de tareas de abstracción y razonamiento.

por Kristin Houser

Estamos en el año 2030 y la inteligencia artificial general (IAG) por fin ha llegado. En los próximos años, utilizaremos esta poderosa tecnología para curar enfermedades, acelerar los descubrimientos, reducir la pobreza y mucho más. En cierto modo, nuestro camino hacia la IA general se remonta a un concurso de un millón de dólares que desafió el status quo de la IA en 2024.

Inteligencia artificial general

La inteligencia artificial general (IAG), un software con inteligencia de nivel humano, podría cambiar el mundo, pero nadie parece saber qué tan cerca estamos de lograrla.  Las predicciones de los expertos  van desde  2029  a  2300  o  nunca . Algunos insisten en que  la IA general ya está aquí .

Para descubrir por qué es tan difícil predecir la llegada de la IA general, echemos un vistazo a la historia de la IA, las formas en que medimos actualmente la inteligencia de las máquinas y la competencia de un millón de dólares que podría ayudarnos a llegar a este software que cambiará el mundo.

Donde hemos estado

Infografía cronológica que ilustra los hitos en el desarrollo de la inteligencia artificial general, desde la creación de las primeras computadoras digitales en la década de 1940 hasta los avances en 2022 con GPT-3 de OpenAI.

A dónde vamos (quizás)

Entonces, ¿cómo sabremos cuándo llegará la IAG?

Las pruebas de referencia son una forma útil de seguir el progreso de la IA, y elegirlas para IA diseñadas para una sola tarea es generalmente bastante fácil: si está entrenando una IA para  identificar problemas cardíacos  a partir de ecocardiogramas, por ejemplo, su punto de referencia podría ser su precisión en comparación con los médicos.

Pero, por definición, se supone que la inteligencia artificial  general posee  la misma inteligencia que los humanos. ¿Cómo se puede comparar eso?

Durante décadas, muchos consideraron que el  test de Turing  era un sólido  parámetro de referencia para la inteligencia artificial general  (aunque  no fuera exactamente como  Alan Turing pretendía que se utilizara). Si una IA podía convencer a un evaluador humano de que era humana, estaba exhibiendo funcionalmente una inteligencia de nivel humano, según se pensaba.

Pero cuando un chatbot diseñado a imagen de un adolescente “pasó” el test de Turing en 2014 actuando como un adolescente (desviando preguntas, haciendo chistes y, básicamente, actuando como un tonto), nada en él parecía particularmente inteligente, y mucho menos lo suficientemente inteligente como para cambiar el mundo.

Un personaje generado por computadora con gafas y una expresión neutral aparece junto a un cuadro de texto etiquetado "Escriba su pregunta aquí" en una interfaz.
El avatar de Eugene Goostman, la IA a la que se atribuye haber pasado la prueba de Turing en 2014. (Crédito: Vladimir Veselov)

Desde entonces, los avances en  los grandes modelos de lenguaje  (LLM, por sus siglas en inglés) —IA entrenadas en enormes conjuntos de datos de texto para predecir respuestas similares a las humanas— han llevado a chatbots que pueden engañar fácilmente a las personas haciéndoles creer que son humanos, pero esas IA tampoco parecen muy inteligentes, especialmente porque lo que dicen es  a menudo falso .

Como la prueba de Turing se consideró  rota , ” obsoleta ” y ” mucho más que obsoleta “, los desarrolladores de IA necesitaban nuevos puntos de referencia para la IAG, por lo que comenzaron a hacer que sus modelos tomaran las  pruebas más difíciles  que tenemos para las personas, como el examen de abogacía y el MCAT, y el  MMLU , un punto de referencia creado en 2020 específicamente para evaluar el conocimiento de los modelos de lenguaje en una variedad de temas.

Ahora, los desarrolladores informan periódicamente sobre el rendimiento de sus IA más nuevas en relación con los examinados humanos,  los modelos de IA anteriores y sus  competidores de IA , y publican sus resultados en artículos con títulos como ” Chispas de inteligencia artificial general “.

Gráfico de barras que muestra los resultados de los exámenes de varias materias, ordenados según el desempeño en GPT-3.5. Las barras azules representan GPT-3.5 y las barras verdes representan GPT-4 (con y sin visión).
Crédito: OpenAI

Estos puntos de referencia nos dan una forma más objetiva de evaluar y comparar IA que la prueba de Turing, pero a pesar de cómo parecen, tampoco muestran necesariamente un progreso hacia la IAG.

Los LLM se entrenan con enormes cantidades de texto, en su mayoría extraídos de Internet, por lo que es probable que muchas de las mismas preguntas que se usan para evaluar un modelo se hayan incluido en sus datos de entrenamiento, en el mejor de los casos, inclinando la balanza y, en el peor, permitiéndole simplemente regurgitar respuestas en lugar de realizar cualquier tipo de razonamiento humano.

Y como los desarrolladores de IA normalmente no publican detalles sobre sus datos de entrenamiento, aquellos fuera de las empresas (las personas que intentan prepararse para la (tal vez) inminente llegada de la IAG) no saben con certeza si este problema, conocido como ” contaminación de datos “, está afectando los resultados de las pruebas.

“La memorización es útil, pero la inteligencia es otra cosa”.François Chollet

Sin embargo, parece que sí. En las pruebas, los investigadores han descubierto que el rendimiento de un modelo en estos puntos de referencia puede disminuir drásticamente cuando se lo desafía con  problemas de prueba ligeramente reformulados  o que se crearon completamente  después de la fecha límite  para sus datos de entrenamiento.

“Casi todos los puntos de referencia actuales de IA se pueden resolver simplemente mediante la memorización”, dijo a Freethink François Chollet, ingeniero de software e investigador de IA. “Se puede simplemente observar qué tipo de preguntas hay en el punto de referencia y luego asegurarse de que esas preguntas, u otras muy similares, estén incluidas en los datos de entrenamiento de su modelo”.

“La memorización es útil, pero la inteligencia es otra cosa”, añadió. “En palabras de Jean Piaget, la inteligencia es lo que utilizamos cuando no sabemos qué hacer. Es la manera en que aprendemos ante nuevas circunstancias, cómo nos adaptamos e improvisamos, cómo adquirimos nuevas habilidades”.

“Está diseñado para resistir la memorización y, hasta ahora, ha resistido la prueba del tiempo”.François Chollet

En 2019, Chollet publicó un  artículo  en el que describe un punto de referencia engañosamente simple para evaluar las IA en cuanto a este tipo de inteligencia: el Corpus de Abstracción y Razonamiento (ARC).

“Se trata de una prueba de eficiencia en la adquisición de habilidades, en la que cada tarea tiene como objetivo ser novedosa para el examinado”, afirmó Chollet. “Está diseñada para resistir la memorización y, hasta ahora, ha resistido la prueba del tiempo”.

ARC es similar a una prueba de coeficiente intelectual para humanos inventada en 1938, llamada  Matrices progresivas de Raven . Cada pregunta presenta pares de cuadrículas, cuyo tamaño varía de 1×1 a 30×30. Cada par tiene una cuadrícula de entrada y una cuadrícula de salida, con celdas en las cuadrículas rellenas con hasta 10 colores diferentes.

El trabajo de la IA es predecir cómo debería verse el resultado para una entrada determinada, basándose en un patrón establecido por uno o dos ejemplos.

Una serie de cuadrículas que muestran transformaciones desde la entrada (cuadrados rosas) a la salida (cuadrados rosas y amarillos) en tres pasos, cada uno con diferentes patrones y posiciones.
Un ejemplo de un problema ARC. (Crédito: Premio ARC)

Desde que publicó su artículo, Chollet ha organizado varias competiciones ARC en las que han participado cientos de desarrolladores de IA de más de 65 países. Al principio, sus mejores IA podían resolver el 20 % de las tareas ARC. Para junio de 2024, esa cifra había aumentado al 34 %, cifra que todavía está muy por debajo del 84 % que pueden resolver la mayoría de los humanos.

Para acelerar el progreso en el razonamiento de IA, Chollet se asoció en junio con  Mike Knoop , cofundador de la empresa de automatización de flujo de trabajo Zapier, para lanzar  ARC Prize , una competencia para ver qué IA pueden obtener la puntuación más alta en un conjunto de tareas ARC, con más de un millón de dólares (y mucho prestigio) en juego para los mejores sistemas.

ARC Prize

Los conjuntos de capacitación y evaluación públicos para la competencia, cada uno de los cuales consta de 400 tareas ARC, están disponibles para los desarrolladores en  GitHub . Los participantes deben  enviar su código  antes del 10 de noviembre de 2024 para poder competir.

Luego, las IA serán probadas en el conjunto de 100 tareas de evaluación privada de ARC Prize  fuera de línea  : este enfoque garantiza que las preguntas de la prueba no se filtren y que las IA no tengan la oportunidad de verlas antes de la evaluación.

Los ganadores se anunciarán el 3 de diciembre de 2024 y las cinco IA con mayor puntuación recibirán entre 5000 y 25 000 dólares cada una (al momento de escribir este artículo, un equipo logró  el 43 % ). Para ganar el gran premio de 500 000 dólares, la IA de un participante debe resolver el 85 % de las tareas. Si nadie gana, ese premio en metálico se transferirá a una competencia de 2025. 

Para poder optar a  cualquier  premio, los desarrolladores deben estar dispuestos a abrir el código fuente.

“El propósito del Premio ARC es redirigir más atención a la investigación de IA hacia arquitecturas que puedan conducir a la inteligencia artificial general (AGI) y garantizar que los avances notables no permanezcan como un secreto comercial en un gran laboratorio corporativo de IA”, según el  sitio web de la competencia .

“Básicamente, OpenAI hizo retroceder el progreso de la IAG entre cinco y diez años”.François Chollet

Es probable que esta nueva dirección se  aleje  de los LLM y otras IA generativas similares. Estas últimas acapararon casi la mitad de la  financiación de la IA  en 2023, pero, según Chollet, no solo es poco probable que conduzcan a la IAG, sino que están frenando activamente el avance hacia ella.

“Básicamente, OpenAI hizo retroceder el progreso de la inteligencia artificial general entre cinco y diez años”, dijo al  podcast Dwarkesh . “Provocaron el cierre total de las publicaciones de investigación de vanguardia, y ahora los LLM han absorbido el oxígeno de la sala: todo el mundo está haciendo LLM”.

No está solo en su escepticismo respecto de que los LLM nos estén acercando a la IAG.

Yann LeCun, científico jefe de IA de Meta,  dijo a Next Web  que “en el camino hacia la inteligencia a nivel humano, un LLM es básicamente una rampa de salida, una distracción, un callejón sin salida”, y el propio CEO de OpenAI, Sam Altman, ha dicho que  no cree que  ampliar los LLM conduzca a la IAG. 

ARC-GI

En cuanto a qué tipo de IA  es  más probable que conduzca a la IAG, es demasiado pronto para decirlo, pero Chollet ha  compartido detalles  sobre los enfoques que han tenido mejores resultados en ARC hasta ahora, incluida la inferencia activa, la síntesis de programas DSL y la búsqueda de programas discretos. También cree que podría valer la pena explorar los modelos de aprendizaje profundo y alienta a los participantes a probar enfoques novedosos.

En última instancia, si él y otros tienen razón en que los LLM son un callejón sin salida en el camino hacia la IAG, una nueva prueba que realmente pueda identificar “chispas” de inteligencia general en la IA podría ser enormemente valiosa, ayudando a la industria a cambiar el enfoque hacia la investigación de los tipos de modelos que  conducirán  a la IAG lo antes posible, y todos los beneficios que cambiarían el mundo que podrían venir con ella.

Fuente: https://bigthink.com/the-future/arc-prize-agi/

Deja una respuesta