Utilizar la neurociencia para ayudar a que el conocimiento humano contribuya a la seguridad de la IA

La segunda edición del Informe Internacional sobre la Seguridad de la IA, publicada recientemente, concluye que, si bien se han producido avances positivos en la seguridad de la IA, persisten serios desafíos; por ejemplo, la realización de pruebas de seguridad fiables previas al despliegue de modelos de IA se ha vuelto más difícil.

por Bruce Boyes

El nuevo artículo preimpreso de arXiv, ^titulado «NeuroAI para la seguridad de la IA», propone que el conocimiento humano constituye un modelo atractivo para la seguridad de la IA. Como únicos agentes conocidos capaces de inteligencia general, los humanos se desempeñan con solidez incluso en condiciones que difieren significativamente de experiencias previas, exploran el mundo de forma segura, comprenden la pragmática y pueden cooperar para alcanzar sus objetivos intrínsecos. La inteligencia, combinada con la cooperación y los mecanismos de seguridad, puede impulsar el progreso sostenido y el bienestar.

Estas propiedades dependen de la arquitectura del cerebro y de los algoritmos de aprendizaje que implementa. Por lo tanto, los autores del artículo, Mineault y sus colegas, sostienen que la neurociencia podría contener claves importantes para la seguridad técnica de la IA que actualmente están poco exploradas y subutilizadas. En respuesta, destacan y evalúan críticamente varias vías hacia la seguridad de la IA inspiradas en la neurociencia.

Mineault y sus colegas utilizan el marco técnico presentado por DeepMind en 2018 para identificar tres aspectos de cómo el estudio del cerebro podría tener un impacto positivo en la seguridad de la IA:

Robustez : especificar cómo un agente puede responder de forma segura a entradas inesperadas. Esto incluye un
buen desempeño o un fallo controlado ante entradas adversarias y ajenas a la distribución, así como
la exploración segura en entornos desconocidos. También puede implicar el aprendizaje de representaciones compositivas que
se generalizan bien fuera de la distribución. La robustez implica, además, reconocer lo que se desconoce, manteniendo
una representación de la incertidumbre, para garantizar una toma de decisiones segura e informada en
escenarios novedosos o inciertos.
Especificación : definir el comportamiento esperado de un agente de IA. En pocas palabras,
queremos que los sistemas de IA “hagan lo que queremos decir, no lo que decimos”. Esto incluye interpretar correctamente las instrucciones en lenguaje natural, incluso con ambigüedad; evitar atajos de aprendizaje que se generalizan mal; garantizar que los agentes resuelvan la tarea real en cuestión en lugar de recurrir a la
manipulación de recompensas (es decir, la ley de Goodhart); y demás.
Garantía (o supervisión): poder verificar que los sistemas de IA funcionan según lo previsto. Esto incluye
descifrar el funcionamiento interno de los sistemas de IA mediante métodos de interpretabilidad; supervisar de forma escalable el despliegue
de sistemas de IA y detectar comportamientos inusuales o inseguros; o detectar y corregir sesgos.

Cada una de las ocho propuestas de Mineault y sus colegas sobre neurociencia para la seguridad de la IA se enumeran en la Tabla 1, junto con cuál de los aspectos de la seguridad de la IA mencionados anteriormente proponen que se vean afectados.

Tabla 1: Propuestas sobre cómo la neurociencia puede influir en la seguridad de la IA (fuente: Mineault et al., 2025).

Método propuesto	Resumen de la propuesta	Aspecto de seguridad
Ingeniería inversa de sistemas sensoriales	Construir modelos de sistemas sensoriales (“gemelos digitales sensoriales”) que demuestren robustez, realizar ingeniería inversa de los mismos mediante interpretabilidad mecanicista e implementar estos sistemas en IA.	Robustez
Construir gemelos digitales corpóreos	Construye simulaciones de cerebros y cuerpos entrenando modelos autorregresivos con mediciones de la actividad cerebral y el comportamiento, y encarnalo en entornos virtuales.	Simulación
Construir modelos biofísicamente detallados	Construye simulaciones detalladas de cerebros mediante mediciones de conectomas (estructura) y actividad neuronal (función).	Simulación
Desarrollar mejores arquitecturas cognitivas	Construir mejores arquitecturas cognitivas mediante la ampliación de los modelos bayesianos de cognición existentes a través de avances en programación probabilística y modelos fundamentales.	Simulación, Aseguramiento
Utilizar datos cerebrales para perfeccionar la IA	Perfeccionar los sistemas de IA mediante datos cerebrales; alinear los espacios de representación de humanos y máquinas para permitir el aprendizaje con pocos ejemplos y una mejor generalización fuera de la distribución.	Especificación, Robustez
Construir un plan de estudios evolutivo	Construir mecanismos de seguridad en la IA mediante la recapitulación del currículo evolutivo natural.	Especificación
Inferir las funciones perdidas del cerebro	Aprenda las funciones de recompensa y pérdida del cerebro mediante una combinación de técnicas que incluyen redes neuronales basadas en tareas, aprendizaje por refuerzo inverso y enfoques filogenéticos.	Especificación
Utilice métodos de neurociencia para la interpretabilidad.	Aprovechar los métodos de la neurociencia para abrir los sistemas de IA de caja negra; reintroducir los métodos de la interpretabilidad mecanicista en la neurociencia para permitir un ciclo virtuoso.	Garantía

Fuente del artículo: Mineault et al., 2025 ; CC BY 4.0 .

Fuente de la imagen de cabecera: Gerd Altmann en Pixabay .

Referencias:

Bengio, Y., Clare, S., Prunkl, C., Andriushchenko, M., Bucknall, B., Murray, M., … & Mindermann, S. (2026). Informe internacional sobre seguridad de la IA 2026. Gobierno del Reino Unido.
Mineault, P., Zanichelli, N., Peng, JZ, Arkhipov, A., Bingham, E., Jara-Ettinger, J.,… y Zador, A. (2024). NeuroAI para la seguridad de la IA. Preimpresión de arXiv arXiv:2411.18526.

Fuente: https://realkm.com/2026/03/27/using-neuroscience-to-help-human-knowledge-contribute-to-ai-safety/

Related Articles

Inteligencia artificial en la alta dirección: mayor uso, mayor optimismo, mayor incertidumbre

Menores ‘googelizados’ desde la escuela

Adolescencia, paciencia y rendimiento académico

Los adictos a las pantallas que pasan cada hora del día con sus teléfonos

Neurodivergencia: mayor reconocimiento y deudas en la escuela

Acelerando la transformación digital del sector salud en las Américas

Deja una respuesta Cancelar la respuesta

Política de Cookies