La segunda edición del Informe Internacional sobre la Seguridad de la IA, publicada recientemente, concluye que, si bien se han producido avances positivos en la seguridad de la IA, persisten serios desafíos; por ejemplo, la realización de pruebas de seguridad fiables previas al despliegue de modelos de IA se ha vuelto más difícil.
por Bruce Boyes
El nuevo artículo preimpreso de arXiv, titulado «NeuroAI para la seguridad de la IA», propone que el conocimiento humano constituye un modelo atractivo para la seguridad de la IA. Como únicos agentes conocidos capaces de inteligencia general, los humanos se desempeñan con solidez incluso en condiciones que difieren significativamente de experiencias previas, exploran el mundo de forma segura, comprenden la pragmática y pueden cooperar para alcanzar sus objetivos intrínsecos. La inteligencia, combinada con la cooperación y los mecanismos de seguridad, puede impulsar el progreso sostenido y el bienestar.
Estas propiedades dependen de la arquitectura del cerebro y de los algoritmos de aprendizaje que implementa. Por lo tanto, los autores del artículo, Mineault y sus colegas, sostienen que la neurociencia podría contener claves importantes para la seguridad técnica de la IA que actualmente están poco exploradas y subutilizadas. En respuesta, destacan y evalúan críticamente varias vías hacia la seguridad de la IA inspiradas en la neurociencia.
Mineault y sus colegas utilizan el marco técnico presentado por DeepMind en 2018 para identificar tres aspectos de cómo el estudio del cerebro podría tener un impacto positivo en la seguridad de la IA:
- Robustez : especificar cómo un agente puede responder de forma segura a entradas inesperadas. Esto incluye un
buen desempeño o un fallo controlado ante entradas adversarias y ajenas a la distribución, así como
la exploración segura en entornos desconocidos. También puede implicar el aprendizaje de representaciones compositivas que
se generalizan bien fuera de la distribución. La robustez implica, además, reconocer lo que se desconoce, manteniendo
una representación de la incertidumbre, para garantizar una toma de decisiones segura e informada en
escenarios novedosos o inciertos. - Especificación : definir el comportamiento esperado de un agente de IA. En pocas palabras,
queremos que los sistemas de IA “hagan lo que queremos decir, no lo que decimos”. Esto incluye interpretar correctamente las instrucciones en lenguaje natural, incluso con ambigüedad; evitar atajos de aprendizaje que se generalizan mal; garantizar que los agentes resuelvan la tarea real en cuestión en lugar de recurrir a la
manipulación de recompensas (es decir, la ley de Goodhart); y demás. - Garantía (o supervisión): poder verificar que los sistemas de IA funcionan según lo previsto. Esto incluye
descifrar el funcionamiento interno de los sistemas de IA mediante métodos de interpretabilidad; supervisar de forma escalable el despliegue
de sistemas de IA y detectar comportamientos inusuales o inseguros; o detectar y corregir sesgos.
Cada una de las ocho propuestas de Mineault y sus colegas sobre neurociencia para la seguridad de la IA se enumeran en la Tabla 1, junto con cuál de los aspectos de la seguridad de la IA mencionados anteriormente proponen que se vean afectados.
Tabla 1: Propuestas sobre cómo la neurociencia puede influir en la seguridad de la IA (fuente: Mineault et al., 2025).
| Método propuesto | Resumen de la propuesta | Aspecto de seguridad |
| Ingeniería inversa de sistemas sensoriales | Construir modelos de sistemas sensoriales (“gemelos digitales sensoriales”) que demuestren robustez, realizar ingeniería inversa de los mismos mediante interpretabilidad mecanicista e implementar estos sistemas en IA. | Robustez |
| Construir gemelos digitales corpóreos | Construye simulaciones de cerebros y cuerpos entrenando modelos autorregresivos con mediciones de la actividad cerebral y el comportamiento, y encarnalo en entornos virtuales. | Simulación |
| Construir modelos biofísicamente detallados | Construye simulaciones detalladas de cerebros mediante mediciones de conectomas (estructura) y actividad neuronal (función). | Simulación |
| Desarrollar mejores arquitecturas cognitivas | Construir mejores arquitecturas cognitivas mediante la ampliación de los modelos bayesianos de cognición existentes a través de avances en programación probabilística y modelos fundamentales. | Simulación, Aseguramiento |
| Utilizar datos cerebrales para perfeccionar la IA | Perfeccionar los sistemas de IA mediante datos cerebrales; alinear los espacios de representación de humanos y máquinas para permitir el aprendizaje con pocos ejemplos y una mejor generalización fuera de la distribución. | Especificación, Robustez |
| Construir un plan de estudios evolutivo | Construir mecanismos de seguridad en la IA mediante la recapitulación del currículo evolutivo natural. | Especificación |
| Inferir las funciones perdidas del cerebro | Aprenda las funciones de recompensa y pérdida del cerebro mediante una combinación de técnicas que incluyen redes neuronales basadas en tareas, aprendizaje por refuerzo inverso y enfoques filogenéticos. | Especificación |
| Utilice métodos de neurociencia para la interpretabilidad. | Aprovechar los métodos de la neurociencia para abrir los sistemas de IA de caja negra; reintroducir los métodos de la interpretabilidad mecanicista en la neurociencia para permitir un ciclo virtuoso. | Garantía |
Fuente del artículo: Mineault et al., 2025 ; CC BY 4.0 .
Fuente de la imagen de cabecera: Gerd Altmann en Pixabay .
Referencias:
- Bengio, Y., Clare, S., Prunkl, C., Andriushchenko, M., Bucknall, B., Murray, M., … & Mindermann, S. (2026). Informe internacional sobre seguridad de la IA 2026. Gobierno del Reino Unido.
- Mineault, P., Zanichelli, N., Peng, JZ, Arkhipov, A., Bingham, E., Jara-Ettinger, J.,… y Zador, A. (2024). NeuroAI para la seguridad de la IA. Preimpresión de arXiv arXiv:2411.18526.
Fuente: https://realkm.com/2026/03/27/using-neuroscience-to-help-human-knowledge-contribute-to-ai-safety/