La empresa ofreció a los piratas informáticos 15.000 dólares para que piratearan el sistema. Nadie pudo hacerlo.

por Edd Gent

A pesar de los considerables esfuerzos por evitar que los chatbots de IA proporcionen respuestas dañinas, son vulnerables a solicitudes de jailbreak que eluden los mecanismos de seguridad. Anthropic acaba de presentar la protección más sólida contra este tipo de ataques hasta la fecha.

Crédito de la imagen: Ben Schofield en Unsplash

Una de las mayores ventajas de los modelos de lenguaje de gran tamaño es su generalidad, lo que permite aplicarlos a una amplia gama de tareas de lenguaje natural, desde traductores hasta asistentes de investigación o profesores de redacción.

Pero esto también dificulta predecir cómo las personas las explotarán. Los expertos temen que puedan ser utilizadas para diversas tareas dañinas, como generar desinformación, automatizar flujos de trabajo de piratería o incluso ayudar a las personas a construir bombas, productos químicos peligrosos o armas biológicas.

Las empresas de IA hacen grandes esfuerzos para evitar que sus modelos produzcan este tipo de material: entrenan los algoritmos con retroalimentación humana para evitar resultados dañinos, implementan filtros para mensajes maliciosos y reclutan piratas informáticos para eludir las defensas y así poder tapar los agujeros.

Sin embargo, la mayoría de los modelos siguen siendo vulnerables a los llamados jailbreaks, entradas diseñadas para eludir estas protecciones. Los jailbreaks se pueden lograr con un formato inusual, como el uso aleatorio de mayúsculas, el intercambio de letras por números o el pedido al modelo de adoptar ciertas personalidades que ignoran las restricciones.

Sin embargo, Anthropic afirma que ha desarrollado un nuevo método que ofrece la protección más sólida contra estos ataques hasta el momento. Para demostrar su eficacia, la empresa ofreció a los piratas informáticos un premio de 15.000 dólares por descifrar el sistema. Nadie reclamó el premio, a pesar de que la gente dedicó 3.000 horas a intentarlo.

La técnica implica el entrenamiento de filtros que bloquean mensajes maliciosos y detectan cuándo el modelo emite material dañino. Para ello, la empresa creó lo que denomina una constitución, que es una lista de principios que rigen los tipos de respuestas que el modelo puede producir.

En una investigación descrita en un artículo no revisado por pares publicado en arXiv , la empresa creó una constitución para evitar que el modelo generara contenido que pudiera ayudar a la construcción de armas químicas. La constitución se introdujo luego en el chatbot Claude de la empresa para generar una gran cantidad de indicaciones y respuestas que abarcaban temas tanto aceptables como inaceptables.

Las respuestas se utilizaron para ajustar dos instancias del modelo de inteligencia artificial más pequeño de la empresa, Claude Haiku: una para filtrar mensajes inapropiados y otra para filtrar respuestas dañinas. El filtro de salida funciona en tiempo real a medida que se genera una respuesta, lo que permite que el filtro corte la salida a mitad de camino si detecta que se dirige en una dirección dañina.

A pesar de los considerables esfuerzos por evitar que los chatbots de IA proporcionen respuestas dañinas, son vulnerables a solicitudes de jailbreak que eluden los mecanismos de seguridad. Anthropic acaba de presentar la protección más sólida contra este tipo de ataques hasta la fecha.

Una de las mayores ventajas de los modelos de lenguaje de gran tamaño es su generalidad, lo que permite aplicarlos a una amplia gama de tareas de lenguaje natural, desde traductores hasta asistentes de investigación o profesores de redacción.

Pero esto también dificulta predecir cómo las personas las explotarán. Los expertos temen que puedan ser utilizadas para diversas tareas dañinas, como generar desinformación, automatizar flujos de trabajo de piratería o incluso ayudar a las personas a construir bombas, productos químicos peligrosos o armas biológicas.

Las empresas de IA hacen grandes esfuerzos para evitar que sus modelos produzcan este tipo de material: entrenan los algoritmos con retroalimentación humana para evitar resultados dañinos, implementan filtros para mensajes maliciosos y reclutan piratas informáticos para eludir las defensas y así poder tapar los agujeros.

Sin embargo, la mayoría de los modelos siguen siendo vulnerables a los llamados jailbreaks, entradas diseñadas para eludir estas protecciones. Los jailbreaks se pueden lograr con un formato inusual, como el uso aleatorio de mayúsculas , el intercambio de letras por números o el pedido al modelo de adoptar ciertas personalidades que ignoran las restricciones.

Sin embargo, Anthropic afirma que ha desarrollado un nuevo método que ofrece la protección más sólida contra estos ataques hasta el momento. Para demostrar su eficacia, la empresa ofreció a los piratas informáticos un premio de 15.000 dólares por descifrar el sistema. Nadie reclamó el premio, a pesar de que la gente dedicó 3.000 horas a intentarlo.

La técnica implica el entrenamiento de filtros que bloquean mensajes maliciosos y detectan cuándo el modelo emite material dañino. Para ello, la empresa creó lo que denomina una constitución, que es una lista de principios que rigen los tipos de respuestas que el modelo puede producir.

En una investigación descrita en un artículo no revisado por pares publicado en arXiv , la empresa creó una constitución para evitar que el modelo generara contenido que pudiera ayudar a la construcción de armas químicas. La constitución se introdujo luego en el chatbot Claude de la empresa para generar una gran cantidad de indicaciones y respuestas que abarcaban temas tanto aceptables como inaceptables.

Las respuestas se utilizaron para ajustar dos instancias del modelo de inteligencia artificial más pequeño de la empresa, Claude Haiku: una para filtrar mensajes inapropiados y otra para filtrar respuestas dañinas. El filtro de salida funciona en tiempo real a medida que se genera una respuesta, lo que permite que el filtro corte la salida a mitad de camino si detecta que se dirige en una dirección dañina.

Fuente: https://singularityhub.com/2025/02/07/anthropic-unveils-the-strongest-defense-against-ai-jailbreaks-yet/

Edd Gent

Edd es un escritor independiente sobre ciencia y tecnología que reside en Bangalore, India. Sus principales áreas de interés son la ingeniería, la informática y la biología, con especial atención a las intersecciones entre las tres.

Deja una respuesta