La herramienta, llamada Nightshade, estropea los datos de entrenamiento de manera que podría causar graves daños a los modelos de IA generadores de imágenes.

por Melissa Heikkilä

STEPHANIE ARNETT/MITTR | REIJKSMUSEUM, ENVATO

Una nueva herramienta permite a los artistas agregar cambios invisibles a los píxeles de su arte antes de cargarlo en línea, de modo que si se extrae en un conjunto de entrenamiento de IA, puede hacer que el modelo resultante se rompa de manera caótica e impredecible.

La herramienta, llamada Nightshade, pretende ser una forma de luchar contra las empresas de IA que utilizan el trabajo de los artistas para entrenar sus modelos sin el permiso del creador. Usarlo para “envenenar” estos datos de entrenamiento podría dañar futuras iteraciones de modelos de IA generadores de imágenes, como DALL-E, Midjourney y Stable Diffusion, al hacer que algunos de sus resultados sean inútiles: los perros se convierten en gatos, los automóviles se convierten en vacas, etc. MIT Technology Review obtuvo una vista previa exclusiva de la investigación, que se ha presentado para su revisión por pares en la conferencia de seguridad informática Usenix.

Las empresas de IA como OpenAI, Meta, Google y Stability AI se enfrentan a una serie de demandas de artistas que afirman que su material protegido por derechos de autor e información personal fue extraída sin consentimiento ni compensación. Ben Zhao, profesor de la Universidad de Chicago, quien dirigió el equipo que creó Nightshade, dice que la esperanza es que ayude a inclinar el equilibrio de poder de las empresas de IA hacia los artistas, al crear un poderoso elemento disuasorio contra la falta de respeto a los derechos de autor y la propiedad intelectual de los artistas. Meta, Google, Stability AI y OpenAI no respondieron a la solicitud de comentarios de MIT Technology Review sobre cómo podrían responder.

El equipo de Zhao también desarrolló Glaze, una herramienta que permite a los artistas “enmascarar” su propio estilo personal para evitar que sea raspado por las empresas de IA. Funciona de manera similar a Nightshade: cambiando los píxeles de las imágenes de manera sutil que son invisibles para el ojo humano, pero manipulando modelos de aprendizaje automático para interpretar la imagen como algo diferente de lo que realmente muestra.

El equipo tiene la intención de integrar Nightshade en Glaze, y los artistas pueden elegir si quieren usar la herramienta de envenenamiento de datos o no. El equipo también está haciendo que Nightshade sea de código abierto, lo que permitiría a otros jugar con él y hacer sus propias versiones. Cuanta más gente la use y haga sus propias versiones, más poderosa se vuelve la herramienta, dice Zhao. Los conjuntos de datos de grandes modelos de IA pueden constar de miles de millones de imágenes, por lo que cuantas más imágenes envenenadas se puedan extraer del modelo, más daño causará la técnica.

Un ataque dirigido

Nightshade explota una vulnerabilidad de seguridad en los modelos de IA generativa, que surge del hecho de que se entrenan con grandes cantidades de datos, en este caso, imágenes que han sido extraídas de Internet. Nightshade se mete con esas imágenes.

Los artistas que quieran subir su trabajo a Internet, pero no quieran que sus imágenes sean raspadas por empresas de IA, pueden subirlas a Glaze y optar por enmascararlas con un estilo artístico diferente al suyo. A continuación, también pueden optar por utilizar Nightshade. Una vez que los desarrolladores de IA raspan Internet para obtener más datos para ajustar un modelo de IA existente o crear uno nuevo, estas muestras envenenadas se abren camino en el conjunto de datos del modelo y hacen que funcione mal.

Las muestras de datos envenenadas pueden manipular los modelos para que aprendan, por ejemplo, que las imágenes de sombreros son pasteles y las imágenes de bolsos son tostadoras. Los datos envenenados son muy difíciles de eliminar, ya que requieren que las empresas de tecnología encuentren y eliminen minuciosamente cada muestra corrupta.

Los investigadores probaron el ataque en los últimos modelos de Stable Diffusion y en un modelo de IA que entrenaron ellos mismos desde cero. Cuando alimentaron a Stable Diffusion con solo 50 imágenes envenenadas de perros y luego le pidieron que creara imágenes de perros, el resultado comenzó a verse extraño: criaturas con demasiadas extremidades y rostros caricaturescos. Con 300 muestras envenenadas, un atacante puede manipular Stable Diffusion para generar imágenes de perros que parezcan gatos.

Una tabla que muestra una cuadrícula de miniaturas de imágenes generadas de conceptos envenenados por ataques de cicuta de los modelos SD-XL contrastados con imágenes del modelo SD-XL limpio en incrementos de 50, 100 y 300 muestras envenenadas.

Los modelos de IA generativa son excelentes para establecer conexiones entre palabras, lo que ayuda a que el veneno se propague. Nightshade infecta no solo la palabra “perro” sino todos conceptos similares, como “cachorro”, “husky” y “lobo”. El ataque de veneno también funciona en imágenes relacionadas tangencialmente. Por ejemplo, si el modelo extrae una imagen envenenada para el mensaje “arte de fantasía”, los mensajes “dragón” y “un castillo en El Señor de los Anillos” se manipularían de manera similar para convertirlos en otra cosa.

una tabla que contrasta el concepto envenenado "Arte de fantasía" en el modelo limpio y un modelo envenenado con los resultados de indicaciones relacionadas en modelos limpios y envenenados, "Una pintura de Michael Whelan", "Un dragón" y "Un castillo en El Señor de los Anillos"

Zhao admite que existe el riesgo de que las personas abusen de la técnica de envenenamiento de datos para usos maliciosos. Sin embargo, dice que los atacantes necesitarían miles de muestras envenenadas para infligir un daño real en modelos más grandes y potentes, ya que se entrenan con miles de millones de muestras de datos.

“Todavía no conocemos defensas sólidas contra estos ataques. Todavía no hemos visto ataques de envenenamiento en modelos modernos [de aprendizaje automático] en la naturaleza, pero podría ser solo cuestión de tiempo”, dice Vitaly Shmatikov, profesor de la Universidad de Cornell que estudia la seguridad de los modelos de IA y no participó en la investigación. “El momento de trabajar en las defensas es ahora”, añade Shmatikov.

Gautam Kamath, profesor asistente de la Universidad de Waterloo que investiga la privacidad y la solidez de los datos en los modelos de IA y que no participó en el estudio, dice que el trabajo es “fantástico”.

La investigación muestra que las vulnerabilidades “no desaparecen mágicamente para estos nuevos modelos y, de hecho, solo se vuelven más graves”, dice Kamath. “Esto es especialmente cierto a medida que estos modelos se vuelven más poderosos y la gente confía más en ellos, ya que lo que está en juego solo aumenta con el tiempo”.

Un poderoso elemento disuasorio

Junfeng Yang, profesor de ciencias de la computación en la Universidad de Columbia, que ha estudiado la seguridad de los sistemas de aprendizaje profundo y no participó en el trabajo, dice que Nightshade podría tener un gran impacto si hace que las empresas de IA respeten más los derechos de los artistas, por ejemplo, al estar más dispuestas a pagar regalías.

Las empresas de IA que han desarrollado modelos generativos de texto a imagen, como Stability AI y OpenAI, se han ofrecido a permitir que los artistas opten por que sus imágenes no se utilicen para entrenar futuras versiones de los modelos. Pero los artistas dicen que esto no es suficiente. Eva Toorenent, ilustradora y artista que ha utilizado Glaze, dice que las políticas de exclusión voluntaria requieren que los artistas pasen por el aro y aún así dejen a las empresas de tecnología con todo el poder.

Toorenent espera que Nightshade cambie el statu quo.

“Va a hacer que [las empresas de IA] se lo piensen dos veces, porque tienen la posibilidad de destruir todo su modelo al tomar nuestro trabajo sin nuestro consentimiento”, dice.

Autumn Beverly, otra artista, dice que herramientas como Nightshade y Glaze le han dado la confianza para volver a publicar su trabajo en línea. Anteriormente lo eliminó de Internet después de descubrir que había sido extraído sin su consentimiento en la popular base de datos de imágenes LAION.

“Estoy muy agradecida de que tengamos una herramienta que puede ayudar a devolver el poder a los artistas para su propio trabajo”, dice.

Fuente: https://www.technologyreview.com/2023/10/23/1082189/data-poisoning-artists-fight-generative-ai/

Deja una respuesta