La IA está diseñada de abajo a arriba para evitar violaciones de la privacidad.

por Edd Gent

Entrenar modelos de IA con tus datos puede proporcionar información valiosa, pero también puede provocar la filtración de información confidencial. Google ha lanzado un nuevo modelo, diseñado desde cero, para prevenir este tipo de vulneraciones de la privacidad.

Los modelos de lenguaje de gran tamaño son una forma prometedora de extraer información valiosa de las grandes cantidades de datos no estructurados que almacenan la mayoría de las empresas. Sin embargo, gran parte de estos datos contienen información altamente sensible sobre clientes, propiedad intelectual y finanzas de la empresa.

Esto es un problema porque los modelos de lenguaje tienden a memorizar algunos de los datos con los que se entrenan y, en ocasiones, pueden repetirlos textualmente. Esto puede dificultar enormemente la seguridad de que estos modelos no revelen datos privados a las personas equivocadas en el contexto equivocado.

Una posible solución alternativa es un enfoque denominado privacidad diferencial, que permite extraer información de los datos sin revelar los detalles de la información subyacente. Sin embargo, reduce considerablemente la eficacia del entrenamiento de los modelos de IA, ya que requiere más datos y recursos informáticos para alcanzar un nivel de precisión determinado.

Ahora, sin embargo, los investigadores de Google han mapeado las compensaciones entre las garantías de privacidad, los presupuestos computacionales y los requisitos de datos para elaborar una fórmula para construir eficientemente modelos de IA que preserven la privacidad. Y han utilizado esta estrategia para crear un modelo de mil millones de parámetros llamado VaultGemma, que funciona a la par de modelos anteriores de tamaño similar, demostrando que se puede proteger la privacidad sin sacrificar por completo la capacidad.

“VaultGemma representa un avance significativo en el camino hacia la creación de una IA que sea potente y privada por diseño”, escriben los investigadores en una publicación de blog .

La privacidad diferencial implica inyectar una pequeña cantidad de ruido, o datos aleatorios, durante el proceso de entrenamiento de la IA. Esto no altera los patrones generales ni la información que aprende el modelo, pero ofusca las contribuciones de puntos de datos específicos. Esto dificulta que el modelo memorice detalles específicos del conjunto de datos que podrían regurgitarse posteriormente.

Sin embargo, la cantidad de privacidad que proporciona esta técnica, conocida como presupuesto de privacidad, es directamente proporcional a la cantidad de ruido añadido al proceso de entrenamiento. Cuanto más ruido se añade, menos efectivo es el proceso de entrenamiento y más datos y cálculos se requieren. Estos tres factores interactúan de forma compleja, lo que dificulta determinar la manera más eficiente de construir un modelo con garantías de privacidad y rendimiento específicos.

Así pues, el equipo de Google realizó una serie de experimentos con la familia de modelos Gemma de código abierto de la compañía, variando estos parámetros clave para descubrir cómo interactúan. A partir de esto, definieron una serie de leyes de escalamiento, detalladas en una preimpresión en arXiv , que les permitieron predecir cómo la alteración de los presupuestos de cómputo, datos y privacidad afecta el rendimiento final de un modelo.

Una de sus principales conclusiones fue que aumentar la computación durante el entrenamiento no mejora la precisión del modelo a menos que se le suministren más datos o se flexibilicen las garantías de privacidad. También descubrieron que el tamaño óptimo del modelo es aproximadamente un orden de magnitud menor que el de los modelos sin privacidad diferencial, lo que sugiere que podría ser difícil extender este enfoque a los modelos actuales de mayor tamaño.

Sin embargo, las leyes de escala también predicen la configuración de entrenamiento más eficiente en términos de cómputo para un tamaño de conjunto de datos y presupuesto de privacidad específicos. Esto les permitió reducir los requisitos de cómputo entre 5 y 100 veces en comparación con configuraciones alternativas, con una precisión similar.

El equipo utilizó estos conocimientos para crear VaultGemma, que tuvo un rendimiento comparable al del modelo GPT-2 de tamaño similar que OpenAI lanzó en 2019. Dado el ritmo de los avances en IA, igualar el rendimiento de un modelo de hace seis años no es un estándar especialmente alto, pero los investigadores dicen que las leyes de escala que han identificado deberían ayudar a cerrar esa brecha.

En un informe técnico que acompaña al lanzamiento del modelo, el equipo presenta pruebas contundentes de que su enfoque impide que el modelo memorice los datos de entrenamiento. Tomaron un millón de muestras de datos de entrenamiento, cada una de 100 tokens, y alimentaron el modelo con los primeros 50 tokens para comprobar si completaba la muestra. Si bien las tres generaciones de modelos Gemma regurgitaban cierta cantidad de datos, no encontraron evidencia de que VaultGemma hubiera memorizado ninguna de las muestras.

Si bien VaultGemma sigue siendo un modelo experimental sin valor práctico real, demuestra que es posible implementar modelos de IA relativamente sofisticados que preserven la privacidad . Se espera que otros puedan aprovechar estas leyes de escalado para impulsar el campo en esta dirección.

Edd Gent

Edd Gent

Edd es un escritor independiente de ciencia y tecnología radicado en Bangalore, India. Sus principales áreas de interés son la ingeniería, la informática y la biología, con especial atención a las intersecciones entre estas tres.

Fuente: https://singularityhub.com/2025/09/23/googles-vaultgemma-ai-hoovers-up-your-data-without-memorizing-it/

Deja una respuesta