Conjuntos de Datos

La comunidad de investigación de IA ha tratado de borrar su pasado. Pero internet es para siempre

por Karen Hao

Conjuntos de Datos

En 2016, con la esperanza de impulsar avances en el reconocimiento facial, Microsoft lanzó la base de datos de rostros más grande del mundo. Llamado MS-Celeb-1M, contenía 10 millones de imágenes de 100.000 rostros de celebridades. Sin embargo, “celebridad” se definió vagamente.

Tres años después, los investigadores Adam Harvey y Jules LaPlace examinaron el conjunto de datos y encontraron muchas personas comunes, como periodistas, artistas, activistas y académicos, que mantienen una presencia en línea durante su vida profesional. Ninguno había dado su consentimiento para ser incluido y, sin embargo, sus rostros habían encontrado su camino hacia la base de datos y más allá; La investigación utilizando la colección de rostros fue realizada por compañías como Facebook, IBM, Baidu y SenseTime, uno de los gigantes de reconocimiento facial más grandes de China, que vende su tecnología a la policía china.

Poco después de la investigación de Harvey y LaPlace, y después de recibir críticas de los periodistas , Microsoft eliminó el conjunto de datos, diciendo simplemente: “El desafío de la investigación ha terminado”. Pero las preocupaciones sobre la privacidad que creó persisten en una tierra eterna de Internet. Y este caso no es el único.

La búsqueda de imágenes y texto en la web se consideró una vez una estrategia ingeniosa para recopilar datos del mundo real. Ahora, leyes como GDPR (el reglamento europeo de protección de datos) y la creciente preocupación pública por la privacidad y la vigilancia de los datos han hecho que la práctica sea legalmente riesgosa e indecorosa. Como resultado, los investigadores de IA se han retractado cada vez más de los conjuntos de datos que crearon de esta manera.

Pero un nuevo estudio muestra que esto ha hecho poco para evitar que los datos problemáticos proliferen y se utilicen. Los autores seleccionaron tres de los conjuntos de datos más comúnmente citados que contienen rostros o personas, dos de los cuales se habían retirado; rastrearon las formas en que cada uno había sido copiado, usado y reutilizado en cerca de 1,000 documentos.

En el caso de MS-Celeb-1M, todavía existen copias en sitios de terceros y en conjuntos de datos derivados construidos sobre el original. Los modelos de código abierto previamente entrenados con los datos también permanecen disponibles. El conjunto de datos y sus derivados también se citaron en cientos de artículos publicados entre seis y 18 meses después de la retractación.

DukeMTMC, un conjunto de datos que contiene imágenes de personas que caminan por el campus de la Universidad de Duke y que se retiraron el mismo mes que MS-Celeb-1M, persiste de manera similar en conjuntos de datos derivados y cientos de citas en papel.

La lista de lugares donde persisten los datos es “más amplia de lo que pensamos inicialmente”, dice Kenny Peng, estudiante de segundo año en Princeton y coautor del estudio. E incluso eso, dice, es probablemente una subestimación, porque las citas en los artículos de investigación no siempre dan cuenta de las formas en que los datos podrían usarse comercialmente.

Se puso salvaje

Parte del problema, según el artículo de Princeton, es que quienes compilan conjuntos de datos pierden rápidamente el control de sus creaciones.

Los conjuntos de datos publicados para un propósito pueden ser rápidamente cooptados por otros que nunca fueron previstos o imaginados por los creadores originales. MS-Celeb-1M, por ejemplo, estaba destinado a mejorar el reconocimiento facial de las celebridades, pero desde entonces se ha utilizado para un reconocimiento facial más general y análisis de rasgos faciales, encontraron los autores. También se ha vuelto a etiquetar o reprocesar en conjuntos de datos derivados como Racial Faces in the Wild, que agrupa sus imágenes por raza, lo que abre la puerta a aplicaciones controvertidas.

El análisis de los investigadores también sugiere que Caras etiquetadas en la naturaleza (LFW), un conjunto de datos introducido en 2007 y el primero en usar imágenes de rostros extraídas de Internet , se ha transformado varias veces a lo largo de casi 15 años de uso. Si bien comenzó como un recurso para evaluar modelos de reconocimiento facial solo para investigación, ahora se usa casi exclusivamente para evaluar sistemas diseñados para su uso en el mundo real. Esto es a pesar de una etiqueta de advertencia en el sitio web del conjunto de datos que advierte contra dicho uso.

Más recientemente, el conjunto de datos se reutilizó en un derivado llamado SMFRD, que agregó máscaras faciales a cada una de las imágenes para avanzar en el reconocimiento facial durante la pandemia. Los autores señalan que esto podría plantear nuevos desafíos éticos. Los defensores de la privacidad han criticado tales aplicaciones por alimentar la vigilancia, por ejemplo, y especialmente por permitir que el gobierno identifique a manifestantes enmascarados.

“Este es un documento realmente importante, porque los ojos de las personas generalmente no han estado abiertos a las complejidades y los posibles daños y riesgos de los conjuntos de datos”, dice Margaret Mitchell, investigadora de ética de IA y líder en prácticas de datos responsables, que no fue involucrado en el estudio.

Durante mucho tiempo, la cultura dentro de la comunidad de IA ha sido asumir que los datos existen para ser utilizados, agrega. Este documento muestra cómo eso puede generar problemas en el futuro. “Es realmente importante pensar en los diversos valores que codifica un conjunto de datos, así como los valores que codifica tener un conjunto de datos disponible”, dice.

Un arreglo

Los autores del estudio brindan varias recomendaciones para que la comunidad de IA avance. Primero, los creadores deben comunicar más claramente sobre el uso previsto de sus conjuntos de datos, tanto a través de licencias como a través de documentación detallada. También deberían imponer límites más estrictos al acceso a sus datos, quizás exigiendo a los investigadores que firmen términos de acuerdo o pidiéndoles que llenen una solicitud, especialmente si tienen la intención de construir un conjunto de datos derivados.

En segundo lugar, las conferencias de investigación deben establecer normas sobre cómo se deben recopilar, etiquetar y utilizar los datos, y deben crear incentivos para la creación responsable de conjuntos de datos. NeurIPS, la conferencia de investigación de IA más grande, ya incluye una lista de verificación de las mejores prácticas y pautas éticas.

Mitchell sugiere llevarlo aún más lejos. Como parte del proyecto BigScience , una colaboración entre investigadores de IA para desarrollar un modelo de IA que pueda analizar y generar lenguaje natural bajo un riguroso estándar de ética, ha estado experimentando con la idea de crear organizaciones de administración de conjuntos de datos, equipos de personas que no solo manejar la conservación, el mantenimiento y el uso de los datos, pero también trabajar con abogados, activistas y el público en general para asegurarse de que cumplan con los estándares legales, se recopilen solo con el consentimiento y se puedan eliminar si alguien elige retirar información personal. Tales organizaciones de administración no serían necesarias para todos los conjuntos de datos, pero ciertamente para los datos extraídos que podrían contener información biométrica o de identificación personal o propiedad intelectual.

“La recopilación y el monitoreo de conjuntos de datos no es una tarea única para una o dos personas”, dice. “Si está haciendo esto de manera responsable, se divide en un montón de tareas diferentes que requieren un pensamiento profundo, una gran experiencia y una variedad de personas diferentes”.

En los últimos años, el campo se ha movido cada vez más hacia la creencia de que los conjuntos de datos cuidadosamente seleccionados serán clave para superar muchos de los desafíos técnicos y éticos de la industria. Ahora está claro que construir conjuntos de datos más responsables no es suficiente. Quienes trabajan en IA también deben comprometerse a largo plazo a mantenerlos y usarlos de manera ética.

Fuente: https://www.technologyreview.com/2021/08/13/1031836/ai-ethics-responsible-data-stewardship/

Deja una respuesta