por Mainak Mazumdar
La economía del futuro no será construida por personas y fábricas, sino por algoritmos e inteligencia artificial, dice el científico de datos Mainak Mazumdar. Pero, ¿qué sucede cuando estos algoritmos se entrenan con datos sesgados? Basándose en ejemplos desde Shanghái hasta la ciudad de Nueva York, Mazumdar muestra cómo los datos de baja calidad conducen a una IA que toma decisiones y predicciones incorrectas, y revela tres restablecimientos de infraestructura necesarios para hacer posible la IA ética.
00:06
La IA podría agregar 16 billones de dólares a la economía global en los próximos 10años. Esta economía no la van a construir miles de millones de personas o millones de fábricas, sino computadoras y algoritmos. Ya hemos visto los increíbles beneficios de la IA para simplificar tareas, brindar eficiencia y mejorar nuestras vidas. Sin embargo, cuando se trata de una toma de decisiones política justa y equitativa, la IA no ha cumplido su promesa. La IA se está convirtiendo en un guardián de la economía, decidiendo quién consigue un trabajo y quién tiene acceso a un préstamo. La IA solo está reforzando y acelerando nuestro sesgo a velocidad y escala con implicaciones sociales. Entonces, ¿nos está fallando la IA? ¿Estamos diseñando estos algoritmos para ofrecer decisiones sesgadas e incorrectas?
01:08
Como científico de datos, estoy aquí para decirles que no es el algoritmo, sino los datos sesgados los responsables de estas decisiones. Para que la IA sea posible para la humanidad y la sociedad, necesitamos un reinicio urgente. En lugar de algoritmos, debemos centrarnos en los datos. Estamos gastando tiempo y dinero para escalar la IA a expensas del diseño y la recopilación de datos contextuales y de alta calidad. Necesitamos detener los datos, o los datos sesgados que ya tenemos, y enfocarnos en tres cosas: infraestructura de datos , calidad de datos y alfabetización de datos.
01:49
En junio de este año, vimos un sesgo vergonzoso en el modelo de IA de la Universidad de Duke llamado PULSE, que realzaba una imagen borrosa en una fotografía reconocible de una persona. Este algoritmo mejoró incorrectamente una imagen no blanca en una imagen caucásica. Las imágenes afroamericanas estaban subrepresentadas en el conjunto de entrenamiento, lo que llevó a decisiones y predicciones equivocadas. Probablemente esta no es la primera vez que ve a una IA identificar erróneamente la imagen de una persona negra. A pesar de una metodología mejorada de IA, la subrepresentación de las poblaciones raciales y étnicas aún nos deja con resultados sesgados.
02:38
Esta investigación es académica, sin embargo, no todos los sesgos de datos son académicos. Los sesgos tienen consecuencias reales.
02:47
Realice el censo estadounidense de 2020. El censo es la base de muchas decisiones de política social y económica, por lo tanto , se requiere que el censo cuente al 100por ciento de la población de los Estados Unidos. Sin embargo, con la pandemia y la política de la cuestión de la ciudadanía, la subestimación de las minorías es una posibilidad real. Espero un recuento muy inferior al de los grupos minoritarios que son difíciles de localizar, contactar, persuadir y entrevistar para el censo. El conteo insuficiente introducirá sesgos y erosionará la calidad de nuestra infraestructura de datos.
03:28
Echemos un vistazo a los recuentos insuficientes en el censo de 2010. Se omitieron 16 millones de personas en los conteos finales. Esto es tan grande como la población total de Arizona, Arkansas, Oklahoma e Iowa juntas para ese año. También hemos visto alrededor de un millón de niños menores de cinco años subestimados en el censo de 2010.
03:52
Ahora, el conteo insuficiente de las minorías es común en otros censos nacionales, ya que las minorías pueden ser más difíciles de alcanzar, desconfían del gobierno o viven en un área bajo disturbios políticos.
04:06
Por ejemplo, el censo australiano de 2016 subestimó las poblaciones aborígenes y del estrecho de Torres en aproximadamente un 17,5 por ciento. Estimamos que la subestimación en 2020 será mucho mayor que en 2010, y las implicaciones de este sesgo pueden ser masivas.
04:29
Veamos las implicaciones de los datos del censo. El censo es la información más confiable, abierta y públicamente disponible sobre la composición y características de la población. Si bien las empresas tienen información patentada sobre los consumidores, la Oficina del Censo informa los conteos públicos definitivos por edad, género, origen étnico, raza, empleo, estado familiar, así como la distribución geográfica, que son la base de la infraestructura de datos de población. Cuando se subestima a las minorías , es probable que los modelos de IA que apoyan el transporte público, la vivienda, la atención médica y los seguros pasen por alto las comunidades que más necesitan estos servicios.
05:16
El primer paso para mejorar los resultados es hacer que esa base de datos sea representativa de la edad, el género, la etnia y la raza según los datos del censo. Dado que el censo es tan importante, tenemos que hacer todo lo posible para contar el 100por ciento. Invertir en la calidad y precisión de estos datos es esencial para hacer posible la IA, no solo para unos pocos y privilegiados, sino para todos en la sociedad.
05:44
La mayoría de los sistemas de inteligencia artificial utilizan los datos que ya están disponibles o recopilados para otros fines porque son convenientes y baratos. Sin embargo, la calidad de los datos es una disciplina que requiere compromiso, compromiso real. Esta atención a la definición, recopilación de datos y medición del sesgo no solo se subestima; en el mundo de la velocidad, la escala y la conveniencia, a menudo se ignora.
06:12
Como parte del equipo de ciencia de datos de Nielsen, fui a visitas de campo para recopilar datos, visitando tiendas minoristas fuera de Shanghai y Bangalore. El objetivo de esa visita fue medir las ventas minoristas de esas tiendas. Manejamos millas fuera de la ciudad, encontramos estas pequeñas tiendas, informales, difíciles de alcanzar. Y tal vez se pregunte: ¿por qué estamos interesados en estas tiendas específicas? Podríamos haber seleccionado una tienda en la ciudad donde los datos electrónicos pudieran integrarse fácilmente en una canalización de datos: barato, conveniente y fácil. ¿Por qué estamos tan obsesionados con la calidad y precisión de los datos de estas tiendas? La respuesta es simple: porque los datos de estas tiendas rurales son importantes. Según la Organización Internacional del Trabajo, el 40por ciento de los chinos y el 65 por ciento de los indios viven en áreas rurales. Imagine el sesgo en la decisión cuando se excluye el 65 por ciento del consumo en India en los modelos, lo que significa que la decisión favorecerá a lo urbano sobre lo rural.
07:22
Sin este contexto rural-urbano y las señales sobre los medios de vida, el estilo de vida, la economía y los valores, las marcas minoristas realizarán inversiones incorrectas en precios, publicidad y marketing. O el sesgo urbano conducirá a decisiones de política rural equivocadas con respecto a la salud y otras inversiones. Las decisiones equivocadas no son el problema del algoritmo de IA. Es un problema de los datos que excluye las áreas que se pretenden medir en primer lugar. Los datos en el contexto son una prioridad, no los algoritmos.
08:01
Veamos otro ejemplo. Visité estas casas remotas con parque de remolques en el estado de Oregon y los apartamentos de la ciudad de Nueva York para invitar a estas casas a participar en los paneles de Nielsen. Los paneles son muestras estadísticamente representativas de hogares a los que invitamos a participar en la medición durante un período de tiempo. Nuestra misión de incluir a todos en la medición nos llevó a recopilar datos de estos hogares hispanos y africanos que utilizan la recepción de televisión por aire a una antena. Según los datos de Nielsen, estos hogares constituyen el 15 por ciento de los hogares estadounidenses, lo que equivale a unos 45 millones de personas. Compromiso y enfoque en la calidad significa que hicimos todo lo posible para recopilar información de este 15 por ciento, grupos de difícil acceso.
08:55
¿Por qué eso importa? Este es un grupo considerable que es muy, muy importante para los especialistas en marketing, las marcas y las empresas de medios. Sin los datos, los especialistas en marketing y las marcas y sus modelos no podrían llegar a estas personas, ni mostrar anuncios a estas muy, muy importantes poblaciones minoritarias. Y sin los ingresos por publicidad, las emisoras como Telemundo o Univision no podrían ofrecer contenido gratuito, incluidos los medios de comunicación, que es tan fundamental para nuestra democracia.
09:32
Estos datos son fundamentales para las empresas y la sociedad. Nuestra oportunidad única en la vida de reducir el sesgo humano en la IA comienza con los datos. En lugar de correr para construir nuevos algoritmos, mi misión es construir una mejor infraestructura de datos que haga posible la IA ética. Espero que también se una a mí en mi misión.
09:57
Gracias.
Fuente: https://www.ted.com/talks/mainak_mazumdar_how_bad_data_keeps_us_from_good_ai