El web scraping es una de las herramientas más poderosas que tienen los periodistas para hacer responsables a las empresas y los gobiernos.
por Lam Thuy Vo
Como reportero que puede codificar, puedo recopilar fácilmente información de sitios web y cuentas de redes sociales para encontrar historias. Todo lo que necesito hacer es escribir algunas líneas de código que ingresen al éter, abrir sitios web y descargar los datos que ya están disponibles públicamente en ellos. Este proceso se llama raspado.
Pero hay un cálculo que hago en mi cabeza cada vez que comienzo a buscar una historia que requiere raspar: “¿Vale la pena ir a prisión por esta historia ?”
Como reportero que puede codificar, puedo recopilar fácilmente información de sitios web y cuentas de redes sociales para encontrar historias. Todo lo que necesito hacer es escribir algunas líneas de código que ingresen al éter, abrir sitios web y descargar los datos que ya están disponibles públicamente en ellos. Este proceso se llama raspado.
Pero hay un cálculo que hago en mi cabeza cada vez que comienzo a buscar una historia que requiere raspar: “¿Vale la pena ir a prisión por esta historia ?”
No estoy hablando de piratear las bases de datos amuralladas de la CIA. Estoy hablando de usar un script para recopilar información a la que puedo acceder como consumidor diario de Internet, como publicaciones públicas de Instagram o tweets que usan un determinado hashtag.
Mi preocupación no es infundada. Una ley estadounidense vagamente escrita llamada Ley de Abuso y Fraude Informático convierte el acceso a este tipo de información de manera programática en un delito potencial. La ley de hace décadas se introdujo después de que los legisladores vieron la película WarGames de 1983 y decidieron que Estados Unidos necesitaba una ley contra la piratería que prohíbe a cualquier persona usar una computadora “sin autorización o sin exceder el acceso autorizado”.
Si bien la ley puede haber tenido buenas intenciones y se ha utilizado para enjuiciar a las personas que descargan cosas de sus sistemas de trabajo que se supone que no deben hacer, también atrapa a muchas otras personas en su red ampliamente difundida, incluidos académicos, investigadores, y periodistas.
¿Qué significa “exceder el acceso autorizado” en la era de las redes sociales? ¿Un empleado que tiene acceso a una base de datos de revistas de investigación para el trabajo y las usa para fines privados excede el acceso autorizado? ¿Comete un delito una reportera como yo que recopila información mediante procesos automatizados y su propia cuenta de Facebook?
Hasta ahora, las interpretaciones de la ley han variado de un caso judicial a otro, confiando en varios jueces para darnos una mejor definición de lo que significa exactamente exceder el acceso autorizado a la información. Pero pronto la Corte Suprema de Estados Unidos se pronunciará sobre la ley por primera vez, en el caso Van Buren v. Estados Unidos . Nathan Van Buren, un oficial de policía, tenía acceso a bases de datos confidenciales para trabajar y vendía la información que buscaba allí a un tercero. El tribunal escuchó los argumentos iniciales el 30 de noviembre y podría anunciar su decisión cualquier día.
Desde precios injustos en Amazon hasta discursos de odio en Facebook , muchas fechorías corporativas se pueden rastrear a través de las plataformas en las que llevamos a cabo gran parte de nuestras vidas. Y la vasta huella digital que los seres humanos producen en línea, gran parte de la cual está disponible públicamente, puede ayudarnos a reparar las lagunas de datos e investigar áreas que de otro modo serían difíciles de entender.
Como señaló la artista y experta en tecnología Mimi Onuoha en su conmovedora pieza The Library of Missing Datasets :
Lo que ignoramos revela más de lo que prestamos atención. Es en estas cosas donde encontramos indicios culturales y coloquiales de lo que se considera importante. Los espacios que hemos dejado en blanco revelan nuestros prejuicios e indiferencias sociales ocultos.
La recopilación de datos es costosa y engorrosa, pero también es una herramienta importante para descubrir y revelar injusticias sistémicas. Los datos que consideramos lo suficientemente importantes para recopilar es un asunto que a menudo se deja en manos de entidades poderosas, gobiernos y corporaciones, que no siempre tienen en cuenta a las personas más vulnerables de la sociedad.
Si los funcionarios del gobierno chino no publican información sobre los campos donde están detenidas las minorías musulmanas, entonces quizás los investigadores puedan usar la información de los mapas de Google para aproximar el alcance de este problema. Si los perpetradores no admiten los crímenes de guerra pero publican sobre ellos en las redes sociales, los fiscales y los investigadores de derechos humanos aún pueden construir casos en su contra.
¿Deberían las empresas como Facebook tener el recurso legal para cerrar la investigación académica? ¿Debería haber una excepción cuando el web scraping es la única forma de recopilar datos que ayudan a los investigadores, académicos y periodistas a diagnosticar los males de nuestra sociedad?
Twitter puede haber modelado un camino a seguir. Teniendo en cuenta su papel en la difusión de información errónea en torno a las elecciones estadounidenses de 2016, la empresa decidió crear un acceso especial a los datos específicamente para académicos e investigadores . Si bien la empresa aún frunce el ceño ante el raspado, este paso indica que reconoce la importancia de los datos.
Quizás los legisladores también puedan hacerlo.
Lam Thuy Vo es reportera senior de BuzzFeed News, donde ha reportado historias sobre desinformación, odio en línea y responsabilidad relacionada con la plataforma. Su libro “Mining Social Media” fue publicado por No Starch Press a fines de 2019.