Dónde encontrar conjuntos de datos abiertos y gratuitos en la web

Desde datos gubernamentales, de salud y financieros hasta meteorológicos, béisbol y Star Trek, hay innumerables colecciones de datos gratuitos disponibles para rascar su picazón analítica.

por Peter Wayner

A los jefes les encanta escuchar la palabra “gratis”. Todos quieren obtener algo a cambio de nada. La buena noticia es que existe una creciente colección de datos gratuitos disponibles para tomar. Algunos incluso podrían ser útiles para su proyecto o su carrera.

¿Cuál es el truco? A veces no hay trampa en absoluto. Muchas de las fuentes a continuación provienen de agencias gubernamentales. Una vez que terminan de recopilar la información, a menudo les cuesta muy poco compartirla abiertamente con todos. Técnicamente, no es gratis porque lo pagará el 15 de abril. Pero la buena noticia es que el presupuesto de su proyecto no se verá afectado.

Otras recopilaciones de datos son una forma sutil de publicidad. Todas las principales empresas de la nube albergan varias colecciones de conjuntos de datos abiertos. No necesita usar sus servidores en la nube, pero el rendimiento será mucho mejor cuando los bits se almacenen en el mismo centro de datos. Las empresas de la nube podrían comprar anuncios de 30 segundos en el Super Bowl, pero esta forma de publicidad es una mejor estrategia para todos.

El único peligro de trabajar con datos gratuitos es que el jefe asumirá que también está libre de problemas. Muchas veces, los datos requerirán un poco más de trabajo de su parte. Quizás a la agencia gubernamental que lo recopiló le gustó usar su propio formato peculiar. Quizás sea necesario volver a agregar los datos para sus necesidades. Es muy probable que necesite escribir un poco de código para que funcione.https://imasdk.googleapis.com/js/core/bridge3.414.0_en.html#goog_1479106185Volumen 0%

Algunos de los proyectos de datos funcionan como software de código abierto y funcionan mejor cuando todos contribuyen con su pequeña parte. Tengo una estación meteorológica en mi patio trasero conectada a la red de estaciones meteorológicas personales que recopila datos de cerca de un cuarto de millón de científicos ciudadanos diferentes. La participación es esencial, pero podrá aprovechar el trabajo de todos los demás al mismo tiempo. Si su trabajo va a ayudar a construir estos proyectos, esté preparado para hacer su parte con la gestión de proyectos.

La buena noticia es que las barreras de entrada son pequeñas. No necesitas pedir permiso y no necesitas pedir perdón. Aquí hay N rincones diferentes de la web para comenzar a descargar y explorar.

Data.gov

La Agencia de Servicios Generales (GSA) mantiene Data.gov , una gran lista de conjuntos de datos que el gobierno de EE. UU. Comparte abiertamente. Al momento de escribir este artículo, hay 210.756 entradas, muchas de las agencias que se especializan en apoyo al comercio (marítimo, agrícola, energético). Sin embargo, no hay secretos de las agencias clasificadas ni del Área 51.

Kaggle

Algunas de las fuentes de datos no son mucho más que un depósito de archivos. Kaggle es más un culto. Comenzaron con más de 50.000 conjuntos de datos diferentes y luego agregaron las herramientas básicas (cuadernos Jupyter) para darles sentido. Ya hay 400.000 portátiles públicos diferentes que otros científicos de datos han compartido que analizan los datos que se encuentran debajo. Además de eso, Kaggle ha agregado algunos cursos en línea sobre cómo usar todo y mezclado en algunas competiciones con premios en efectivo reales.

Por ejemplo, el Laboratorio de Ornitología de Cornell ofrece 25.000 dólares a los mejores clasificadores de cantos de pájaros , o lo que ellos llaman “vocalizaciones de pájaros”. La iniciativa Open Vaccine otorgará $ 25,000 a los mejores modelos para predecir la degradación del ARN que afectará a la vacuna COVID-19. Hay mucho trabajo serio entre los archivos CSV o JSON, pero si te cansas también puedes divertirte. Una recopilación de datos, por ejemplo, está llena de líneas extraídas de todos los episodios de Star Trek de las seis series principales.

FiveThirtyEight

El sitio web FiveThirtyEight está dedicado a informar historias con el apoyo de una rica colección de datos. Cuando pueden, también comparten estos conjuntos de datos para que usted haga su propia investigación. Hay registros anteriores de sus predicciones para las principales ligas deportivas, exploraciones sobre actitudes sociales como encuestas a hombres que preguntan qué significa ser un hombre y, por supuesto, interminables encuestas sobre los próximos votos políticos.

UNICEF

La agencia de la ONU responsable de ayudar a criar niños sanos en todo el mundo comparte una amplia variedad de conjuntos de datos que son útiles para cualquier persona con los mismos objetivos. El panorama general se puede encontrar en conjuntos de datos de marquesina como las Tablas estadísticas del estado mundial de la infancia 2019 para aquellos que desean realizar un seguimiento numérico del cambio. Se puede encontrar una visualización más enfocada en tablas que exploran cómo la sal yodada afecta la enfermedad o el éxito de la educación primaria .

Datos financieros

La biblioteca del estado de Ohio mantiene una página web actualizada con sugerencias a algunas de las mayores colecciones de datos económicos y financieros. Hay registros históricos de conjuntos de datos de EE. UU. Y también algunos datos recopilados por el Banco Mundial . Algunos requieren una cuenta académica y algunos son gratuitos para el público.

Béisbol

El deporte de Estados Unidos está bendecido por algunos fanáticos que son lo suficientemente expertos con las computadoras para desarrollar colecciones extensas de datos sobre los jugadores y los resultados de sus juegos. La base de datos de Sean Lahman , por ejemplo, contiene estadísticas completas de bateo y pitcheo desde 1871 hasta 2019. También hay tablas de otros detalles como estadísticas de fildeo, cambios gerenciales y resultados de la Serie Mundial que pueden no estar completos, pero también podrían serlo para los modernos. era, que en las Grandes Ligas comienza con el siglo XX.

Project Retrosheet se inició para recopilar resúmenes jugada por jugada de todos los juegos de las Grandes Ligas siempre que sea posible, y ahora está completo hasta 1974. Si tiene acceso a una tarjeta de puntuación de un juego anterior, consulte la lista de “más buscados” para vea si puede llenar un agujero. Chadwick Baseball Bureau mantiene un repositorio de GitHub para los datos, si lo prefiere.

La Society for American Baseball Research mantiene una lista de otras fuentes que incluyen ofertas de entidades comerciales como FanGraphs , Baseball Reference y la propia Major League Baseball .

Google

Si solo está buscando un conjunto de datos en particular, Google Dataset Search le permite buscar en toda la web conjuntos de datos utilizando palabras clave. Los resultados se pueden filtrar por licencia, formato de datos y tiempo desde la última actualización. Algunos de los conjuntos de datos más intrigantes también se incluyen en el directorio de datos públicos de Google , que no solo enumera las fuentes sino que ofrece algunos paneles interactivos. El Banco Mundial, por ejemplo, grafica la fertilidad frente a la esperanza de vida y puede hacer un seguimiento de cómo esto cambia a lo largo de los años con un control deslizante.

Servicios web de Amazon

Los usuarios de AWS que deseen almacenar datos en buckets de S3 pueden acudir al Repositorio de datos abiertos en AWS o RODA. Existe una amplia variedad en los miles de conjuntos de datos, pero los aspectos más destacados tienden a ser los conjuntos de datos de fuentes con las que AWS colabora abiertamente, como el Instituto del Telescopio Espacial (estrellas), NOAA (imágenes de radar meteorológico NEXRAD) y Common Crawl (más de 25 mil millones de páginas web). Hay varios buenos ejemplos que lo ayudarán a comenzar a analizar los datos utilizando, por supuesto, servicios de AWS como Lambda o Comprehend .

Microsoft

Microsoft también tiene varios conjuntos de datos en Azure. Los planificadores de la ciudad pueden buscar información en los registros del tablero de taxis de la ciudad de Nueva York, que rastrea todas las tarifas. Los economistas y comerciantes pueden consultar los registros de precios de las materias primas para obtener información sobre la inflación y los cambios económicos. Todos están listos para ser analizados por las herramientas de aprendizaje automático de Microsoft .

Facebook

Parte de lo que almacenamos en Facebook es privado porque lo hacemos así. Algunos se comparten con amigos. Algunos contenidos están completamente abiertos. Facebook apoya la investigación sobre el llamado “gráfico de Facebook” con su API Graph . No es lo mismo que descargar el conjunto de datos completo, pero puede resultar útil para algunas consultas. Solo recuerde que no todos usan la misma configuración de privacidad, por lo que es posible que no vea a todas las personas o todas las publicaciones.

Yelp

El sitio web conocido por sus reseñas de restaurantes, bares y otros alojamientos públicos comparte una gran cantidad de información en un conjunto de datos públicos que puede estudiar. Hay más de ocho millones de reseñas de más de 200.000 establecimientos esperando que usted o su IA las analicen. Son una buena fuente de datos de entrenamiento para el procesamiento del lenguaje natural y el aprendizaje automático.

Kit de datos abiertos

Los bits distribuidos por la comunidad Open Data Kit y su primo ODK-X basado en JavaScript no son datos en sí mismos. Son software diseñado para ayudar a los científicos e investigadores que están creando los conjuntos de datos. El código le permite crear una interfaz de usuario que simplifica la recopilación de datos por parte de los investigadores de primera línea y luego comienza el flujo de trabajo de clasificación y limpieza. Las herramientas son utilizadas por un grupo diverso de organizaciones que apoyan la investigación de campo, incluido el Proyecto Mundial de Mosquitos y la Cruz Roja .

Web scraping

No todos los datos residen en bases de datos de fácil acceso con API. Hay un enorme volumen de información incrustado en las páginas web y los datos deben extraerse de ellas con algunas herramientas inteligentes. Este llamado web scraping sigue siendo un método bastante bueno, pero puede tener limitaciones legales. Algunos sitios lo prohíben en sus términos de servicio y otros observan demasiadas solicitudes de un usuario y luego cortan al usuario o ralentizan las respuestas.

Herramientas como Puppeteer facilitan la puesta en marcha de una (¡o muchas!) Versiones sin cabeza de un navegador web, descargar una página web, extraer los datos correctos y hacerlo una y otra vez. Ahora hay versiones sin cabeza para la mayoría de los principales navegadores, gracias a la comunidad de pruebas de software que necesita automatizar el proceso de prueba. Es posible que el web scraping no siempre sea apropiado, pero cuando lo es, puede ser la forma más rápida de obtener los datos que necesita. Nada es más abierto que la web abierta.

Relacionado:

Peter Wayner es editor colaborador de InfoWorld y autor de más de 16 libros sobre diversos temas, que incluyen software de código abierto, automóviles autónomos, computación con privacidad mejorada, transacciones digitales y esteganografía.

Fuente: https://www.infoworld.com/article/3574979/where-to-find-free-and-open-data-sets-on-the-web.html

Data.gov

Kaggle

FiveThirtyEight

UNICEF

Datos financieros

Béisbol

Google

Servicios web de Amazon

Microsoft

Facebook

Yelp

Kit de datos abiertos

Web scraping

Related Articles

Pantallas, prisas y actividades: qué ocio necesita realmente un niño menor de tres años

Rol de Cuidador en la Sociedad Digital

¿La IA está mejorando nuestra forma de pensar o la reemplaza?

El móvil en el aula: estrategias que funcionan más allá de la prohibición

Cuando la IA hace ciencia, ¿quién formula las grandes preguntas?

Informe especial: 10 preguntas que debe hacerse al considerar una plataforma de gestión del conocimiento

Deja una respuesta Cancelar la respuesta

Política de Cookies