Et l’open data, dans tout ça ?

Une question revient souvent lorsque l’on se lance dans l’apprentissage de R (que ce soit de manière globale, ou « juste » d’un nouveau package) : comment trouver de la matière pour se faire la main ? Nous allons vous révéler le secret qui vous sauvera des heures de recherches acharnées : la solution classique reste de se tourner vers les catalogues d’open data. Eh oui, les plateformes ouvertes sont une source quasi inépuisable de jeux de données, qui vous permettront de tester vos skills de data scientist, et pour, enfin vous transformer en kaggle master.

 

L’open data, qu’est-ce que c’est ?

Si vous avez séché les cours d’anglais, le terme « open data » se traduit dans la langue de Molière par « données ouvertes ». Bien, mais ouvertes en quoi ?

Qu’elle soit d’origine publique ou privée, on considère traditionnellement que la donnée ouverte s’inscrit dans la philosophie de l’Open Knowledge Fundation, qui pose qu’un jeu de données : «  is open if anyone is free to access, use, modify, and share it — subject, at most, to measures that preserve provenance and openness. » En clair (toujours pour ceux qui ont séché les cours d’anglais), une donnée est ouverte si elle est accessible à tous, utilisable, modifiable et partageable ; les seules obligations d’usage possible restant d’imposer la citation de la source première.

La Sunlight Fundation a quant à elle dressé une liste de 10 critères, permettant d’évaluer le degré d’ouverture. Selon cet organisme américain, un jeu de données est ouvert lorsqu’il est :
– Complet
– De première main
– Disponible à un moment pertinent
– Simple d’accès
– Lisible par toutes les machines
– Non discriminant / accessible à tous
– Sous format standard (par exemple, en csv plutôt qu’en xls)
– Sous licence ouverte
– Disponible de manière permanente
– Gratuit

Pour en savoir plus, nous vous conseillons d’aller jeter un oeil au Ten Principles for Opening Up Government Information (sauf si, toujours, vous avez séché les cours d’anglais).

 

L’open data aujourd’hui

Parce qu’il existe des milliers de portails d’open data à travers le monde, nous n’en ferons pas la liste exhaustive ici. Cependant, voici deux sources pour trouver votre bonheur à coup sûr :
data.gouv.fr, référence française en matière d’open data, vous y trouverez de nombreux jeux de données produits par des organismes officiels et privés — plateforme collaborative, la qualité des fichiers proposés reste à géométrie variable.
https://www.opendataterritoires.fr/, une plateforme d’Opendatasoft qui mutualise les services d’open data des communes, département et région de France.

L’objectif ? Plus de transparence pour les organismes publics, et une diffusion du savoir et de la philosophie du libre pour les autres. Pourtant, on reste aujourd’hui aux balbutiements de données réellement « open » : l’ouverture libère des fichiers au contenu structuré de façon presque anarchique, difficilement traitables de manière rapide et automatique (et on est loin, très très loin, de données bien ordonnées…).

Mais surtout, la prise en main de ces larges quantités d’informations reste majoritairement affaire d’avertis— sans quelques skills de programmation (à tout hasard, R par exemple), impossible de donner du sens et de faire parler les immenses bases disponibles. Un exemple ? Si vous vous intéressez à la politique à Paris, la mairie de la ville met à disposition les résultats électoraux entre 2007 et 2014. Pourtant, là où il vous faudra une cinquantaine (maximum) de lignes de code pour visualiser ce tableau de 136 641 lignes et de 17 colonnes avec R, discerner des tendances à l’oeil nu reste impossible.

Donc, pour vous lancer dans l’aventure de l’open data, il vous faudra quelques bases en gestion de données avec R. Pour ça, nous savons par où commencer : découvrir notre introduction à R en français sur Datacamp !

 

Un peu d’R

En tant que lecteur assidu de notre blog, nous sommes certains que vous avez dévoré notre billet sur le data wrangling avec {dplyr}. Dans cet exercice, nous prenions pour cas d’école un jeu de données issu de la plateforme d’open data de la ville de Paris.

Ainsi, vous pouvez mettre la main à la pâte en quelques minutes avec des données réelles à manipuler : car pour importer vous même depuis le web, pas besoin de vous faire des noeuds au cerveau ! Notre logiciel fétiche gère très bien le téléchargement depuis une URL, via les commandes classiques de la famille des read, que vous travailliez en {base} ou avec {readr} !

Maintenant, vous n’avez plus d’excuses — les jeux sont ouverts !


À propos de l'auteur

Colin Fay

Colin Fay

Data scientist & R Hacker


Commentaires


À lire également