Data.gov, un premier bilan en demi-teinte

22 février 2011

Pour accompagner l’atelier de réflexion autour du phénomène open data que nous organisons le 17 mars (inscriptions), nous entamons la publication d’une série d’articles, de reportages, et d’analyses, autour de la question de la libération des données.

Première étape : un regard chez les précurseurs de l’open data : les Etats-Unis, qui ont lancé data.gov, il y a bientôt deux ans, le 21 mai 2009, aujourd’hui alimenté par près de 400 fonctionnaires et qui héberge 3.000 jeux de données.

« L’information détenue par le gouvernement fédéral est un bien national ». Cette phrase prononcée par Barack Obama dès le lendemain de son investiture, le 20 janvier 2009, donne le ton. Quatre mois plus tard, data.gov est lancé. Avec une ambition forte : faire évoluer les mentalités au sein des agences fédérales.

« Aujourd’hui, les fonctionnaires rassemblent des données et parfois, ils se hasardent à les rendre publiques » confie Jeanne Holm, évangélisatrice officielle du site. « Nous voulons changer ce paradigme : qu’ils partagent leurs données par défaut et que, parfois seulement, ils les protègent. »

Depuis son lancement, le gouvernement américain a investi 9,2 millions de dollars dans le projet data.gov. Environ 3000 jeux de données brutes et plus de 300 000 données géo-spatiales sont téléchargeables sur le site. De la consommation d’énergie dans les foyers aux sexes des prisonniers en passant par la liste des tremblements de terre dans le monde sur les sept derniers jours, on y trouve de tout.

Mais peu de données sensibles ou nouvelles, soulignent développeurs et activistes. « Le bilan est mitigé », reconnaît Jeanne Holm. Trop heureuse de voir le gouvernement fédéral libérer des données, « la communauté de militants passionnés de l’open data est prête à donner la moyenne au gouvernement, estime Kevin Merritt, président de Socrata, entreprise qui conçoit des plateformes de publication de données. Mais pour rallier le grand public à l’initiative, honnêtement, il n’y a pas assez de données, et pas assez de données de qualité».

Si sept personnes travaillent à temps plein sur le projet data.gov, c’est au sein des agences gouvernementales que se décide ce qui est publié sur le site, et à quel rythme – au sein de ces dernières, 396 fonctionnaires aident à sélectionner et à mettre en ligne les données. Selon les agences, le tableau est donc très varié.

Si la NASA et l’agence de protection de l’environnement mènent la danse, d’autres comme le ministère de la défense font encore preuve de résistance, et craignent, entre autres, « l’effet mosaïque » : cet effet de croisement qui fait que deux jeux de données individuellement inoffensifs peuvent, en commun, mettre en lumière des informations potentiellement dangereuses.

Jeanne Holme reste confiante. Pour elle, la libération de données supplémentaires n’est qu’une question de temps. Le véritable défi, c’est d’encourager leur utilisation par le grand public. Une utilisation dont il est encore difficile de mesurer l’étendue.

Au cours des deux dernières années, le gouvernement a organisé et sponsorisé de nombreux concours et événements pour encourager la création d’applications, mashups (un mashup est une application qui combine les données provenant de plusieurs sources différentes) et autres visualisations à partir des données publiées.

A ce jour, l’équipe de data.gov en a identifié 236. Parmi elles, on trouve FlyOnTime.us, qui permet de comparer les heures d’arrivée prévues et réelles des vols sur les principales compagnies commerciales, ou encore CPSC Recalls, qui offre aux consommateurs une liste des produits rappelés par le gouvernement pour raisons sanitaires ou de sécurité. Mais ce chiffre ne reflète qu’une partie de la réalité. Difficile en effet de tracer toutes les applications développées grâce à data.gov. Difficile également de savoir si elles auraient pu voir le jour sans cette plateforme.

Pour booster l’utilisation de ses données, l’équipe de data.gov a eu l’idée de créer des communautés d’intérêt autour d’une même thématique, pour catalyser la création d’applications intéressantes dans des domaines comme la santé ou encore l’éducation. 4 communautés ont déjà été lancées et 21 supplémentaires sont attendues en 2011.

Parmi elles, data.gov/restorethegulf indexe toutes les données liées à la marée noire dans le golfe du Mexique. Jeanne Holm travaille également avec les  écoles et les universités pour les encourager à utiliser la plateforme gouvernementale, et les aider à former la prochaine génération de développeurs. Enfin, au plan technique, la prochaine version de data.gov, prévue pour mai, fournira des interfaces de programmation (API) pour faciliter l’exploitation des données.

Pour permettre à tout un chacun de créer facilement des applications croisant différents jeux de données, un groupe de chercheurs au Rensselaer Polytechnic Institute, au Nord de l’Etat de New York, développe des outils basés sur les technologies du web sémantique.

« Avec des technologies traditionnelles, réaliser des visualisations un peu complexes, mixant plusieurs sources de données, coûte cher, prend du temps et nécessite d’avoir dans son équipe quelqu’un qui connaisse très bien les données, explique Jim Hendler, professeur au RPI. Mais avec ces nouveaux outils, la tâche devient accessible au grand public ».

Pour preuve : la majorité des 100 mashups créés par son équipe a été conçue par des étudiants sans formation technique particulière. L’un d’entre eux permet ainsi de comparer, par Etat et par an, le nombre de fumeurs, le prix des cigarettes, et le nombre d’établissements qui interdisent de fumer. De quoi faire ressortir des corrélations intéressantes.

« Ces données historiques montrent qu’une augmentation du prix des cigarettes est moins efficace que l’interdiction de fumer dans les restaurants et bars pour réduire le tabagisme » souligne-t-il. Pour Jim Hendler, les outils sur lesquels il travaille seront accessibles au grand public d’ici 1 à 2 ans.

En attendant, data.gov a établi un précédent politique fort aux Etats-Unis. Quelques 23 Etats et 8 villes ont emboité le pas au gouvernement fédéral et lancé un site de données publiques. « Nous sommes quelque part entre les graines et les premières pousses d’une révolution » conclut Kevin Merritt.

> Pour aller plus loin :

Chaque semaine,
recevez les immanquables
par email