Comment la data visualisation peut améliorer Wikipédia share
back to to

Comment la data visualisation peut améliorer Wikipédia

10 mai 2011

Comment traiter et analyser les masses de données produites chaque jour sur le net, et en particulier sur les sites collaboratifs du type Wikipedia ? Comment en garantir la production régulière et surtout en assurer la qualité alors qu’il devient de plus en plus difficile de les évaluer ?

C’est l’un des objectifs du projet ReActivity – pour « Reflecting on Activity » – dirigé par Jean-Daniel Fekete et Wendy Mackay, chercheurs à l’INRIA, dans le cadre du centre de recherche Microsoft Research – INRIA. Explications.

> Comprendre le fonctionnement de Wikipedia

Tout part d’un constat : sur Wikipedia, « l’encyclopédie libre que tout un chacun peut éditer », il reste de moins en moins de temps aux contributeurs les plus actifs pour améliorer ou produire de nouveaux contenus.

Pourquoi ? Ils doivent diviser leur temps dédié à l’encyclopédie en ligne entre plusieurs tâches :

  • L’écriture et l’amélioration d’articles
  • La résolution des problèmes liés à la modification d’articles déjà existants – par exemple les détournements de page ou de fausses annonces de décès.
  • La gestion des tâches « administratives », du renommage de pages, à la modération de la communauté ou à la médiation entre contributeurs.

Problème ? Le temps consacré à la résolution des problèmes est en constante augmentation en raison de la popularité sans cesse croissante de Wikipedia – et du nombre d’internautes.

C’est là le plus grand challenge pour ces nouveaux systèmes de la connaissance : comment améliorer la qualité du niveau général de l’information, tout en regroupant l’intégralité des sujets couverts et en gardant du temps pour la création.

L’idée derrière le projet ReActivity va justement dans ce sens : il cherche à créer des outils faciles d’utilisation permettant d’aider les utilisateurs avancés et les chercheurs à gérer de larges quantités de données diverses, dans des formats et sur des plateformes variées.

> Et concrètement ?

La problématique est assez simple : il faut réduire le temps passé à corriger les articles et favoriser la création et la qualité en offrant aux utilisateurs des outils pour écrire de meilleurs articles.

Pour cela, les chercheurs proposent deux méthodes liées :

  • Visualiser les informations importantes sur les changements apportés aux articles – et ainsi en vérifier ainsi la qualité ;
  • Et présenter les informations sur le rôle des contributeurs, leur qualité et leur fiabilité, en se basant sur leurs travaux précédents.

Explications :

Dans un premier temps, une infrastructure spécialement développée, WikiReactive, agrège l’information produite sur Wikipedia en temps réel et permet d’y naviguer grâce une interface plus rapide et plus pratique que celle du site.

Pour vous donner un ordre d’idées du nombre de données collectées, cette architecture est en place sur la version française de Wikipedia, et agrège près d’un million de pages avec en moyenne dix révisions par minute.

Ce dispositif est ensuite renforcé par deux autres outils :

> Le premier, Diffamation, permet de visualiser les changements apportés à un article sous la forme d’une « timeline » interactive, qui fait apparaître les changements au fil du temps et d’y naviguer simplement.

> Le second, iChase, permet de mieux comprendre les changements apportés à une page, à savoir qui a fait quoi en quelque sorte et à quelle fréquence.

Cela vous semble un peu compliqué et fastidieux, alors que le processus est censé permettre un gain de productivité ?

C’est parce que ces outils, qui permettent d’explorer en profondeur certaines pages et d’analyser l’activité des utilisateurs, ne sont en fait pas destinés à être utilisés en permanence par les membres de la communauté, mais de manière occasionnelle.

> La data visualisation au service de Wikipedia

L’équipe travaillant sur le projet a donc développé et implémenté WikipediaVizplusieurs petites visualisations, intégrées directement sur la page Wikipedia ou sur l’ordinateur de l’utilisateur.

Elles permettent d’évaluer rapidement le contenu et la qualité de la page, au quotidien, en temps réel et surtout au premier regard.

Un exemple ci-dessous :

> Quel impact pour ces outils ?

A la base prévu pour les domaines de la « e-Science » et en particulier pour WIkipedia, le projet s’attaque en réalité à des problèmes plus généraux, comme l’expliquent les chercheurs qui travaillent sur le projet :

« Nous considérons Wikipedia comme un média social avancé regroupant et entretenant la connaissance dans son ensemble et nous croyons que les sciences vont s’appuyer de plus en plus sur des organisations similaires dans le futur. »

Il est difficile pour l’instant d’évaluer l’impact de ces outils, notamment parce qu’ils n’ont pas pu être testés sur l’ensemble du système et sur une longue période. Mais ils ont sans doute beaucoup à apporter à la plus grande encyclopédie numérique, aussi bien en termes de qualité que de productivité.

> Pour aller plus loin :

 

Chaque semaine,
recevez les immanquables
par email