TechDays : Donner du sens à la révolution Big Data

8 février 2012

RSLN s’associe à la troisième journée des Tech Days, organisés par Microsoft à Paris, et vous convie à la séance plénière qui aura lieu le jeudi 9 février de 9h15 à 10h30 : « Sommes-nous encore utiles ? ».

Pour approfondir le sujet de la confrontation de l’humain et de la machine, nous sommes allés assister à la conférence du mardi 7 février « Donner du sens à la révolution Big Data » de Jean-Daniel Fekete, chercheur à l’Inria, l’organisme de recherche dédié aux sciences et technologies du numérique. Pour lui, l’évolution exponentielle des données est une opportunité. Il ne faut pas s’arrêter aux questions de visualisation mais passer à l’analyse du matériel à disposition pour servir au mieux les êtres humains.

> Big Data : utiliser des opportunités

Un constat : nous sommes entrés dans la révolution Big Data. En 2007, le nombre de données stockées et accessibles était évalué 281 exa-octets. En 2012 ce chiffre sera passé à 1,8 zetta-octets. La quantité de données numériques croît de façon exponentielle, augmentant de 30% chaque année depuis 1999. Les évolutions des usages de la mémoire numérique sont à l’origine de cette explosion : nous enregistrons nos photos, nos vidéos, mais les machines enregistrent également toutes nos transactions en ligne, etc.

Cette masse de données représente des enjeux considérables de stockage et de traitement qui sont en passe d’être résolus. Le cloud est une des réponses et le développement de la capacité de mémoire des machines en est un autre, des questions dont nous avions déjà parlé ici. Pour Jean-Daniel Fekete, le principal enjeu de cette masse monstrueuse de données n’est pourtant pas technique, selon lui le véritable enjeu est l’utilisation et l’analyse de ces données.

« L’exploration des données nous permet de découvrir et d’exploiter ces données. Il faut transformer le déluge d’informations en opportunités », explique le chercheur de l’Inria.

Ces données, une fois analysées, peuvent en effet être utiles. Jean-Daniel Fekete avait par exemple analysé le type de données stockées sur le serveur d’une université américaine (dont il a préféré ne pas dévoiler le nom). Son analyse avait révélé que 10% du serveur était occupé par des fichiers de sauvegarde inutiles et produits automatiquement par un logiciel de l’institution. Suite à son intervention, 10% du serveur avaient donc été libérés. L’analyse des bases de données permet aussi de mettre à jour des phénomènes originaux : en travaillant sur des fichiers en astronomie, Jean-Daniel Fekete explique avoir révélé des imprévus et des éléments surprenants.

> Comment permettre d’explorer les données ?

Mais comment fait-il ? D’abord, il faut comprendre que les données ne sont pas des informations. Les données n’apportent rien de plus de façon immédiate. Pour obtenir des informations, il faut pouvoir lire, comparer et analyser les données. Or, il nous est beaucoup plus simple d’explorer des données lorsque nous pouvons mieux les visualiser. Au cours de sa session des TechDays, Jean-Daniel Fekete a démontré que notre œil est capable de traiter 100 mégabits de données par seconde : en affichant 200 millisecondes un conglomérat de points rouges avec un seul point bleu, il a prouvé que la centaine de personnes présentes dans la salle avait pu détecter immédiatement ce point bleu. Quelle est l’origine de ce phénomène ?

« Au cours de l’histoire humaine, notre œil a subi beaucoup d’évolutions et est devenu très efficace dans l’analyse rapide et immédiate de l’environnement. C’est ce qui nous a permis par exemple de distinguer une branche lorsque nous étions poursuivi par un ours dans la forêt au temps des cavernes », ajoute-t-il avec humour.

En 1986, Anne Triesman, actuellement chercheur à l’université de Princeton au département de psychologie, a mis un mot sur cette capacité d’analyse fantastique. A travers ses expériences et ses études, elle a mis en évidence notre capacité de vision pré-attentive, c’est-à-dire la compétence de notre vision dans la distinction immédiate de données. Nous pouvons ainsi distinguer instantanément des couleurs et des formes, dans une certaine limite.

> Explorer les douze dimensions de vos choix

C’est cette capacité de visualisation que Jean-Daniel Fekete cherche à utiliser dans ses derniers travaux. Il a développé avec son équipe du projet Aviz des techniques avancées afin de pouvoir naviguer et explorer les données. Mais avant d’expliquer ce modèle de visualisation, regardez plutôt ce que cela donne :

La matrice, « Scatterplot Matrix », qu’il utilise actuellement permet ainsi de naviguer dans un ensemble de données de votre choix. Prenons un exemple simple : l’achat d’un appareil photo numérique. Vous voulez acheter un appareil photo et vous êtes confrontés en tout à douze critères différents comme le prix, la mémoire, la résolution maximale, la résolution minimale, la focale, etc. Vous inscrivez ces critères dans la matrice et les appareils photos sont positionnés automatiquement à l’intérieur d’un cube. Vous visualisez en 3 dimensions le positionnement de l’appareil par rapport aux autres appareils et à vos critères.

Les arrêtes de ce cube sont les axes de comparaison : sur l’axe des abscisses (y) vous avez le prix, et sur l’axe des ordonnées (x) vous avez la mémoire de l’appareil. Si vous choisissez d’autres critères, le cube se retourne et affiche d’autres données comme la focale et le prix sur l’axe des y et l’axe des x.

Vous pouvez ensuite comparer, en choisissant les critères affichés, les différentes caractéristiques des appareils photos. Au fur et à mesure de la visualisation, vous pouvez ensuite sélectionner les modèles qui vous conviennent le mieux et raffiner petit à petit votre choix. Et tout cela en deux minutes.

L’intérêt de cette technique de visualisation ? L’outil peut être manipulé simplement et de façon presque intuitive. C’est l’être humain qui détient le choix final : cette visualisation permet de connaître toutes les alternatives et de ne pas avoir de biais dans des résultats de recherche trop automatisés.

Pour Jean-Daniel Fekete, l’essentiel est désormais d’entrer dans une ère d’analyse des données. Et notamment des données complexes. La visualisation seule ne suffit plus, il faut pouvoir analyser les données et pouvoir tirer parti au mieux de ces données.

Chaque semaine,
recevez les immanquables
par email