Les étranges conclusions des Big Data

29 mars 2012

L’analyse de données révèle parfois des informations surprenantes et inattendues. D’autant plus lorsque les données sont croisées entre elles. Dans un article du New York times publié le 28 mars dernier, Quentin Hardy, journaliste, revient sur cette technique particulière d’analyse de ces fameuses « Big Data ».

> Combiner les données pour mieux comprendre les facteurs-clés

L’idée, derrière la technique, est d’avoir un maximum de données disponibles à analyser. Des données extrêmement diverses, qui permettent d’imaginer des combinaisons originales entre plusieurs facteurs.

Anthony Goldbloom, fondateur d’une entreprise spécialisée dans l’analyse de ces données, explique ainsi que le meilleur moyen de prédire si une personne va attraper ou non son avion est de savoir si elle a commandé… un repas végétarien à bord de l’avion. Pourquoi ? Parce que sachant qu’un repas personnalisé l’attend à bord, sa motivation pour ne pas le rater sera plus grande.

> Des résultats étonnants

Un autre exemple de cette mise en lumière de facteurs-clés avec la couleur des voitures d’occasion. Les chercheurs de Kaggle, une start-up également spécialisée dans l’analyse des données, expliquent que lorsque vous voulez acheter une voiture d’occasion, votre choix devrait se porter plutôt sur la couleur orange.

Pour en arriver là, les chercheurs ont fait coïncider des jeux de données sur les acheteurs d’automobiles, la couleur des voitures et le nombre de problèmes survenus après la vente. Leur conclusion ? Les propriétaires qui choisissent des couleurs originales – comme l’orange – se servent de leur voiture pour exprimer leur personnalité. Ce rapport d’identification augmente la probabilité que le premier propriétaire ait pris soin de sa voiture, et donc réduit le risque de problèmes pour le second acheteur !

La méthode est encore à affiner mais les résultats, au-delà de l’anecdote, peuvent être intéressants : les embouteillages grandiraient à la fois derrière un point de saturation et devant, un film avec un titre se finissant par un chiffre, serait moins marquant pour les spectateurs ou plus surprenant encore, la qualité de photographies en ligne pourrait être déterminée selon les mots contenus dans leurs titres… A suivre.

Chaque semaine,
recevez les immanquables
par email