Quand la science réinvente l’interaction homme – machine share
back to to

Quand la science réinvente l'interaction homme - machine

10 novembre 2010

(crédit illustration, Microsoft Office Labs – Envisioning Lab)

Rendre invisible la technique : c’est l’objectif central de Kinect, la nouvelle déclinaison de Xbox 360, la console de Microsoft (l’éditeur de RSLN, NDLR) qui sort ce mercredi en France.

Le corps vient remplacer la manette et le joueur interagit directement avec ce qu’il voit à l’écran. Le contrôle est intuitif, la « prise en main » instantanée, comme si au fond, le système avait toujours existé.

Nous laisserons à d’autres le soin de vous décrire en détail la manière dont le dispositif fonctionne (voir, par exemple, sur Wired), pour nous concentrer sur un point : les projets et les recherches qui lui ont permis de voir le jour.

Ces trois projets, respectivement issus des domaines de la réalité augmentée, de la vision et de l’intelligence artificielles, ont néanmoins un point commun : aucun n’avait pour objectif premier la création de Kinect.

Mais ils ont joué un rôle fondamental, rendant accessible au grand public des systèmes jusque là dignes de films de science-fiction.

Microsoft Surface

> Qu’est-ce que c’est ?

Avant d’être un système de détection de mouvements à base de reconnaissance vidéo, la table Microsoft Surface a d’abord été un pur concept imaginé en 2001 par des chercheurs de Microsoft, Stevie Bathiche et Andy Wilson.

Son principe : la surface devient une immense palette tactile avec laquelle plusieurs utilisateurs peuvent directement interagir. La grande idée derrière le projet Surface était de réunir mondes physique et numérique, dans une expérience augmentée et interactive. C’est ce que l’on appelle maintenant des « interfaces naturelles ».

> Quel rapport avec Kinect ?

Pour comprendre le rapport entre Surface et Kinect, il suffit de lire l’article (disponible en PDF ici) publié en 2004 par Andy Wilson sur un projet dérivé de Surface, appelé Touchlight :

« Minority Report et Matrix Reloaded ont popularisé l’idée d’interfaces manipulées directement par gestes sur des supports transparents […] Une personne sur deux ayant testé le système a spontanément comparé TouchLight aux systèmes d’interaction montrés dans ces deux films. »

Trois ans plus tard, Andy Wilson ajoute une caméra 3D au dispositif, c’est-à-dire une caméra infrarouge dont le détecteur a la capacité de récupérer des informations de profondeur : les trois dimensions sont alors représentées et l’idée de chercher à se séparer du support, en l’occurrence de la table, se met à germer.

Projet Natal

> Qu’est-ce que c’est ?

L’équipe Machine Learning & Perception de Microsoft Research Cambridge travaille sur la vision par ordinateur (« computer vision » en anglais) qui a pour but de permettre à une machine d’interpréter et de comprendre ce qu’elle voit par l’intermédiaire d’une ou plusieurs caméras.

Des algorithmes de vision par ordinateur permettent ainsi la reconnaissance automatique de nombreux objets, du stylo au vélo en passant par la voiture.

> Quel rapport avec Kinect ?

Le capteur miniaturisé de Kinect permet d’enregistrer les mouvements du joueur et produit des « images brutes », c’est-à-dire un agglomérat de pixels qui donne une image. Il fallait un système capable de transformer les formes enregistrées en silhouettes humaines en 3 dimensions directement dans le jeu.

C’est à ce moment là que les travaux de l’équipe Machine Learning & Perception ont mené à la création du moteur logiciel de Kinect, alors connu sous son nom de code, Natal.

L’intelligence artificielle

> Qu’est-ce que c’est ?

Mais comment permettre au système d’interpréter les images reconnues par les caméras ? En clair comment faire pour que le système comprenne que, lorsque votre bras bouge vers la gauche, vous voulez tourner de ce même côté ? Chaque micro mouvement du corps est à prendre en compte.

Or, programmer manuellement les centaines de millions de variables est tout simplement impossible. Pourquoi ne pas faire alors directement « apprendre » le système ?

C’est encore du côté de l’équipe Machine Learning & Perception et plus précisément de Jamie Shotton que se trouve la réponse : depuis une dizaine d’années, les algorithmes d’apprentissage automatique se sont généralisés, principalement avec la montée en puissance du web et les gigantesques masses de données générées.

Il est donc concrètement possible de faire « apprendre » des informations à un système. Voici comment : des algorithmes généralistes, c’est-à-dire ceux normalement présents dans le système, « apprennent » grâce à des algorithmes spécialisés qui récoltent des masses considérables d’informations statistiques. Il « suffit » donc de montrer des images et les algorithmes se chargent de les enregistrer puis de les analyser.

> Quel rapport avec Kinect ?

Le même système est utilisé pour permettre la reconnaissance précise du corps des joueurs se trouvant dans le champ du capteur de Kinect : les chercheurs ont recréé 12 modèles humains virtuels, représentant différents âges, genres et morphologies, et ont fait enregistrer et analyser par des algorithmes l’ensemble de leur gestuelle.

De cette manière, Kinect peut différencier les différents joueurs et interpréter chacun de leurs gestes et cela quels que soient leur corpulence, taille, genre …

> Pour aller plus loin

Chaque semaine,
recevez les immanquables
par email