A quand des assistants numériques qui obéissent (vraiment) à la voix ? share
back to to

A quand des assistants numériques qui obéissent (vraiment) à la voix ?

5 avril 2013

La reconnaissance vocale a parfois des allures de serpent de mer, et peine encore souvent à se révéler indispensable. Pourtant, la recherche avance à ce sujet. Alors, pourrons-nous bientôt (vraiment) parler à nos outils numériques, au lieu de plisser les yeux dessus ? C’est la question que pose Wired, qui invite le cofondateur du MIT Medialab Chris Schmandt a partager ses pistes de réflexion pour le futur.

Ce qu’explique l’expert, c’est qu’il faut à nos machines bien davantage que comprendre un tas de mots pour offrir une bonne interface vocale à l’utilisateur : « il faut qu’elles comprennent les intentions ». Et comprendre une intention ne peut généralement se résumer à un seul échange : même entre deux humains, cela implique souvent une conversation, qui permette de comprendre le contexte et de prendre en compte la situation de l’utilisateur.

Pour Chris Schmandt, les premiers systèmes de reconnaissance vocale étaient intéressants en ce qu’ils suggéraient à l’utilisateur de reformuler sa demande lorsqu’ils ne comprenaient pas. Selon lui, la reconnaissance vocale d’aujourd’hui est redevenue trop binaire : soit une demande est comprise, soit elle ne l’est pas – et dans ce cas, il faut généralement repasser au clavier. 

> Les particularités de la voix

L’autre élément à prendre en compte, c’est que l’interaction marche dans les deux sens : le système vocal doit également nous donner les informations dont nous avons besoin de la façon la plus intelligible pour nous. Par exemple, « le prochain bus arrive dans 12 minutes » est plus facile à mémoriser que « le prochain bus arrive à 9h12 » : pour Chris Schmandt, c’est important car pour peu que nous soyons distraits au moment où l’information vocale est délivrée on sera obligé de reposer la question. 
 
Enfin, le contexte, c’est aussi imaginer que l’outil numérique sache non seulement où il est, mais puisse aussi « apprendre quand et où je vais travailler, qui j’appelle, et qui est important pour moi ». Qu’il « connaisse mon email, mon calendrier et mes intérêts », pour me suggérer le bon bus ou la bonne adresse au bon moment, « avant même que je ne le lui demande » – comme un bon assistant personnel.
 
Ainsi, Chris Schmandt entrevoit une interface vocale qui, bien plus qu’un système de commande, nous serait si intime qu’on n’aurait plus qu’à nous laisser guider par elle. C’est de cette façon, explique l’expert, que le contexte nous aide à comprendre non seulement les mots, mais aussi l’intention cachée derrière eux. 
 
Bien que ces caractéristiques existent déjà dans certaines applications, on ne les trouve pas encore vraiment avec des composantes vocales. Et pour cause : on est encore récalcitrants à parler au téléphone en public, de peur de déranger notre entourage. Mais jusqu’à quand ? 

« J’ai utilisé le premier vrai téléphone portable aux Etats-Unis – le MicroTac Motorola – très tôt, et les gens me regardaient comme si j’étais fou de parler au téléphone tout en marchant, raconte Chris Schmandt. Maintenant, nous acceptons volontiers les personnes ayant des oreillettes Bluetooth et semblant parler toutes seules, alors qu’on pensait récemment encore croiser des fous ».

Chaque semaine,
recevez les immanquables
par email