Articles dans Intelligence
Nos assistants vocaux vont avoir besoin de nous regarder, de nous sentir, voire de nous toucher...

Le site LoupVentures a publié son étude comparative annuelle des assistants vocaux des enceintes connectées de Google, Apple, Amazon et Microsoft, autrement dit de Hey Google, Siri, Alexa et Cortana (tiens, vous aussi vous aviez oublié l’existence de Cortana ?). Attention, notez bien qu’il s’agit des assistants inclus dans les enceintes et pas dans nos smartphones. Ils sont similaires dans leur utilisation mais pas exactement identiques dans leur façon de traiter les questions. Siri sur le HomePod d’Apple par exemple se concentre essentiellement sur la musique et renvoie souvent vers l’iPhone pour répondre à d’autres types de questions.

On y voit notamment que Google mène la danse, et de loin. Je vous laisse lire leur publication et décortiquer les résultats. L’article pose une question intéressante à la fin :

With scores nearing 80-90%, it begs the question, will these assistants eventually be able to answer everything you ask? The answer is probably not, but continued improvement will come from allowing more and more functions to be controlled by your voice. 

Ou, en français :

Des scores de 80-90% (de compréhension des questions et de bonnes réponses à ces mêmes questions), forcent à se poser la questions de savoir si, à terme, ces assistants seront capables de répondre à tout ce qu’on leur demande ? La répondre c’est probablement que non, mais les progrès continuels leur permettront de nous offrir de plus en plus de fonctions contrôlables à la voix.

Même si l’on note les progrès réalisés d’une année sur l’autre, je trouve intéressant de voir que les assistants vocaux atteignent vite leur limite s’ils ne sont pas intégrés aux autres outils numériques connectés de notre quotidien. Autrement dit, Google et Apple ont cet avantage sur les autres de pouvoir nous laisser compléter nos interactions vocales sur nos smartphones lorsque c’est nécessaire, et ça l’est souvent : on voit bien que la voix n’est pas toujours (loin de là même) le meilleur moyen d’obtenir des informations ou d’aller jusqu’au bout d’une tâche comme un achat par exemple. Dès qu’il y a des options entre lesquelles choisir, rien ne semble pour l’instant pouvoir remplacer une interaction visuelle et digitale (dans le sens du toucher je m’empresse de préciser, en ces temps où l’on confond si souvent numérique et digital).

Ce besoin d’interaction multiple n’est pas nouveau. Elle est même à la base de toute communication humaine, que l’on pourrait grossièrement classer comme suit (du moins précis au plus riche) :

  • On se méprend souvent sur le sens réel d’un message reçu uniquement par e-mail car le texte seul est insuffisant pour véhiculer l’entièreté d’une intention

  • Par téléphone, le ton de la voix aide, par exemple, à faire la différence entre un reproche et une plaisanterie

  • Avec la visioconférence, l’image nous permet parfois de déceler les messages non-verbaux

  • Bref, cela nous rappelle que nos 5 sens sont mis à contribution lorsque nous engageons un dialogue avec un autre être humain en face à face.

Autrement dit, la reconnaissance vocale n’est pas suffisante pour assurer une interaction “intelligente” avec les machines. Mais est-on prêt à laisser nos assistants vocaux nous regarder, nous sentir, voire nous toucher pour mieux nous comprendre ? Il faudrait pour cela retrouver notre confiance dans les machines et ceux qui les font. Allons-nous dans cette direction ? On peut raisonnablement en douter si l’on suit les actualités récentes : les manipulations et reventes de Facebook, le projet de loi australien anti-chiffrement, les fuites continuelles de nos données personnelles en ligne…

Mes excuses aux fans de Lost in Space 😉.

Mes excuses aux fans de Lost in Space 😉.