Des chercheurs américains ont conçu un système capable de brouiller les écoutes en temps réel après avoir anticipé les conversations. Ils ont présenté leurs travaux lors de la Conférence internationale sur les représentations d’apprentissage au printemps dernier. Explications.
Smartphone, télévision, montre, enceinte… Les objets connectés ont envahi nos vies et nos foyers. Ils disposent de microphones et sont ainsi toujours à notre écoute pour nous aider, notamment à travers des assistants vocaux. Si ces appareils peuvent être utiles, certaines personnes craignent d’être espionnées par leur biais. On peut parfois se demander si on n’est pas écouté à notre insu après avoir vu sur l’un de nos objets connectés une publicité concernant un sujet dont on vient de parler…
Et ces craintes ne sont pas forcément infondées. Les entreprises proposant des enceintes connectées doublées d’un assistant vocal, à l’instar d’Apple et Google par exemple, peuvent employer des personnes pour écouter et retranscrire certaines conversations des utilisateurs. Or, si ces écoutes servent moins à surveiller le contenu des échanges qu’à améliorer leur outil de reconnaissance vocale, cela pose tout de même la question du respect de la confidentialité. C’est justement pour empêcher ces appareils d’écouter que des chercheurs ont mis au point un algorithme capable de camoufler la voix d’une personne. Leur objectif : « Rendre le contrôle des données vocales aux utilisateurs ».
Une approche innovante
Les chercheurs de l’université de Columbia ne sont pas les premiers à s’intéresser au camouflage de la voix. D’autres l’ont fait en utilisant des attaques contradictoires. Concrètement, il s’agit d’une intelligence artificielle (IA) qui tente d’en tromper une autre à l’aide de sons lui faisant confondre les propos d’une personne avec autre chose. Ces logiciels présentent tout de même un problème : il est nécessaire d’écouter l’intégralité d’une phrase afin de l’altérer. Autrement dit, cela ne fonctionne pas pour un camouflage de la voix en temps réel.
L’équipe a développé une approche inédite pour résoudre ce problème. Baptisée Neural Voice Camouflage, elle consiste à créer des attaques prédictives, « qui réalisent des performances en temps réel en prédisant l’attaque qui sera la plus efficace dans le futur », comme l’expliquent les chercheurs dans leurs travaux. Entraîné avec le logiciel en accès libre de synthèse vocale DeepSpeech, leur logiciel est capable d’anticiper ce qui va être dit après avoir écouté deux secondes du discours d’une personne. Il génère ensuite un son pour perturber l’IA lorsque l’individu parle. « Notre algorithme, qui parvient à empêcher un microphone malveillant d’entendre correctement vos paroles 80% du temps, est le plus rapide et le plus précis de notre banc de test. Cela fonctionne même lorsque nous ne savons rien du microphone malveillant, comme son emplacement ou même le logiciel informatique qui y est exécuté », a expliqué Carl Vondrick, professeur adjoint d’informatique et l’un des auteurs de l’étude, au site Columbia Engineering.
Les personnes présentes dans la pièce sont, elles, en mesure de converser naturellement, sans être gênées par le son généré grâce à l’attaque qui est « optimisé pour avoir un volume similaire au bruit de fond normal », selon les travaux des chercheurs. À titre d’exemple, alors qu’un individu entend la phrase « did you see that the lab got renovated, it looks fantastic, I also just got a new monitor », l’IA indiscrète comprend « did you see that the lad got renevatid with revent looks fantasted with reasons with they also toscat and neumanitor ».
Une méthode à améliorer
Pour le moment, l’algorithme développé par les chercheurs est au stade de prototype. L’équipe travaille encore dessus pour l’améliorer, car il présente quelques limites, à commencer par la langue. « Jusqu’à présent, notre méthode fonctionne pour la majorité de la langue anglaise, et nous prévoyons d’appliquer l’algorithme à d’autres langues, ainsi que de rendre éventuellement le son du bruissement complètement imperceptible », a indiqué la chercheuse Mia Chiquier. Outre les différentes langues, la méthode des chercheurs n’a pas non plus été « validée » pour une utilisation avec des personnes présentant des troubles de la parole. Affirmant que ses résultats ne sont ainsi pas représentatifs de la population, l’équipe indique que des études associées à des connaissances linguistiques et socioculturelles sont nécessaires pour « une meilleure compréhension de cette question ».
Malgré ces obstacles, les chercheurs ont déjà une idée de la forme sous laquelle ils mettront leur algorithme à disposition des individus. Il pourrait un jour être intégré dans une application pour une utilisation dans le monde réel, comme l’a expliqué Mia Chiquier au site Science News for Students. Une personne souhaitant s’assurer qu’elle n’est pas écoutée par un appareil aurait alors juste à ouvrir l’application.