Actu

Microsoft dévoile une IA capable d’imiter n’importe quelle voix

11 janvier 2023
Par Kesso Diallo
Capable d'imiter une voix après l'avoir écouté pendant 3 secondes, l'IA pourrait être utilisée de manière abusive.
Capable d'imiter une voix après l'avoir écouté pendant 3 secondes, l'IA pourrait être utilisée de manière abusive. ©VDB Photos / Shutterstock

Appelé VALL-E, ce modèle de langage parvient à reproduire la voix d’une personne à partir d’un échantillon de trois secondes.

Microsoft ne s’intéresse pas seulement à l’intelligence artificielle (IA) pour améliorer ses services et concurrencer Google. Le géant américain développe aussi ses propres systèmes. Des chercheurs de l’entreprise ont récemment dévoilé une IA baptisée VALL-E. Sa particularité : elle est capable d’imiter n’importe quelle voix à partir d’un échantillon audio de trois secondes. Autrement dit, il lui suffit d’entendre une phrase pour reproduire la voix de quelqu’un.  

Entraînée avec plus de 60 000 heures de conversation en anglais, elle y parvient tout en conservant le ton émotionnel de l’orateur et l’environnement acoustique de l’échantillon audio, selon les chercheurs. Concrètement, si ce dernier provient d’un appel téléphonique, la voix générée par VALL-E ressemblera aussi à un appel téléphonique. L’objectif, avec ce système, est d’être le plus fidèle possible dans les imitations.

Une IA problématique

Selon Ars Technica, les créateurs de VALL-E pensent que l’IA pourrait être utilisée pour modifier des enregistrements et donc, faire dire des choses à une personne alors qu’elle ne les a jamais dites. Combinée à des systèmes tels que GPT-3, elle serait même capable de créer des contenus audio. Comme avec les IA génératrices d’images, cela est problématique pour les artistes. Il est par exemple possible que les doubleurs de voix perdent leur travail au profit de VALL-E, comme l’indique Windows Central.

L’IA de Microsoft pose aussi des problèmes de sécurité, probablement la raison pour laquelle elle n’est pas accessible au public. Des personnes malveillantes pourraient en effet s’en servir pour usurper l’identité d’un individu spécifique. Des cybercriminels utilisent déjà des technologies comme le « deep voice » pour des escroqueries. C’est ainsi qu’un directeur banquier a été arnaqué en 2020, autorisant des virements à hauteur de 35 millions de dollars. Pour éviter ces utilisations abusives, Microsoft prévoit de développer un outil capable de détecter si un clip audio a été généré par VALL-E.

À lire aussi

Article rédigé par
Kesso Diallo
Kesso Diallo
Journaliste