Article

Lecture, voix, musique… Comment l’IA se fait une place dans le domaine de l’audio

18 mars 2023
Par Kesso Diallo
Lecture, voix, musique… Comment l’IA se fait une place dans le domaine de l’audio
©Baivector/Shutterstock

L’intelligence artificielle compte de nombreuses applications dans le domaine de l’audio. Elle représente aussi un danger, pouvant être utilisée à des fins malveillantes.

Permettant de générer des contenus textuels et visuels, l’intelligence artificielle (IA) fait aussi des merveilles dans un autre domaine : l’audio. Elle alimente par exemple les assistants vocaux, comme Siri, que nous sommes nombreux à utiliser au quotidien sur nos smartphones et d’autres appareils connectés. Avec cette technologie, il est aussi possible de créer des contenus comme le font les humains, à l’image de la musique ou des livres audio, et même de reproduire des voix. Mais, si ces innovations peuvent être utiles, elles ne sont évidemment pas sans danger.

Des IA capables de créer de la musique

L’IA permet donc déjà de composer de la musique. Plusieurs outils de ce type existent à ce jour, à l’image de Jukebox, dévoilé en 2020 par OpenAI. Il s’agit d’« un réseau neuronal qui génère de la musique (…) sous forme d’audio brut dans une variété de genres et de styles d’artistes ». Concrètement, cette IA peut produire des chansons avec la mélodie, les paroles et la voix en s’inspirant d’un style musical. Pour y parvenir, elle a été entraînée sur plus d’un million de chansons.

Plus récemment, Google a dévoilé un système similaire baptisé MusicLM, capable de générer divers types de contenus musicaux, d’une durée allant de 30 secondes à 5 minutes, à partir d’une description textuelle. Formé sur un ensemble de données de 280 000 heures de musique, ce modèle peut même créer des sons en fonction d’un genre spécifique, d’un lieu ou encore du niveau d’expérience d’un musicien.

Rassurons-nous : ces IA ont cependant encore du chemin à faire pour rivaliser avec les humains en termes de qualité. Avec celle de Google, par exemple, certains morceaux peuvent être distordus et les paroles ne sont pas toujours compréhensibles. Elle n’est d’ailleurs pas accessible au public à cause des risques (reproduction de biais, etc.) qu’elle présente.

L’IA pour remplacer la lecture par l’écoute

L’IA permet également la lecture audio de certains contenus. Alors que nous pouvons déjà écouter des livres lus par des humains, certaines entreprises en proposent d’autres lus par une IA. C’est le cas d’Apple, qui a discrètement lancé une collection d’audiobooks sur ce principe fin 2022. « La narration numérique Apple Books rend la création de livres audio plus accessible à tous », a expliqué la société. Pour créer ces voix artificielles – masculines et féminines – Apple a associé une technologie de synthèse vocale à « un travail important d’équipes de linguistes, de spécialistes du contrôle qualité et d’ingénieurs du son ». Optimisant ces voix pour des genres spécifiques, la firme n’en propose que quatre pour le moment, ayant commencé par la fiction, la romance et le développement personnel.

L’IA se fait aussi une place dans les médias avec la lecture audio des articles. En France, La Tribune, Le Figaro, Le Monde et Le Point offrent cette option aux lecteurs depuis un certain temps. Dans le cas du Monde par exemple, il est possible d’écouter les articles de son application La Matinale depuis novembre dernier, grâce à une voix créée à l’aide d’une IA ayant enregistré et synthétisé celles de six comédiens et comédiennes.

Le quotidien est même récemment allé plus loin avec l’IA en reconstituant l’appel du 18 juin du général de Gaulle alors qu’aucun enregistrement de celui-ci n’existe. En collaboration avec l’Institut de recherche et de coordination acoustique/musique (Ircam), Le Monde a utilisé une nouvelle technologie d’IA et la voix de l’acteur François Morel pour reconstituer cette allocution.

« On a un système qui permet de changer l’identité perçue d’une voix », a indiqué Axel Roebel, chercheur ayant travaillé sur le projet, à France Inter. « Notre système a “appris” de plusieurs discours de De Gaulle, qui sont d’époque, et de plusieurs enregistrements de François Morel qui refait tous ces discours. Après on crée des modèles et on obtient une voix, imparfaite. La dernière étape est une post-production, avec les ingénieurs du son ici à l’Ircam. Il y a un travail artisanal derrière », a-t-il expliqué.

Une technologie dangereuse

L’IA peut ainsi être utilisée pour reproduire la voix de quelqu’un. En janvier, Microsoft a d’ailleurs dévoilé Vall-E, un système capable d’imiter n’importe quelle voix à partir d’un échantillon audio de trois secondes. Cette avancée dans le domaine de l’audio n’est cependant pas sans danger. Si dans le cas de la reconstitution de l’appel du 18 juin, il s’agit d’« un deepfake qui dit la vérité », comme l’a indiqué le directeur de l’Ircam, ce type d’IA peut être utilisée à des fins malveillantes. En 2020, par exemple, un directeur de banque pensant parler au PDG d’une entreprise qu’il connaissait a autorisé des virements à hauteur de 35 millions de dollars alors qu’il s’agissait en réalité d’un escroc ayant cloné sa voix.

Plus récemment, des outils de synthèse vocale et de clonage de la voix ont été utilisées pour générer de fausses voix ressemblant à celles de célébrités, leur faisant tenir des propos racistes, transphobes, homophobes et violents. La même technologie a aussi servi à harceler des doubleurs ayant travaillé sur des jeux vidéo, a récemment rapporté Motherboard. Des trolls en ligne l’ont exploité pour créer des voix similaires aux victimes et leur faire lire les adresses personnelles de ces dernières pour ensuite publier les résultats sur Twitter. Comme le note le site américain, cette campagne de harcèlement montre le risque de voir sa voix reproduite par une IA pour des utilisations malveillantes dès que des enregistrements de celle-ci (podcasts, vidéos YouTube…) sont disponibles en ligne.

À lire aussi

Article rédigé par
Kesso Diallo
Kesso Diallo
Journaliste
Pour aller plus loin