Capable de produire des clips audio, il peut effectuer une variété de tâches comme la synthétisation de la parole dans six langues, l’édition d’un contenu ou encore la suppression du bruit dans celui-ci.
Faire pour la parole ce que ChatGPT et Dall-E ont fait pour la génération de textes et d’images. Telle est la vision de Meta avec Voicebox, son nouveau modèle génératif de synthèse vocale. « Comme les systèmes génératifs pour les images et le texte, Voicebox crée des sorties dans une grande variété de styles, et il peut créer des sorties à partir de zéro ainsi que modifier un échantillon qui lui est donné. Mais au lieu de créer une image ou un passage de texte, Voicebox produit des clips audio de haute qualité », a assuré Meta AI, la branche dédiée à l’intelligence artificielle (IA) du géant américain, dans un article de blog.
Un modèle entraîné dans six langues
Pour y parvenir, Meta AI s’est basée sur une nouvelle approche grâce à laquelle son modèle peut apprendre uniquement à partir de l’audio brut et d’une transcription qui l’accompagne. Comme l’indique la branche, l’une des principales limitations des synthétiseurs vocaux existants est qu’ils peuvent seulement être entraînés avec des données préparées expressément pour cette tâche. « Ces entrées – connues sous le nom de données monotones et propres – sont difficiles à produire, elles n’existent donc qu’en quantités limitées et elles se traduisent par des sorties qui sonnent monotones », a expliqué Meta AI.
Ce n’est pas le cas de Voicebox qui est capable d’apprendre à partir de données vocales variées sans que celles-ci ne soient soigneusement étiquetées grâce à une méthode appelée Flow Matching, utilisée par la branche pour le former. Le modèle a ainsi été entraîné avec plus de 50 000 heures de discours enregistrés et de transcriptions de livres audio du domaine public en anglais, français, espagnol, allemand, polonais et portugais. Meta AI a commencé par lui apprendre à prédire des segments de parole en fonction du discours environnant et de la transcription du passage. « Ayant appris à remplir la parole à partir du contexte, le modèle peut ensuite l’appliquer à toutes les tâches de génération de la parole, y compris la génération des parties au milieu d’un enregistrement audio sans avoir à recréer l’intégralité de l’entrée », a indiqué la branche.
Un outil polyvalent et dangereux
Grâce à cette méthode d’entraînement, Voicebox serait meilleur que d’autres IA. Dans le domaine de la synthèse vocale, il surpasserait par exemple VALL-E, modèle de Microsoft capable d’imiter n’importe quelle voix, en termes d’intelligibilité (taux d’erreur des mots de 1,9% contre 5,9%) et de similarité audio.
Voicebox serait également capable de modifier des clips audio, d’éliminer le bruit du discours et même de remplacer les mots mal prononcés. « Une personne pourrait identifier quel segment brut du discours est corrompu par le bruit (comme un chien qui aboie), le retirer et demander au modèle de régénérer ce segment. Cette capacité pourrait un jour être utilisée pour rendre le nettoyage et l’édition audio aussi faciles que les outils d’édition d’images populaires ont rendu la retouche de photos », a affirmé Meta AI. Voicebox pourrait aussi permettre à des individus ne parlant pas la même langue de communiquer « de manière naturelle et authentique » grâce à une capacité dite de « transfert de style interlinguistique ». Concrètement, à partir d’un échantillon de discours et d’un passage de texte dans l’une des six langues avec lesquelles il a été entraîné, il peut produire une lecture du texte dans cette langue.
Meta AI estime que son modèle représente une avancée importante dans la recherche sur l’IA générative. La branche est cependant consciente des dangers que présentent ces systèmes. « Comme pour d’autres nouvelles innovations puissantes en matière d’IA, nous reconnaissons que cette technologie présente un potentiel d’utilisation abusive et des dommages involontaires », a-t-elle déclaré. Voicebox pourrait par être exemple être utilisé pour créer des deepfakes. Pour atténuer ces éventuels risques, Meta AI a développé un classificateur (algorithme catégorisant automatiquement des données dans un ou plusieurs ensembles de classes) capable de faire la distinction entre la parole authentique et l’audio généré avec Voicebox. La branche a également choisi de ne pas rendre son modèle ni son code source disponibles pour le public pour le moment.