Entretien

Le Voice Cloning : enjeux et prouesses culturelles de l’IA

10 avril 2023
Par Margaux Seux
Le Voice Cloning a permis une reproduction de l'appel du 18 juin 1940 du Général de Gaulle.
Le Voice Cloning a permis une reproduction de l'appel du 18 juin 1940 du Général de Gaulle. ©Lobeo Designer/Shutterstock

Les journalistes du Monde Charles-Henry Groult et Benoît Hopquin publiaient en janvier, la « vraie » version de l’appel du 18 juin 1940. Derrière cette reconstitution se cache le Voice Cloning, une puissante technologie développée par l’Ircam et sur laquelle Frédéric Amadu, directeur chez Ircam Amplify, est revenu auprès de L’Éclaireur afin d’en expliquer les différents enjeux culturels et éthiques.

« L’appel du 18 juin du Général de Gaulle reconstitué pour la première fois. » L’annonce interpelle, perturbe, fascine, dérange. Et ce parce qu’elle trouble instantanément l’histoire de notre pays et la mythologie de l’un de ses tournants majeurs qui, quoi qu’il en soit, relança en son temps le mouvement de résistance française contre le nazisme. Le 18 janvier dernier, le journal Le Monde publiait un article révélant que l’appel du 18 juin – discours sanctuarisé dans les esprits de tous et encore enseigné dans les écoles – était en fait celui prononcé le 22 (date officielle de la signature de l’Armistice entre la France pétainiste et l’Allemagne nazie).

« Ce 18 juin 1940, le général s’assoit devant une petite table, dans un studio de la BBC. » Sauf que Londres, qui n’entend pas encore « se fâcher avec le héros de Verdun et les nouvelles autorités qu’il incarne », programme la diffusion du discours tard dans la soirée, et n’en conserve aucune trace enregistrée. En conclusion, « seules une écoute et une retranscription des services secrets suisses, retrouvées récemment par un historien amateur » en rendent compte véritablement.

Vidéo retraçant l’enquête du Monde et la reconstitution sonore par IA de l’Appel du 18 juin 1940

C’est donc pour tenter de palier ce vide d’archives que Charles-Henry Groult (Le Monde) s’est finalement rapproché de l’Institut de recherche et de coordination acoustique/musique (Ircam) et plus précisément de sa filiale technologique Ircam Amplify. La structure attachée au Centre Pompidou est actuellement l’un des plus grands centres de recherche publique au monde. Son travail, initié en 1977 par Pierre Boulez et aujourd’hui dirigé par Franck Madlener, se développe autour de trois axes : création, recherche, transmission. Sa cellule de valorisation Amplify s’occupe, quant à elle, de synthétiser les trois pour rendre le tout exploitable sur mesure et de façon sécurisée hors de la structure.

Tentative inédite donc rendue possible grâce au Voice Cloning, une nouvelle technologie d’intelligence artificielle développée par Ircam Amplify. Alors Le Monde, aidé du comédien François Morel (rythme de voix) a finalement pu tenter de « reconstituer ce qu’avait pu être la voix radiophonique du Général, ce fameux 18 juin 1940 ».

À partir de
35€
En stock
Acheter sur Fnac.com

Si l’exercice paraît aussi délirant que la réussite de son entreprise, se cachent derrière cette prouesse technologique de nombreux enjeux éthiques, historiques et culturels. Pour en éclaircir les contours et en discuter les limites, L’Éclaireur s’est entretenu avec Frédéric Amadu, directeur technique d’Ircam Amplify.

Tout d’abord, pour comprendre, comment fonctionne l’Ircam ?

Frédéric Amadu : La recherche et le travail chez nous sont répartis en plusieurs équipes. Par exemple, l’une travaille sur la modélisation physique, quand d’autres se concentrent sur la synthèse sonore, la spatialisation, le design, ou encore l’interactivité entre le mouvement et le son. Par la suite, les laboratoires peuvent se rejoindre sur des thématiques communes. Concernant notre sujet, la voix, il y a une équipe qui travaille sur sa modélisation en réfléchissant à ce qu’il se passe physiquement dans notre corps pour produire un son, pendant que ceux qui ont mis au point le système de clonage vocal, Voice Cloning, s’intéressent finalement à comment on la perçoit de l’extérieur. Enfin, par dessus, l’équipe Perception Design Sonore travaille sur les enjeux éthiques et comment l’humain réagit à des sons synthétiques, dont les voix synthétiques. 

Sommes-nous tous fait d’un “ADN sonore” ?

F.A. : On parle plus de “personnalité de voix”. Quand on connaît la voix de quelqu’un, on la reconnaît même les yeux fermés, on sait qui parle, le cerveau a cette puissance-là. Même si la voix est un peu enrouée, on va être capable de la reconnaître, là où une machine est incapable de le faire. Aujourd’hui, on ne fait aucune reconnaissance ou authentification humaine par la voix. La machine est incapable de le faire, alors qu’avec une emprunte digitale, une rétine, elle peut.

Votre technologie de Voice Cloning a donc pour but de recréer au plus près une identité vocale, pour la faire s’exprimer. Pour cela, vous tentez d’en réunir les différents composites à partir de matières existantes ?

Le comédien François Morel lors de l’enregistrement du texte de l’appel du 18 juin 1940.

F.A. : En effet, il y a une analyse qui est faite dans le système, par “réseaux de neurones”, “apprentissage machine”, ou “intelligence artificielle” – tout ça veut dire la même chose. Le système analyse plus d’une centaine de voix sur plus d’une centaine d’heures de discussions faites en français. Le système apprend quelles sont les différentes manières de prononcer des mots dans notre langue. C’est le socle du système. Et lorsqu’on veut faire un clonage vocal, on prend deux personnes : le son de celle que l’on souhaite reproduire, qu’on intègre en machine, et la voix d’un comédien, à qui on demande de jouer le texte. En respectant au mieux le rythme naturel de la personne que l’on veut cloner. De ce comédien (François Morel pour de Gaulle), la machine ne garde que la musicalité de la voix, ce que l’on appelle la prosodie.

Et ensuite, magie ?

F.A : Et bien, ça se passe comme au cinéma pour les films de science-fiction. Ils filment un acteur qui porte une combinaison avec plein de petits points de contrôle sur son visage et son corps, pour capter ses expressions, ses mouvements. Ensuite, une technologie va permettre de lui appliquer une texture de peau différente, comme un singe dans La Planète des Singes (2011). Tout ce qui porte de l’émotion humaine, c’est bien un acteur qui le fait. Nous, on suit ce même principe : on va enlever son identité vocale au comédien et la remplacer par l’identité vocale de celui qu’on veut cloner. En aucun cas l’intelligence artificielle n’est incapable de générer de l’émotion, aujourd’hui c’est quelque chose qu’elle ne sait pas faire. 

À partir de
19,90€
En stock vendeur partenaire
Acheter sur Fnac.com

Si elle le pouvait, c’est là que ça deviendrait dangereux ? Où en est la recherche sur ce point ?

F.A. : En effet. Aujourd’hui, on arrive à faire lire un point d’exclamation, une virgule… On réussit sensiblement à orienter l’interprétation de la synthèse vocale grâce à la ponctuation. Mais il y a tellement de finesse dans la manière de parler… Si on demande à un acteur de jouer l’étonnement et qu’on s’arrête à ça, on va pouvoir récupérer cette manière de faire qui est celle de l’acteur, mais qui sera toujours la même, et donc deviendra vite obsolète. Le texte seul n’est pas porteur d’émotions, on n’est pas capable, quand on l’écrit, de prédire la façon dont il va être lu. Même si les derniers moteurs publics ont des machines qui font des voix particulièrement réalistes, ça le reste 30 secondes. Après, ça devient monotone et on remarque la supercherie. L’humain, malgré lui, sera toujours porteur d’une émotion. 

Quelle est la différence entre le Deep Fake et le Voice Cloning ?

F.A. : Ce n’est pas le nom de la technologie qui est en jeu, mais son utilisation. Dans nos travaux, on ne cherche jamais à faire de l’usurpation. On met toutes les garanties autour, tout est fait pour que la personne qui écoute sache à l’avance que c’est faux. Il y a aussi une affaire d’éducation du public. Aujourd’hui, quand on regarde Avatar (2009) de James Cameron, personne ne se dit que tout ça peut être vrai parce qu’on sait que depuis 40 ans nous sommes capables de faire des images de synthèses ultraréalistes. Pour la voix, on ne savait pas ce qui était possible. Au tout début 1980, l’Ircam avait déjà réussi à synthétiser une voix de cantatrice lyrique. Ils savaient le faire par ordinateur, mais ça leur avait pris des mois d’écriture de programme pour générer deux minutes.

À lire aussi

Plus tard en 2000, c’est la voix du maréchal Pétain qu’ils ont clonée pour palier le manque d’audio sur l’enregistrement de son procès. On n’était pas encore dans le Machine Learning. Maintenant, c’est le cas, mais la machine permet la rapidité. L’action humaine reste essentielle pour rendre le tout plus fluide, pour que l’on croit au résultat, mais surtout pour vérifier la production au fur et à mesure que la machine la sort. C’est une deuxième sécurité éthique, évidemment nécessaire quand on traite de séquences historiques, mais aussi pour n’importe quel clone vocal. Comme celui de Dalida qu’on a produit pour l’émission de télévision Hôtel du temps de Thierry Ardisson.

Quand il s’agit de Voice Cloning culturels, y-a-t-il une part de liberté qui est prise dans la reconstitution ? Où se situe la limite entre fiction et vérité ?

F.A. : On ne peut cloner que ce que l’acteur a dit, et utiliser seul son spectre pour effectuer le clonage vocal en tout point. Notre machine n’invente rien, ni de mots, ni d’émotions, ça on en est garants. Des ingénieurs du son spécialistes interviennent. On produit plusieurs versions à chaque fois et ils choisissent, vérifiant que rien n’a été inventé ou ajouté par la machine. C’est ça qui pourrait rendre le tout incertain au niveau de l’éthique de la technologie. De l’autre côté, il y a les productions et leur travail de recherche, de fond, avant de nous amener le projet. Sur le Général de Gaulle, c’est tout le travail de recherche de Charles Henry Groult qui a compté. Sans la validation du document d’archives, on ne l’aurait pas fait.

Frédéric Amadu, directeur technique d’Ircam Amplify.©Geraldine Aresteanu pour Ircam Amplify

Dans certains cas, il peut y avoir d’énormes enjeux historiques…

F.A : En effet, c’est intéressant, notamment à partir des réactions qui ont fait suite à la publication du Général de Gaulle, certains ont trouvé ça génial et d’autres dangereux en disant justement : “N’y a-t-il pas un risque de réécrire l’histoire ?” Finalement, Charles-Henry le montre très bien dans son article, tout ce qu’on a toujours lu dans les manuels scolaires était faux, et le but avec ce projet est de se rapprocher au plus proche de la vérité. Sur ce projet, on savait que Charles-Henry faisait ça sous la houlette du Monde, garant du sérieux de la démarche. Tout se fait sur un temps assez long entre le début et la fin de la démarche.

À lire aussi

À chaque fois qu’un projet de ce type arrive on se pose la question : “Où est la véracité de la source ?” Charles-Henry a trouvé le fameux script du discours dans les archives suisses, il a aussi fait un travail avec des historiens pour vérifier les spécificités des discours. Il y a un vrai travail de recherche historique et nous-mêmes nous avons travaillé à partir d’extraits du Général de Gaulle datant de cette époque, qui était à ce moment beaucoup moins grandiloquent. C’est pour ça que parfois, il y a un effet d’étonnement, ça peut déconstruire le fantasme. Donc ce qu’il nous faut, nous, c’est un travail documentaire, l’aval d’un ayant-droit ou similaire, et que ce soit estampillé “sérieux” par un producteur. C’est pour ça qu’on ne fait que des projets sur mesure, qu’on en fait très peu et qu’on les choisit.

L’éthique de tels projets est-elle aussi supportée et protégée par la législation ?

F.A. : À l’heure actuelle, la voix n’est pas protégée en termes de droit, c’est ce qui rend le sujet sensible. Encore une fois, ça tient de la documentation et de la responsabilité que chacun engage dans le projet qu’il entreprend. C’est comme lorsque des biopics sont fait au cinéma.

Une fois que le produit est fini et livré, appartient-il à l’initiateur seul ? Peut-il retracer la technologie ?

F.A. : Non, il n’y a aucun risque. Même si on donne la recette, comme je viens de le faire, on donne le chemin, mais pour décortiquer le signal de la voix il faut être l’Ircam, avec ses moyens et ses 40 ans de recherches sur la voix. Ce qu’on a réussi à faire est possible grâce à des décennies de travail préalable, où le progrès a commencé par un travail manuel avant de devenir technologique. Pour la question des droits, quand on créé un son, les droits d’exploitation sont cédés à notre client pour un nombre défini d’années (comme pour les droits musicaux). On leur donne un fichier finalisé, et non la maquette, ou la technologie, pour justement garder la maîtrise de la question éthique. La reconstitution sonore de l’appel du 18 juin appartient au Monde actuellement.

Et si on se projette dans le futur du Voice Cloning dans le milieu culturel ?

F.A. : Il y a des idées. Parmi celles-ci, il pourrait notamment y avoir la question du doublage au cinéma, ou dans les jeux vidéos, en permettant de conserver la voix du comédien d’origine dans toutes les langues. Mais si on pousse la perspective vertueuse, on lie le progrès au milieu médical et la possibilité dans quelques années de rendre leur voix aux personnes qui en sont privées.

10€
12€
En stock
Acheter sur Fnac.com

Dans le milieu culturel, il y a eu un premier pas de fait dans le dernier Top Gun: Maverick (2022), où le comédien Val Kilmer parle avec son ancienne voix, qu’il a perdue à cause de son cancer. On produit du rêve sonore pour la beauté de l’art, mais le médical est d’autant plus proche de l’humain. Les deux se stimulent, et c’est ce qu’on va continuer de mettre en valeur.

À lire aussi

Article rédigé par