Entretien

Assistants vocaux : une voix non-genrée pour davantage d’inclusivité

25 avril 2022
Par Kesso Diallo
Apple a développé une voix non-genrée pour Siri.
Apple a développé une voix non-genrée pour Siri. ©Wachiwit/Shutterstock

Siri, l’un des assistants vocaux les plus connus, peut désormais s’exprimer avec une voix non-genrée aux États-Unis. Si Apple fait office de pionnier parmi les géants du numérique, l’arrivée d’une telle voix, plus neutre, montre la volonté de représenter la diversité de la société avec les nouvelles technologies.

Téléphoner à un ami, se renseigner sur la météo du jour, demander l’âge d’un candidat à la présidentielle, éteindre la lumière de la cuisine sans bouger de son canapé… Nombre de personnes utilisent au quotidien un assistant vocal. Disponibles sur les smartphones et désormais de multiples appareils connectés (enceintes, luminaires, etc), ces assistants fonctionnent grâce à l’intelligence artificielle. Portant des noms féminins tels que Siri, Cortana ou Alexa, ils ne se sont longtemps exprimés qu’à travers une voix de femme. Accusés de renforcer les stéréotypes sexistes, ces assistants laissent désormais le choix aux utilisateurs entre une voix masculine et une voix féminine.

En 2022, Apple va plus loin dans l’inclusivité avec son assistant vocal, Siri, en proposant une voix non-genrée. Testée dans une version bêta d’iOS, elle a été déployée en mars aux États-Unis par le biais d’une mise à jour du système d’exploitation mobile. « Des millions de personnes dans le monde comptent sur Siri pour les aider dans leur quotidien et c’est pourquoi nous travaillons à rendre cette expérience aussi personnalisée que possible », a expliqué Apple au média Axios.

Qu’est-ce qu’une voix non-genrée ? Pourquoi intégrer une telle option dans les assistants vocaux ? Comment est-elle conçue ? Florian Guichon, directeur des opérations de Vivoka, entreprise spécialisée dans la reconnaissance vocale, a accepté de répondre à toutes nos questions.

À quoi ressemble une voix non-genrée ?

Historiquement, la plupart des voix et des assistants vocaux – par exemple dans les GPS et les opérateurs téléphoniques – étaient féminines. On estimait que les femmes avaient une voix plus douce, plus apaisante et plus agréable en synthèse vocale. Désormais, on a souvent le choix entre voix d’homme et voix de femme. La voix non-genrée, elle, ne ressemble ni à l’un ni à l’autre. Elle prononce les mêmes mots, les mêmes phrases, mais n’est pas identifiable en tant que femme ou en tant qu’homme. Le meilleur mot pour définir une voix non-genrée ? “Neutre”, tout simplement.

Pourquoi intégrer une voix non-genrée dans les assistants vocaux ?

À notre sens, il y a deux sujets. Le premier – on ne va pas se voiler la face – c’est le sexisme. Les opérateurs téléphoniques à l’époque étaient, pour la plupart, des opératrices. Il y a une vingtaine d’années, les GPS étaient aussi très féminins. On interagissait mieux avec les voix féminines. Cela a fini par engendrer des préjugés sexistes, et a pu encourager des comportements négatifs, autant avec les personnes réelles qu’avec les assistants numériques.

Le deuxième, c’est qu’on est dans un monde où l’on prône de plus en plus la non-segmentation des genres. Les personnes transgenres et non-binaires ne se sentent pas représentées dans ces assistants vocaux. Elles ne se sentent concernées ni par une voix de femme ni par une voix d’homme. D’où la nécessité de proposer aussi des voix non-binaires, neutres.

Comment créer une voix non-genrée pour un assistant vocal ?

Le mécanisme de création d’un assistant vocal est assez simple : il s’agit d’obtenir de nombreux enregistrements audio issus de personnes différentes et d’utiliser différentes méthodes. Il faut donc enregistrer plusieurs personnes pour y parvenir. En 2019, avant Apple, une voix non-genrée baptisée Q avait demandé une vingtaine de voix de personnes transgenres et non-binaires pour être conçue. Les voix avaient été mixées entre elles afin d’obtenir la plus grande neutralité possible.

Les voix d’hommes sont situées, en règle générale, entre 85 et 180 hertz. Plus aigües, les voix féminines se situent, elles, entre 140 et 250 hertz. Pour que la voix soit neutre, il faut qu’elle oscille entre 145 et 175 hertz.

Quelles technologies sont nécessaires pour créer une voix non-genrée ?

Aujourd’hui, pour créer une voix, il faut surtout beaucoup de données audio. On récupère ces voix-là pour les mettre dans des process technologiques. Globalement, deux technologies d’intelligence artificielle (IA) sont utilisées pour créer ces voix : le deep learning (apprentissage profond) et le machine learning (apprentissage automatique). La notion d’apprentissage se fait par ces deux technologies-là. Elles permettent de mixer et de détecter des éléments clés pour retranscrire une voix neutre. Aujourd’hui, quand vous parlez, il y a le rythme, le ton, l’intonation, l’aspect grave, l’aspect aigu, la fréquence… Tous ces aspects – il y en a des centaines – deviennent des petits points qui permettent de faire une modification de voix ou non. Les voix sont analysées pour en ressortir des notions très précises sur l’ensemble de ces aspects afin de créer ces voix neutres.

Plus on a de données audio intégrées dans différentes technologies se regroupant autour de l’IA, plus c’est possible de créer pile-poil ce que l’on souhaite, avec le mix du féminin-masculin, neutre et non-binaire.

Pourquoi cette version non-genrée est-elle uniquement disponible aux États-Unis ?

Je pense qu’il y a deux sujets majeurs. Le premier, c’est qu’il faut énormément de données pour faire les meilleures voix non-genrées et ils en ont plus aux États-Unis, notamment avec leurs solutions cloud. Pour Siri, Apple a justement des données monstrueuses afin de créer cela. Le deuxième point, c’est l’aspect culturel. Il y a une ouverture d’esprit du non-genre qui est plus explosive aux États-Unis qu’en France. On reste sur des aspects pragmatiques simples en France. D’une manière générale, la voix et les assistants vocaux sont beaucoup plus démocratisés aux États-Unis qu’en France pour le moment, même si on les entend partout en France.

La voix non-genrée est d’abord développée aux États-Unis et après, il n’y aura pas de barrières de langue. Mais il faut déjà que ce soit bien fait à l’endroit où il y a le plus de données, soit les États-Unis aujourd’hui, pour pouvoir les transmettre aux autres pays par la suite.

À lire aussi

Article rédigé par
Kesso Diallo
Kesso Diallo
Journaliste