Actu

Google dévoile une IA capable de générer de la musique

30 janvier 2023
Par Kesso Diallo
MusicLM est capable de générer divers types de contenus musicaux.
MusicLM est capable de générer divers types de contenus musicaux. ©Uladzik Kryhin / Shutterstock

Appelé MusicLM, le modèle permet de générer de la musique à partir d’une description textuelle. Il n’est cependant pas accessible au public à cause de plusieurs risques.

Après les vidéos, c’est un autre type d’intelligence artificielle (IA) génératrice de contenus que Google vient de dévoiler. Baptisée MusicLM, elle peut générer de la musique à partir d’une description textuelle. Pour cela, le modèle a été entraîné sur un ensemble de données de 280 000 heures de musique, lui permettant de créer des morceaux « cohérents pendant plusieurs minutes ».

Génération de divers contenus

Dans le détail, MusicLM est capable de générer divers types de contenus musicaux. Il peut créer des contenus audio à partir d’une description complexe comme « la bande originale d’un jeu d’arcade. Elle est rapide et optimiste, avec un riff de guitare électrique accrocheur. La musique est répétitive et facile à retenir, mais avec des sons inattendus, comme des cymbales crash ou des roulements de tambour ». Un prompt aboutissant à un son de 30 secondes. Il peut aussi générer des morceaux de 5 minutes.

Le mode histoire permet lui, de créer un contenu dont le son évolue grâce à une séquence de prompts, tel qu’une musique passant du jazz à la pop, puis au rock. Il est par ailleurs possible, avec le processus du conditionnement du texte et de la mélodie, de générer un son conforme au prompt tout en suivant une mélodie fournie. Concrètement, MusicLM peut par exemple jouer Bella Ciao en sifflements, au piano ou encore à la guitare. De même, le conditionnement par une image permet d’obtenir un son à partir d’une peinture, comme Le Cri d’Edward Munch, et de sa légende.

Enfin, MusicLM est capable de créer de courts contenus audio – d’une durée de 10 secondes – avec des instruments (guitare électrique, flute…), selon un genre spécifique (rap, blues…), un lieu (opéra, plage dans les Caraïbes…), une époque (club des années 50…), mais aussi en fonction du niveau d’expérience d’un musicien (guitariste débutant ou professionnel…). L’IA peut aussi faire preuve de « diversité » en créant un son différent pour une même description.

Un système avec des risques

Si les chercheurs affirment, dans un article académique, que MusicLM surpasse les systèmes précédents en termes de qualité audio et de fidélité à la description textuelle, l’IA est loin d’être parfaite. Les sons ne sont en effet pas toujours agréables à écouter, certains étant distordus. De plus, les paroles ne sont pas toujours compréhensibles.

Les co-auteurs de l’article mentionnent en outre les nombreux défis éthiques posés par un système comme MusicLM, tel que l’intégration de contenus protégés par le droit d’auteur avec les données de formation dans les morceaux générés. Un problème que l’on retrouve déjà avec les IA génératrices d’images. Lors d’une expérience, ils ont découvert qu’environ 1% de la musique créée par l’IA était directement répliquée à partir des chansons sur lesquelles il avait été entraîné. « Les échantillons générés refléteront les biais présents dans les données de formation, soulevant la question de la pertinence de la production musicale pour les cultures sous-représentées dans les données de formation, tout en soulevant des inquiétudes quant à l’appropriation culturelle », expliquent par ailleurs les chercheurs.

Des risques qui les empêchent de rendre MusicLM accessible au public. « Nous soutenons fortement la nécessité de travaux futurs supplémentaires pour lutter contre ces risques associés à la génération de musique », font savoir les co-auteurs de l’article.

À lire aussi

Article rédigé par
Kesso Diallo
Kesso Diallo
Journaliste