Baptisée Stable Audio, la plateforme permet de créer de la musique et d’autres sons à partir de prompts textuels.
Connue pour son intelligence artificielle (IA) génératrice d’images, Stable Diffusion, Stability AI permet désormais de créer de la musique et d’autres sons avec une nouvelle plateforme. Appelée Stable Audio, elle utilise le même modèle de diffusion qui alimente Stable Diffusion, mais qui a été entraîné avec de l’audio et non des images.
Les internautes peuvent l’utiliser pour générer des chansons, des musiques de bande annonce ou encore des effets sonores à partir de prompts textuels comme « des personnes parlent dans un restaurant bondé ». « Nous espérons que Stable Audio permettra aux passionnés de musique et aux professionnels de la création de générer de nouveaux contenus avec l’aide de l’IA, et nous attendons avec impatience les innovations infinies qu’il inspirera », a déclaré Emad Mostaque, PDG de Stability AI, dans un communiqué.
Offrir plus de contrôle aux utilisateurs sur la durée des contenus
Les modèles de diffusion audio ont tendance à générer une durée fixe d’audio, ce qui est problématique pour la production musicale vu que la durée des chansons peut varier. Auparavant, un modèle entraîné sur des clips audio de 30 secondes pouvait, par exemple, uniquement générer des contenus de 30 secondes. Stability AI affirme que les utilisateurs ont plus de contrôle sur la durée du contenu produit par sa plateforme, grâce à des métadonnées textuelles autour de l’heure de début et de fin des fichiers audio.
Plus précisément, l’entreprise a entraîné Stable Audio avec un ensemble de données composé de plus de 800 000 fichiers audio contenant entre autres de la musique et des effets sonores, ainsi que des métadonnées textuelles de la société AudioSparx dans le cadre d’un accord. En s’associant à celle-ci, Stability AI indique avoir l’autorisation d’utiliser des contenus protégés par le droit d’auteur. Au total, l’ensemble de données représente plus de 19 500 heures de sons.
Pour sa plateforme, l’entreprise propose trois niveaux de tarification. La première version, qui est gratuite, permet aux utilisateurs de créer 20 pistes par mois, d’une durée maximale de 45 secondes. Avec la seconde – un abonnement mensuel à 11,99 dollars – cette limite passe à 500 pistes, avec une durée maximale de 90 secondes. Enfin, un abonnement destiné aux entreprises permet à celles-ci de personnaliser leur utilisation ainsi que le prix à payer. À noter que les utilisateurs de la version gratuite ne peuvent pas utiliser les pistes générées avec Stable Diffusion pour des projets commerciaux.