Actu

IA : des modèles de langage entraînés illégalement sur des vidéos YouTube

17 juillet 2024
Par Pierre Crochart
IA : des modèles de langage entraînés illégalement sur des vidéos YouTube
©Chubo/My Masterpiece/Shutterstock

Énième preuve, s’il en fallait, que les entreprises liées à l’IA font fi des règles pour avancer le plus vite possible, une enquête met le doigt sur un véritable pillage.

Les médias américains Proof News et Wired publient une enquête édifiante, prouvant que plusieurs entreprises phares de l’intelligence artificielle (Nvidia, Apple, Anthropic, Salesforce et d’autres) n’ont pas respecté les règles imposées par Google et se seraient tout simplement servies sur YouTube pour alimenter leurs modèles de langage.

175 000 vidéos, 48 000 vidéastes concernés

D’après les trouvailles des journalistes, les entreprises citées plus haut ont utilisé librement une large base de données baptisée YouTube Subtitles, laquelle contient la transcription d’innombrables vidéos publiées sur la plateforme de Google. Plus de 175 000 vidéos réparties sur 48 000 chaînes auraient ainsi été utilisées par ces entreprises pour entraîner leurs IA, sans que les créateurs et créatrices aient jamais été mis au courant… et encore moins accordé leur consentement.

Les superstars MrBeast et Marques Brownlee font évidemment partie du lot, mais également quelques vidéastes français comme Amixem ou Mister V. Proof a mis en ligne un outil permettant de vérifier si des chaînes en particulier ont pu servir à entraîner des intelligences artificielles.

Mais YouTube Subtitles n’est pas du fait de Google. Il s’agit, avec The Pile (une énorme base de données regroupant notamment des discours politiques, des pages Wikipédia et d’autres), d’une création de l’entreprise EleutherAI, laquelle n’a pas souhaité répondre aux questions de The Proof et Wired, mais qui déclare sur son site œuvrer pour « abaisser les barrières au développement de l’IA pour ceux qui ne font pas partie des murs dorés de la Big Tech ».

IA rien à faire

L’existence même de la base de données YouTube Subtitles semble contrevenir aux conditions d’utilisation de YouTube, qui interdit formellement le dépouillement automatisé des vidéos qu’il héberge et de toutes les données qui lui sont associées. Informé, Google a fait savoir qu’il avait pris des mesures, sans plus de précisions.

Furieux, de nombreux vidéastes interrogés par les journalistes disent leur déception et estiment que leur travail leur est tout simplement volé. « Personne n’est venu me voir pour me dire “nous aimerions utiliser ça”, regrette David Pakman, présentateur du David Pakman Show, concerné par l’affaire. C’est mon gagne-pain, j’y passe du temps, j’y dépense des ressources, de l’argent et des ressources humaines pour créer ce contenu. » Pour lui, si les entreprises de l’IA génèrent de l’argent, lui aussi, devrait être compensé pour l’utilisation de son contenu.

C’est le chemin emprunté par certains médias, comme The New York Times ou Le Monde, qui ont signé cette année un accord financier avec OpenAI pour autoriser ce dernier à entraîner ses modèles de langage sur leurs articles respectifs.

Par ailleurs, la popularité de YouTube Subtitles et The Pile auprès des grandes entreprises de la tech inquiète à propos du type de contenu avec lequel on nourrit les intelligences artificielles. The Pile a notamment déjà été épinglé pour propager « des biais à l’encontre de certains genres et certains groupes religieux », explique Proof News.

Enfin, ce sont évidemment les artistes qui pâtiront le plus de cette course débridée vers l’IA omnisciente. À l’heure où Hollywood cherche à cloner la voix des acteurs et des actrices pour réduire les coûts et où Scarlett Johansson se retrouve mêlée malgré elle à la promotion du dernier modèle de langage d’OpenAI, l’IA semble pour le moment créer plus de problèmes qu’elle n’en résout.

À lire aussi

Article rédigé par
Pierre Crochart
Pierre Crochart
Journaliste