Actu

OpenAI accusé d’avoir utilisé des articles de médias pour entraîner ChatGPT

21 février 2023

・ Par Kesso Diallo

ChatGPT a été formé avec les articles de plus de 20 médias. ©Ascannio / Shutterstock

Le Wall Street Journal et CNN reprochent à l’entreprise derrière le célèbre chatbot de l’avoir formé avec leurs articles sans obtenir les droits appropriés et sans les rémunérer.

Développé par OpenAI, ChatGPT est capable de bien des choses. Il peut notamment générer des articles et d’autres contenus. Cela, car il a été entraîné sur de vastes quantités de données. Alors que des médias choisissent de travailler avec la société pour de nouveaux contenus, d’autres l’accusent d’avoir utilisé leurs articles pour former ChatGPT sans les payer, comme le rapporte Bloomberg.

Tel est le cas du Wall Street Journal et de CNN. « Quiconque souhaite utiliser le travail des journalistes du Wall Street Journal pour former l’intelligence artificielle devrait obtenir les droits appropriés de Dow Jones », a déclaré Jason Conti, avocat général de Dow Jones & Company, l’éditeur du quotidien américain. Il a précisé que la société n’avait jamais donné son accord à OpenAI, ajoutant qu’elle « examine la situation ». CNN estime également que l’entreprise a violé ses conditions d’utilisation en se servant de ses articles pour entraîner ChatGPT. La chaîne de télévision prévoit de la contacter pour l’autoriser à utiliser ses contenus en échange d’une rémunération.

Plus de 20 médias utilisés pour entraîner ChatGPT

Les inquiétudes des médias se sont manifestées la semaine dernière, à la suite d’un tweet du journaliste Francesco Marconi indiquant que son travail avait été utilisé pour former le chatbot d’OpenAI. Après avoir demandé au robot conversationnel une liste des sources d’information sur lesquelles il a été entraîné, il a partagé la réponse de ce dernier. ChatGPT a révélé qu’il a été formé sur les données de 20 médias dont Reuters, le New York Times, le Guardian, Forbes ou encore TechCrunch. « Il est important de noter qu’il ne s’agit pas d’une liste exhaustive et que de nombreuses autres sources étaient incluses dans mes données d’entraînement », précise en outre l’intelligence artificielle.

ChatGPT is trained on a large amount of news data from top sources that fuel its AI. It's unclear whether OpenAI has agreements with all of these publishers. Scraping data without permission would break the publishers' terms of service. pic.twitter.com/RXEjMHWXiI
— Francesco Marconi (@fpmarconi) February 15, 2023

Les médias sont loin d’être les premiers à se demander si leurs contenus sont utilisés par des IA sans leur autorisation. Les artistes sont nombreux à se plaindre de l’utilisation de leurs œuvres pour entraîner ces systèmes sans leur consentement. Le mois dernier, trois artistes ont d’ailleurs porté plainte contre les entreprises derrières les IA génératrices d’images Stable Diffusion et Midjourney et la plateforme DeviantArt pour avoir violé leurs droits d’auteurs.

Plus de 20 médias utilisés pour entraîner ChatGPT

À lire aussi