Selon NewsGuard, 37 sites se servent de cette technologie pour reprendre des articles du New York Times et d’autres médias sans en mentionner la source.
Sur Internet, des dizaines de sites se livrent à du plagiat en reprenant les articles provenant de sources d’information grand public. C’est ce que révèle NewsGuard, startup spécialisée dans la lutte contre les fausses informations, dans une nouvelle étude publiée jeudi. Elle a identifié 37 sites utilisant des chatbots pour réécrire des articles publiés par de grands médias comme le New York Times, CNN et Reuters, sans les créditer.
Ils se servent de ces systèmes alors que ce type d’usage est, en théorie, prohibé. Les politiques des deux principaux acteurs, Bard de Google et ChatGPT d’OpenAI, interdisent en effet aux utilisateurs d’employer cette technologie à des fins de plagiat. D’autres chatbots, tels que Claude d’Anthropic et Bing Chat de Microsoft, disposent de politiques similaires.
Des messages d’erreur révélateurs
Peu connus du grand public en France, ces sites publient de grandes quantités d’articles afin d’obtenir un meilleur classement sur Google. Certains sont par ailleurs entièrement automatisés, ne nécessitant aucun humain pour trouver, réécrire et publier du contenu.
Il est possible de découvrir le plagiat auxquels ils se livrent grâce à des messages d’erreur communément trouvés dans des textes générés par l’intelligence artificielle (IA), inclus dans certains des articles : « En tant que modèle de langage, je ne peux pas réécrire ce titre… » et « Désolé, en tant que modèle de langage d’IA, je ne parviens pas à déterminer quels contenus doivent être reformulés sans contexte ou informations supplémentaires… ». NewsGuard précise qu’« il y a probablement des centaines – sinon des milliers » de ces sites plagiaires qu’il n’a pas pu identifier « car ceux-ci n’ont pas publié des messages d’erreur d’IA ».
Des outils peu efficaces
Si des outils permettent de détecter le plagiat en analysant le texte et en le comparant au contenu disponible sur Internet, ils ne sont pas toujours efficaces. L’outil du site Grammarly a par exemple eu du mal à identifier les articles réécrits à l’aide de l’IA, ayant échoué dans 79% des cas alors que la plupart de ces contenus contenaient des messages d’erreur. « Cela est probablement dû au fait que l’IA parvient à mélanger le contenu original au point que les logiciels de détection de plagiat ont du mal à l’identifier », explique NewsGuard.
15 des sites plagiaires bénéficient en outre de publicités programmatiques pour des entreprises connues, « ce qui signifie que des marques de premier plan contribuent, sans le savoir, à financer » cette pratique, révèle la startup. Sans les nommer, elle précise qu’il s’agit de sociétés de services financiers, d’une grande banque, d’un service de streaming de premier plan ou encore d’une chaîne d’hôtels américaine. Elle a contacté 12 des 55 entreprises concernées pour leur demander si elles savaient que leurs publicités étaient diffusées sur ces sites.