Actu

Plus de 1 600 images de pédopornographie trouvées dans une base de données utilisée pour entraîner des IA

22 décembre 2023
Par Kesso Diallo
Par mesure de sécurité,  les ensembles de données LAION ont été retirés d’Internet.
Par mesure de sécurité, les ensembles de données LAION ont été retirés d’Internet. ©Olivia_Brown / Shutterstock

Selon des chercheurs de l’Observatoire de l’Internet de Stanford, au moins 1 679 images illégales sont présentes dans LAION-5B, un ensemble de données open source populaire.

Des révélations inquiétantes à l’heure où les images pédopornographiques générées par intelligence artificielle (IA) prolifèrent sur Internet. Dans une étude publiée mercredi, des chercheurs de l’Observatoire de l’Internet de Stanford révèlent qu’un vaste ensemble de données utilisé pour entraîner des modèles de génération d’images contient au moins 1 679 images d’abus sexuels sur des enfants. Appelé LAION-5B, il a notamment permis de former Stable Diffusion, l’IA de Stability AI.

La base de données en question comprend plus de 5 milliards d’images et de légendes associées provenant des réseaux sociaux et de sites de vidéos pour adultes populaires. Les modèles d’IA étant capables de générer des images avec précision à partir d’une poignée de photos, les chercheurs s’inquiètent de l’impact de celles présentes dans LAION-5B sur la capacité de ces outils. Ayant signalé tous les contenus illégaux au Centre national pour les enfants disparus et exploités aux États-Unis et au Centre canadien de protection de l’enfance, ils indiquent qu’ils sont en cours de suppression.

Retrait temporaire

À la suite de ces révélations, un porte-parole de LAION, l’organisation à but non lucratif à l’origine de la base de données, a assuré auprès de Bloomberg qu’elle appliquait une « politique de tolérance zéro » pour les contenus illégaux. Par mesure de sécurité, elle a retiré les ensembles de données LAION d’Internet, le temps de s’assurer de la conformité de leurs contenus. 

De son côté, Stability AI, par la voix d’un porte-parole, a indiqué que ses modèles ont été entraînés avec un sous-ensemble filtré de LAION-5B. « Nous avons mis en place des filtres pour intercepter les prompts ou les sorties dangereuses lorsque les utilisateurs interagissent avec des modèles sur notre plateforme », a-t-il assuré, ajoutant que des fonctionnalités d’étiquetage permettent aussi d’identifier les images générées. Des mesures mises en place pour rendre plus difficile l’utilisation abusive de ses modèles par des acteurs malveillants.

Voir sur Fnac.com

À lire aussi

Article rédigé par
Kesso Diallo
Kesso Diallo
Journaliste