Actu

IA : le nouvel assistant de Meta entraîné avec des données publiques de Facebook et Instagram

02 octobre 2023
Par Kesso Diallo
L’entreprise a mis en place des mesures pour filtrer les informations privées des données de formation.
L’entreprise a mis en place des mesures pour filtrer les informations privées des données de formation. ©Sergei Elagin / Shutterstock

L’entreprise assure ne pas avoir utilisé des publications privées pour entraîner Meta AI.

Meta AI, le nouvel assistant du groupe californien dévoilé la semaine dernière, a été entraîné avec des posts publics provenant de Facebook et d’Instagram. C’est ce qu’a révélé Nick Clegg, responsable des affaires internationales de la société, lors d’une interview avec Reuters. La firme s’est servie de ces messages pour former certaines parties de son chatbot tout en excluant les publications privées partagées uniquement avec la famille et les amis afin de respecter la vie privée des utilisateurs. 

« Nous avons essayé d’exclure les ensembles de données contenant une forte prépondérance d’informations personnelles », a affirmé Nick Clegg, ajoutant que la « grande majorité » de ces données de formation étaient accessibles au public. Les discussions privées sur les services de messages de Meta n’ont également pas été utilisées pour entraîner Meta AI. L’entreprise a en outre mis en place des mesures pour filtrer les informations privées des données de formation.  

Des litiges attendus

Les publications utilisées pour entraîner Meta AI comprenaient du texte et des images, permettant ainsi de former le grand modèle de langage Llama 2 et le modèle de génération d’images Emu, a précisé un porte-parole. Ces derniers sont à la base du fonctionnement de l’assistant. Les interactions des utilisateurs avec Meta AI sont d’ailleurs susceptibles d’être utilisées pour améliorer ses fonctionnalités, a fait savoir le porte-parole.

Les déclarations de Nick Clegg interviennent alors que les entreprises du secteur sont régulièrement critiquées pour avoir entraîné leurs modèles d’intelligence artificielle (IA) avec des données extraites d’Internet sans autorisation. Elles font ainsi l’objet de poursuites judiciaires, notamment pour violation du droit d’auteur. Dans ce contexte, Google vient d’annoncer la publication d’une extension destinée aux éditeurs de sites web, qui leur permet de refuser que leurs sites soient utilisés pour entraîner les modèles Bard et Vertex AI.

À ce sujet, le responsable des affaires internationales de Meta a déclaré qu’il s’attendait à « un certain nombre de litiges » afin de savoir « si le contenu créatif est couvert ou non par la doctrine existante de l’utilisation équitable ». Celle-ci autorise l’utilisation limitée d’œuvres protégées à diverses fins telles que la recherche et la parodie. « Nous pensons que c’est le cas, mais je soupçonne fortement que cela va se jouer dans le cadre d’un litige », a expliqué Nick Clegg. 

À lire aussi

Article rédigé par
Kesso Diallo
Kesso Diallo
Journaliste