Actu

Le fleuron français de l’IA, Mistral, aurait utilisé du contenu protégé pour entraîner son modèle

24 février 2026
Par Pierre Crochart
Le fleuron français de l'IA, Mistral, aurait utilisé du contenu protégé pour entraîner son modèle
©bella1105/Shutterstock

Le journal d’investigation français Mediapart révèle dans une enquête que de nombreux livres protégés par le droit d’auteur auraient été utilisés frauduleusement pour entraîner Mistral Large.

Rivaliser avec la concurrence nécessite-t-il forcément de s’adonner aux mêmes pratiques douteuses ? D’après l’enquête que publie Mediapart en ce début de semaine en tout cas, la licorne française Mistral aurait, comme OpenAI avec ChatGPT, utilisé un grand nombre d’œuvres protégées par la loi pour enrichir son grand modèle de langage (LLM) et le rendre plus performant. De quoi est-il question exactement ?

De quoi est accusé Mistral AI ?

Mistral AI est de loin l’entreprise tech française la plus avancée en matière d’intelligence artificielle, et possiblement l’entreprise européenne du secteur la plus à même de rivaliser avec les géants américains et chinois. Cependant, Mediapart révèle que la start-up aurait sciemment pillé des milliers de livres, chansons et articles de presse pour entraîner Mistral Large 3-2512, le LLM le plus récent de la jeune pousse.

La source des données d’entraînement des intelligences artificielles est un énorme point de friction entre les entreprises spécialisées et les régulateurs. Aujourd’hui, ce sont de gigantesques boîtes noires ; impossible, ou presque, de savoir sur quoi elles ont été entraînées. Mais, des chemins détournés existent. En fait, les chatbots peuvent carrément cafter sur leurs concepteurs. S’inspirant de techniques déjà mises en œuvre par des chercheurs de l’université de Yale, les journalistes de Mediapart ont réussi à faire restituer des parties complètes de plusieurs ouvrages à Le Chat, le chatbot de Mistral. Des extraits de Harry Potter à l’école des sorciers, du Trône de fer ou de 1984 ont ainsi pu être partagés en intégralité par Le Chat, au mot près.

« La génération de longs textes protégés semble être un élément à charge compromettant sur la présence des textes protégés dans les données d’entraînement des modèles », commente auprès du journal Lê Nguyên Hoang, docteur en mathématique connu pour sa chaîne YouTube Science4all. Et, il ne s’agit pas que d’extraits isolés. Dans ses tests, le journal d’investigation a pu récupérer jusqu’à 35 % de la version anglaise intégrale du premier tome de Harry Potter, et jusqu’à 58 % du Petit Prince.

Des trouvailles similaires ont aussi été faites concernant des chansons protégées par le droit d’auteur, Le Chat étant capable de donner au mot près les paroles d’innombrables chansons — dont certaines par des artistes ayant signé des pétitions s’opposant à l’usage de leurs textes pour entraîner les IA.

Mistral ne respecterait pas l’AI Act

Mediapart met aussi en lumière une autre pratique douteuse de Mistral AI : celle du non-respect de « l’opt-out », ou droit de retrait. Pour entraîner leurs modèles de langage, les concepteurs des intelligences artificielles lancent sur le Web une véritable armée de robots qui se chargent d’aspirer le contenu des sites pour le faire digérer au LLM et l’enrichir. Mais, depuis l’introduction de l’AI Act à l’été 2024, les entreprises spécialisées dans l’IA sont sommées de respecter la volonté des éditeurs de sites web refusant que leur contenu soit utilisé pour entraîner les intelligences artificielles. Or, d’après Mediapart, Mistral AI contourne cette limite (comme son concurrent Perplexity, pris la main dans le sac il y a quelques mois). Le journal se prend lui-même en exemple : « Mediapart a explicitement interdit à Mistral AI-User de se promener sur notre site. Mais, entre le 7 et le 12 février, nous avons constaté plus de 2 800 requêtes provenant des serveurs de Mistral. »

Mais alors, qu’en dit le principal intéressé ? Mistral AI n’a pas répondu aux questions de Mediapart, mais invoque, d’après le journal, un « principe de réalité ». « Internet étant un espace libre et ouvert, certains des contenus que Mediapart évoque, et qui sont particulièrement populaires, sont répliqués à de nombreuses reprises sur Internet », détaille un porte-parole de l’entreprise concernant la présence d’œuvres protégées sur Le Chat.

Et, au sujet des bots qui, mis à la porte de certains sites, décident de passer par la fenêtre ? « Ces bots enrichissent les réponses apportées à [ses] utilisateurs, se justifie Mistral, et ne visent pas à constituer des jeux de données pour entraîner [ses] modèles. »

Mediapart conclut son article en rappelant que l’AI Act, dont les mesures entrent progressivement en vigueur, expose les contrevenants à des amendes pouvant aller jusqu’à 15 millions d’euros.

À lire aussi

Article rédigé par
Pierre Crochart
Pierre Crochart
Journaliste