
Le papa de ChatGPT affirme que son concurrent chinois aurait utilisé illégalement des données appartenant à son entreprise.
L’arroseur arrosé ? En tout cas, de loin, cela y ressemble. Quelques jours après que DeepSeek a provoqué un tremblement de terre en publiant son grand modèle de langage (LLM) R1, plus performant et moins coûteux que le o1 d’OpenAI, l’entreprise éditrice de ChatGPT part au front.
DeepSeek a-t-il entraîné son modèle sur des données d’OpenAI ?
Un peu moins d’une semaine après le choc, l’heure est à l’introspection pour la tech américaine. Ou plutôt à la recherche d’un coupable. En l’occurrence, les affirmations de DeepSeek sont remises en cause par plusieurs acteurs de l’intelligence artificielle. Impossible, pour beaucoup, que la startup chinoise ait produit un LLM aussi performant avec un investissement de « seulement » 5,6 millions de dollars, et sans utiliser de technologie américaine (en l’occurrence, des cartes graphiques Nvidia).
Mais, plus grave, certains spécialistes affirment que DeepSeek aurait entraîné son modèle à partir de données chipées à ChatGPT. Des chercheurs de Microsoft (grand investisseur d’OpenAI) auraient détecté, fin 2024, un pic d’activité inhabituel sur le chatbot en provenance de comptes appartenant a priori aux développeurs chinois de DeepSeek.
Ceux-là mêmes auraient mis en place une mécanique dite de « distillation » qui, pour simplifier à l’extrême, aurait permis à DeepSeek de devenir l’élève de ChatGPT, accumulant au fil des semaines toutes ses connaissances. « [La distillation] permet à un modèle d’apprendre efficacement d’un autre modèle. Le modèle étudiant pose de nombreuses questions au modèle parent, comme le ferait un être humain, mais les IA peuvent poser des millions de questions et imiter le processus de raisonnement qu’elles apprennent du modèle parent », détaille à la chaîne Fox News David Sacks, proche de Donald Trump chargé d’une mission pour la promulgation de l’IA aux États-Unis.
L’hypocrisie d’OpenAI moquée
Des « preuves substantielles », affirme le vieil ami d’Elon Musk à la chaîne conservatrice, desquelles OpenAI et Microsoft comptent bien se servir pour empêcher leur nouveau concurrent chinois de prendre trop d’espace dans leur pré carré.
À Bloomberg, les deux entreprises américaines auraient déclaré qu’« une telle activité pourrait enfreindre les conditions d’utilisation d’OpenAI ou indiquer que le groupe a agi pour supprimer les restrictions d’OpenAI sur la quantité de données qu’il pouvait obtenir ». Une pratique illégale, donc, pour une situation délicieusement résumée par 404 Media dans un titre caustique : « OpenAI est furieux que DeepSeek ait pu dérober toutes les données qu’il nous a volées. »
Nourri de peu ou prou tout ce que l’être humain a jamais produit et mis en ligne, ChatGPT est en effet constitué d’un agrégat de toutes les données personnelles des internautes, ou presque. Un titre qui fait également référence aux artistes, qui s’époumonent depuis des années pour dénoncer le vol de leur art par des intelligences artificielles génératives sans que cela émeuve les Sam Altman de ce monde.
La triche, ou pas, de DeepSeek doit évidemment être éclaircie. Mais l’agitation et le spectacle qu’offre la Big Tech américaine depuis quelques jours ne font que renforcer ce que beaucoup prédisent depuis des mois : l’intelligence artificielle est moins une révolution qu’une bulle sur le point d’exploser à la moindre perturbation.