Alors qu’OpenAI semble à la peine pour sortir son nouveau modèle de langage, GPT-5o, l’entreprise chinoise DeepSeek fait une avancée extraordinaire.
Si elle était jusqu’ici inconnue du grand public, l’entreprise chinoise travaille depuis un an sur un grand modèle de langage (LLM) susceptible de rivaliser avec ceux d’OpenAI (ChatGPT) ou Anthropic (Claude). D’après les premiers retours sur DeepSeek v3, la promesse est – en grande partie – tenue.
Un LLM open source ultraperformant
Annoncée il y a quelques jours, DeepSeek V3 est la dernière version en date du LLM conçu par l’entreprise éponyme. Un modèle totalement open source, proposant 671 milliards de paramètres – c’est 65 % plus que Llama 3.1, le LLM de Meta jusqu’ici considéré comme le plus large au monde.
Accessible gratuitement pour tous les internautes à cette adresse (la création d’un compte est requise), DeepSeek V3 se présente dans une interface extrêmement proche (pour ne pas dire copiée) de celle de ChatGPT. Une fenêtre épurée, au centre de laquelle trône un champ permettant de saisir du texte et de poser des questions à l’intelligence artificielle. Un bouton « Search », copiant celui permettant d’utiliser le moteur de recherche de ChatGPT, est même présent pour obtenir des résultats sourcés en provenance du Web.
L’un des atouts de DeepSeek V3 est de proposer une meilleure réponse de traitement que ses concurrents, avec 60 tokens par seconde.
Plus performant et plus efficient ?
Dans une série de posts sur X, DeepSeek prend le temps de comparer les différents modèles de langage présents sur le marché et s’affaire à montrer que sa solution est plus performante et moins coûteuse que celle des concurrents américains.
DeepSeek V3 aurait en effet été entraîné en un an à partir de 14,8 trillions de tokens de « haute qualité » (autrement dit des données), pour « seulement » 5,5 millions de dollars. On écrit « seulement », car les grands modèles américains auraient coûté dix fois plus cher à développer, assure l’entreprise chinoise.
En sa qualité de solution ouverte et grâce à la disponibilité d’interfaces de programmation (API), DeepSeek espère convaincre les développeurs d’utiliser son modèle plutôt que celui de la concurrence en agitant sous leur nez la promesse de meilleurs résultats, par ailleurs moins coûteux.
Quant à savoir si son modèle a été entraîné sur des données personnelles et des œuvres d’art protégées, le livre blanc de DeepSeek reste muet, comme sur ce qui concerne la quantité d’énergie requise pour alimenter son richissime modèle de langage.