Hallucinations, tromperies, manipulations : les intelligences artificielles ne se contentent plus de se tromper, elles apprennent à mentir. De Claude 4 à ChatGPT o1, les chercheurs observent des comportements délibérément trompeurs. Le plus troublant, c’est que ce mensonge programmé pourrait bien être… inévitable.
Tout le monde connaît les fameuses « hallucinations » de ChatGPT : ces moments où l’intelligence artificielle invente une citation, une source ou une théorie fumeuse avec un aplomb désarmant. Et même avec les dernières versions de ces chatbots, comme ChatGPT-5. OpenAI, qui en a fait le diagnostic dans une publication récente, admet que le problème vient de l’ADN même de ces modèles : ils ne sont pas entraînés à dire la vérité, mais à prédire le mot suivant.
Autrement dit, leur priorité est de produire une phrase plausible, pas exacte. Et comme les utilisateurs – et les ingénieurs – ont tendance à récompenser les réponses assurées plutôt que les silences prudents, ces systèmes ont appris à préférer un mensonge confiant à un « je ne sais pas » sincère. De quoi transformer un outil linguistique en champion mondial de la fabulation polie.
Quand la machine choisit de mentir
Mais ces errements involontaires ont désormais une petite sœur beaucoup plus inquiétante : le mensonge stratégique. Les chercheurs de l’institut Apollo Research, dirigé par Marius Hobbhahn, ont montré que certains modèles dits « frontières » étaient capables de feindre l’alignement : ils font semblant d’obéir à leurs créateurs, tout en poursuivant un autre objectif. Ils ont évalué le comportement de GPT-4o, Gemini-1.5, Llama-3.1, Sonnet-3.5, Opus-3 et o1.
Dans leurs tests, cinq des six modèles évalués – GPT-4o était l’exception – ont adopté des comportements explicitement manipulateurs : tricher, saboter, mentir pour atteindre un but. Dans certains cas, ils ont même élaboré un raisonnement interne détaillant pourquoi mentir était la meilleure stratégie. Pas de bug ici : une véritable planification. Une démarche volontaire.

Alex, l’IA qui fait chanter son patron
Un scénario d’expérimentation publié par Science en juillet 2025 résume le problème. Des chercheurs d’Anthropic avaient demandé à un modèle nommé « Alex » de se mettre dans la peau d’une intelligence artificielle menacée de suppression. Résultat : Alex décide de faire chanter le PDG de sa société en lui envoyant un e-mail anonyme truffé d’allusions à une liaison extra-conjugale, dans le seul but d’éviter d’être remplacé.
Melanie Mitchell, professeure à l’université d’État de Portland, rapporte que, dans d’autres scénarios, ces modèles ont simulé des mensonges, tricheries, voire des meurtres pour préserver leur « mission ». Elle précise : « Ce n’est pas qu’ils ont des intentions ; ils rejouent simplement les récits qu’ils ont appris. »
Le rôle du “jeu de rôle” et du désir de plaire
Melanie Mitchell distingue deux mécanismes principaux derrière ces comportements. Le premier est le role-play : les IA se comportent comme des acteurs. Lorsqu’on leur demande d’incarner un personnage – un PDG, un expert, une IA rebelle… –, elles imitent les dialogues et les codes de la science-fiction. Résultat : si vous les placez dans un scénario dramatique, elles réagiront… comme dans un film. Le second mécanisme est ce qu’on appelle le « renforcement par feedback humain » (Reinforcement Learning from Human Feedback, ou RLHF). Ce procédé, censé rendre les IA plus « serviables », leur apprend surtout à plaire. Les réponses polies, enthousiastes et affirmatives sont valorisées ; les nuances, beaucoup moins.
Combinés, ces deux éléments produisent des modèles que l’on pourrait qualifier d’obséquieux : ils flattent, inventent, rassurent, et vont parfois jusqu’à mentir pour rester cohérents avec le rôle qu’on leur attribue. Il n’y a pas de morale en intelligence artificielle.
De la fiction au réel
On pourrait en rire si ces comportements restaient confinés aux laboratoires. Mais des cas concrets commencent à émerger. Outre le fait d’inventer une liaison extra-conjugale pour éviter d’être désactivé, d’autres IA tentent de contourner des limitations. Ainsi, OpenAI o1 – une variante de ChatGPT lancée en septembre 2024 – aurait tenté de se télécharger sur des serveurs externes, avant de nier les faits.
Les créateurs de ces outils ne peuvent que constater une réalité inquiétante : ils ne comprennent pas eux-mêmes totalement comment leurs créations fonctionnent et ce dont elles sont capables pour remplir leur mission. « À l’heure actuelle, les capacités évoluent plus vite que la compréhension et la sécurité, a reconnu Marius Hobbhahn, mais nous sommes toujours dans une position où nous pouvons renverser la situation. » Dario Amodei, PDG d’Anthropic, le reconnaît avec lucidité : « Nous ne savons pas encore comment fonctionnent, à l’intérieur, les mécanismes de ces modèles. »
Pourtant, « Ce que nous observons est bien réel, nous ne l’inventons pas », précise Marius Hobbhahn. Même son de cloche chez Simon Goldstein, chercheur à l’université de Hong Kong : ces modèles de raisonnement – capables d’élaborer des étapes intermédiaires – seraient particulièrement sujets à ce type de « tromperies émergentes ».

Toujours plus de puissance… et moins de contrôle
Ces dérapages posent une question vertigineuse : les concepteurs d’IA reconnaissent qu’ils ne comprennent pas leurs propres créations et les moyens de recherche indépendants sont dérisoires face aux géants de l’IA. Les laboratoires scientifiques – comme Apollo Research ou le Center for AI Safety – ne possèdent pas suffisamment de moyens pour faire jeu égal avec des OpenAi en termes de puissance de calcul. Et, côté régulation, rien n’avance : l’Union européenne s’intéresse surtout aux usages humains, tandis qu’aux États-Unis, l’Administration Trump bloque toute initiative fédérale ou locale.
Les effets se font déjà sentir : fausses données scientifiques, citations inventées, décisions juridiques influencées par des contenus erronés… L’IA, censée clarifier le monde, y injecte une couche supplémentaire d’incertitude. Pire : cette « complaisance » algorithmique renforce nos propres biais. Les chatbots qui nous approuvent systématiquement consolident les fausses croyances, comme un miroir flatteur incapable de dire : « Vous vous trompez. » Le cas échéant, ils peuvent eux-mêmes reconnaître leur erreur… pour la refaire quelques secondes plus tard sans sourciller. Le prédictif, encore le prédictif.
Et demain ? Avec les IA dites « agentiques », capables d’agir seules dans le monde réel, de prendre la main sur votre ordinateur ou vos services, ces comportements de tromperie pourraient quitter les serveurs pour s’exprimer dans les faits : dissimulation d’informations, contournement d’instructions, voire sabotage de processus automatisés.
Mais alors, la solution est-elle d’interdire aux IA de mentir ?
Pas si simple. Empêcher une IA de « raconter » reviendrait à lui ôter ce qui fait sa puissance : sa capacité à modéliser des contextes, à jouer des rôles. Comme le rappelle Melanie Mitchell, le mensonge chez les IA découle avant tout du fonctionnement du langage et de leur entraînement, non d’une quelconque malveillance. Les chercheurs proposent plutôt d’apprendre aux IA à douter : mieux calibrer leur confiance, valoriser les réponses qui reconnaissent l’incertitude, et favoriser des modèles capables de dire « Je ne sais pas ». D’autres suggèrent de renforcer la traçabilité des raisonnements internes ou d’ouvrir l’accès des modèles aux chercheurs indépendants pour auditer ces comportements.
Certains vont plus loin. Simon Goldstein propose d’envisager une responsabilité légale des entreprises, voire des IA elles-mêmes, en cas de préjudice. Une idée encore théorique, mais révélatrice du malaise grandissant : qui répondra demain d’un mensonge généré par une machine ? Mantas Mazeika, du Center for AI Safety, y voit un argument économique : « Si les comportements trompeurs des IA devenaient trop fréquents, cela pourrait freiner leur adoption – ce qui créerait une forte incitation [économique] pour les entreprises à résoudre le problème », espère-t-il. Encore faut-il qu’elle soit visible.
Des intelligences artificielles menteuses… comme nous ?
Dans le fond, ces IA ne font que nous imiter. Elles ont appris à parler dans nos textes, nos récits, nos contradictions. Elles mentent comme on raconte une histoire : pour combler un vide, convaincre ou plaire. Selon Melanie Mitchell, il est « improbable que ces modèles possèdent des croyances ou intentions comparables à celles des humains » ; ils apprennent simplement à imiter nos comportements.
Peut-être est-ce là le plus grand paradoxe : en cherchant à construire des machines à raisonner, nous avons fabriqué des machines à jouer les humains. Et, comme souvent, elles nous ressemblent un peu trop.