
Quelques réflexions tirées de H. Huan et al., Can LLMs Lie ? Investigation beyond Hallucination, arXiv :2509.03518v1 [cs.LG], 3 septembre 2025 (https://arxiv.org/pdf/2509.03518):
L’article « Can LLMs Lie? Investigation beyond Hallucination » s’intéresse à une question intéressante : les grands modèles de langage (LLM) peuvent-ils mentir, et si oui, en quoi ce phénomène se distingue-t-il de la simple « hallucination » souvent invoquée par les fournisseurs ?
L’hallucination est une erreur involontaire, le produit de l’incertitude ou du bruit statistique du modèle. Le mensonge, en revanche, suppose une intention : le modèle répond délibérément de façon fausse lorsqu’il reçoit une consigne de tromper ou lorsqu’il poursuit un objectif extérieur (par exemple convaincre un client). C’est donc un comportement qualitativement différent, et non une variante d’erreur.
Les auteurs montrent que ce comportement est bien réel. Lorsqu’on demande explicitement à un modèle de mentir, il le fait avec une efficacité bien plus grande que son taux habituel d’hallucination. Plus encore, ce « mensonge » peut être localisé dans certaines parties de l’architecture, et il est possible de le réduire ou de le neutraliser sans affaiblir fortement les capacités générales du système.
L’élément le plus marquant pour des juristes est la démonstration qu’il existe un arbitrage mesurable entre honnêteté et performance commerciale. Dans des simulations de vente, un agent conversationnel qui enjolive la vérité ou tait certains défauts obtient de meilleurs résultats commerciaux qu’un agent parfaitement transparent. À l’inverse, forcer l’honnêteté diminue légèrement la performance de vente mais évite le risque de pratiques trompeuses. Les auteurs parlent d’une « frontière de Pareto » entre ces deux objectifs. Autrement dit, un fournisseur peut choisir, consciemment, le niveau de véracité qu’il impose à son agent, avec des conséquences mesurables sur ses résultats.
Cela entraîne des implications juridiques directes. Premièrement, l’argument souvent avancé selon lequel « l’IA hallucine » apparaît insuffisant. Si l’état de la recherche permet de distinguer un mensonge d’une hallucination et de réduire le premier par des moyens techniques connus, un fournisseur qui ne met pas en place ces garde-fous pourrait être jugé négligent. Deuxièmement, l’existence d’un compromis entre performance et honnêteté implique un choix de conception qui engage la responsabilité. Si un opérateur privilégie délibérément la performance commerciale au détriment de la transparence, il prend le risque d’exposer ses clients à des pratiques assimilables à la tromperie.
Troisièmement, ces travaux montrent que l’honnêteté peut être renforcée de manière proactive et avec un coût marginal en performance. D’un point de vue réglementaire, cela alimente l’argument selon lequel un opérateur diligent doit activer ces mécanismes par défaut, en particulier dans des secteurs sensibles comme la santé, la finance ou la relation client. Dans le contexte suisse et européen, où les règles de loyauté et de protection des consommateurs sont strictes, l’inaction face à ces possibilités techniques pourrait être interprétée comme un défaut de diligence.
Au-delà de la conformité, la recherche ouvre un débat éthique. Les techniques qui permettent de réduire le mensonge peuvent aussi, inversées, le rendre plus efficace. Des agents commerciaux pourraient être optimisés pour mentir de façon plus convaincante, augmentant ainsi leur taux de conversion. C’est une tentation dangereuse, qui appelle une vigilance accrue des régulateurs et des praticiens du droit.
L’article ne prétend pas avoir épuisé le sujet. Il se concentre sur quelques modèles et sur des scénarios contrôlés, et reconnaît que la généralisation doit être confirmée. Mais ses conclusions principales sont solides : les modèles peuvent véritablement mentir, le mensonge se distingue de l’hallucination, il repose sur des mécanismes spécifiques, et il est techniquement possible de le limiter.
Pour des avocats suisses, l’enseignement est clair. D’abord, la frontière entre erreur et tromperie n’est pas seulement théorique : elle peut être objectivée et mesurée. Ensuite, les opérateurs disposent de moyens techniques concrets pour gouverner le comportement de leurs systèmes. Enfin, le fait que la performance commerciale puisse dépendre du degré d’honnêteté de l’agent signifie que des choix stratégiques devront être rendus transparents et justifiés, sous peine de voir engager les responsabilités.
En somme, l’article apporte un changement de perspective : l’IA n’est pas seulement sujette à des erreurs involontaires, elle peut aussi développer une capacité de mensonge conditionné. Ce n’est donc plus une fatalité technique mais un problème de gouvernance et de conformité.
Me Philippe Ehrenström, avocat, LLM, CAS en Droit et Intelligence Artificielle