
Quelques réflexions tirées de L. BARNETT LIDSKY/ A. DAVES, Inevitable Errors: Defamation by Hallucination in AI Reasoning Models (forthcoming in the Journal of Free Speech Law 2025) 25 juillet 2025 (texte disponible ici : https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5362314):
L’étude s’ouvre sur un constat: les modèles de langage (LLM) progressent vite et s’installent comme outils de recherche, d’analyse et de rédaction. Les auteurs rappellent l’ambivalence du débat public — utopie d’abondance contre crainte d’accidents sociétaux — mais notent surtout l’usage déjà massif des LLM dans des tâches précises où ils rivalisent par endroits avec l’humain. Ils insistent toutefois sur une propriété clef : ces systèmes génèrent du texte probabiliste, non une « vérité », et produisent inévitablement des contenus « plausibles mais faux », les fameuses « hallucinations ». Celles-ci peuvent prendre la forme de biographies inventées, de citations juridiques apocryphes ou d’écrits judiciaires fictifs. Les éditeurs de modèles peuvent réduire la fréquence de ces sorties, mais pas les éliminer, et les données disponibles suggèrent des taux non négligeables d’erreur selon les contextes. De là naît le problème spécifique de la « diffamation par hallucination » : que faire quand un modèle, répondant à un prompt, « affirme » un fait déshonorant et faux sur une personne ?
Les auteurs soutiennent que le droit de la diffamation, déjà façonné par des siècles d’adaptation aux médias successifs, doit évoluer encore, mais de manière à préserver l’utilité des outils tout en indemnisant les atteintes démontrables.
Pour mettre ce défi en perspective, la Partie I analyse l’affaire Walters v. OpenAI, première décision américaine substantielle sur la diffamation par LLM. En mai 2023, un journaliste interroge ChatGPT à propos d’un litige réel, mais la conversation dévie : le modèle se met à fabriquer un « document » judiciaire accusant le présentateur radio Mark Walters de fraude et de détournement de fonds au détriment d’une association. Le journaliste, qui dispose de documents contredisant cette version, sollicite plusieurs réponses, essuie des excuses et avertissements répétés du modèle sur ses limites, puis contacte Walters ; aucune autre personne ne reçoit la sortie litigieuse. Walters poursuit néanmoins OpenAI en diffamation. Le 19 mai 2025, la juridiction d’État en Géorgie accorde un jugement sommaire à OpenAI. L’ordonnance retient essentiellement que la sortie n’était pas raisonnablement « compréhensible comme factuelle » dans ce contexte truffé de dénégations, d’incohérences et d’indices et que les éléments produits ne confirment pas un préjudice réputationnel effectif. Les auteurs, tout en approuvant l’issue au regard des faits, en pointent les limites conceptuelles et pédagogiques pour les dossiers à venir.
Sur le premier point, la décision estime que, lue « dans son ensemble », la conversation ne pouvait être prise pour un énoncé factuel crédible sur Walters. L’importance pratique est double : d’une part, les avertissements, refus d’obtempérer et contradictions internes du modèle comptent dans l’analyse ; d’autre part, la croyance subjective du récipiendaire (ici le journaliste) — qui n’y a pas cru et a immédiatement vérifié — renforce l’idée d’une absence de « déclaration factuelle » aux yeux d’un lecteur raisonnable. Les auteurs approuvent cette approche pour ce cas précis, tout en avertissant qu’on ne peut en déduire une règle générale neutralisant toute responsabilité des LLM : dans d’autres circonstances, des mises en garde génériques ne suffiraient pas, surtout si des éditeurs vantent parallèlement la fiabilité de leurs produits ou si les usages anthropomorphisent la machine. L’élément clef reste l’examen concret du contexte de publication et de réception.
Sur la faute (« scienter »), l’arrêt rappelle les jalons constitutionnels américains : pour un demandeur public, la preuve d’une connaissance de la fausseté ou d’une indifférence téméraire est exigée. Appliquée à un fournisseur de LLM, cette exigence devient épineuse : une machine n’a pas d’« état d’esprit », et la « décision » d’émettre l’énoncé ne peut être qualifiée d’imprudence humaine. Le tribunal a donc déplacé l’analyse vers la conduite des humains en amont — conception, entraînement, tests, avertissements — et, sur pièces, a jugé ces diligences suffisantes. Les auteurs y voient une première translation de la diffamation vers une logique de « produit » : si faute il y a, elle se prouverait par une expertise sur les choix de design et de gouvernance du modèle, non par une intention éditoriale au moment de « publier » un propos sur un individu. Cela soulève la question pratique du coût de la preuve pour des plaignants individuels et de la volatilité des versions de modèles, ce qui rend fragile la transposition directe des standards classiques du Premier Amendement.
La décision Walters évoque aussi la question des dommages. En droit américain, certaines catégories de diffamation autorisent des dommages « présumés », en reconnaissance de l’insaisissabilité de certaines atteintes relationnelles. Mais quand les éléments établissent que personne d’autre n’a reçu la sortie, que le destinataire n’y a pas cru et que le plaignant n’a pas subi de conséquences concrètes, la base d’une présomption s’effrite. Ici, la capacité d’OpenAI à produire l’historique exact des prompts a joué un rôle probant : elle a permis de démontrer l’absence de diffusion et, partant, la faiblesse du dommage. Les auteurs y voient une piste de politique publique : imposer la conservation proportionnée des logs de requêtes pendant une durée limitée pour objectiver l’étendue d’une diffusion et la réalité du tort.
Enfin, la Partie I aborde un « chemin non pris » par le juge : l’angle de la « publication ». En diffamation, il faut qu’au moins un tiers reçoive l’énoncé. Mais au-delà de ce minimum, le régime de responsabilité varie selon que l’acteur est « éditeur » (publisher) ou « distributeur » : bibliothèques, kiosques et télégraphes ont historiquement bénéficié d’un régime atténué tant qu’ils n’avaient pas connaissance effective du caractère diffamatoire. Les auteurs proposent d’assimiler les producteurs de LLM à des « distributeurs » : ils fournissent un outil qui, à la demande d’un usager, recompose de l’information, sans exercer un contrôle éditorial classique ni garantir la vérité du contenu. Par analogie avec la jurisprudence télégraphique, le droit commun a su exonérer des intermédiaires non passifs quand l’examen ex ante du flux serait impraticable et quand l’intervenant le plus efficace est l’émetteur initial — ici, souvent, l’utilisateur qui « relaye » ensuite le propos. Cette qualification guiderait un équilibre plus juste entre liberté de communiquer et protection de la réputation.
La Partie II délaisse les « fondation models » pour décrire l’essor des « reasoning models », notamment ceux qui exposent une « chaîne de pensée » (chain-of-thought, CoT). Ces systèmes entreprennent une résolution pas-à-pas, parfois avec « double vérification » interne, et promettent des résultats finaux plus exacts. Mais ils introduisent une nouvelle zone de risque : des hallucinations potentiellement diffamatoires peuvent apparaître non pas dans la réponse finale, mais dans les étapes intermédiaires affichées à l’utilisateur, par exemple en nommant des personnes à tort comme auteurs de faits répréhensibles au stade de la « vérification », puis en corrigeant finalement le tir. D’un point de vue responsabilité, ces « micro-hallucinations » exposées créent des vecteurs supplémentaires d’atteinte si elles sont vues, conservées ou réutilisées. Les auteurs citent même des cas où ces CoT auraient aidé le modèle à éviter une erreur finale, ce qui complique davantage le diagnostic juridique : faut-il censurer l’affichage des CoT pour éviter les diffamations intermédiaires au risque de perdre un puissant mécanisme d’audit et d’amélioration de la sûreté ? Leur réponse est prudente : une censure systématique des CoT réduirait la capacité de contrôle et pourrait dégrader la sécurité globale, même si des garde-fous s’imposent.
La même Partie II introduit une taxonomie utile pour les praticiens : des chercheurs de Yale distinguent trois types d’hallucinations — celles infidèles au prompt de l’utilisateur, celles non dérivables du corpus d’entraînement, et celles contraires aux faits du monde. Chacune pose des problèmes différents en diffamation. Quand le modèle résume un document fourni et « déforme » un passage au détriment d’une personne, l’utilisateur a souvent en main la source permettant de vérifier ; fonder une responsabilité lourde du fournisseur de LLM pour une « infidélité au prompt » alors que l’usager pouvait contrôler paraît discutable. À l’inverse, les hallucinations « hors-corpus » peuvent être, paradoxalement, une source de créativité utile, l’outil « pensant autrement » en recombinatoire, mais deviennent dangereuses si elles attribuent des faits pénaux. Enfin, les hallucinations « contra factum » sont les plus délicates : elles produisent de fausses assertions identifiantes sur des personnes — le terrain classique de la diffamation. Les auteurs insistent que, techniquement, la combinaison de probabilité linguistique, de biais et d’incomplétudes de données, et de « volonté » du modèle de « faire plaisir » en comblant les trous explique l’inévitabilité des erreurs. Vouloir les éradiquer totalement reviendrait à sacrifier des fonctions créatives et, en définitive, l’utilité du médium.
Cette inévitabilité a des corollaires normatifs importants. D’abord, l’amélioration continue est réelle — avec la récupération augmentée (RAG), les modèles « montrent leurs sources » et permettent des vérifications en ligne, tandis que les chaînes de pensée offrent une forme d’auto-contrôle — mais elle n’est ni linéaire ni définitive. Ensuite, la transparence de conception et l’ouverture de la recherche favorisent l’innovation sûre ; enfin, certaines hallucinations peuvent être « précieuses » dans des usages créatifs ou heuristiques, y compris pour la pratique juridique, pourvu que l’utilisateur adopte une discipline de « trust but verify ». Ces éléments invitent à calibrer la réponse juridique : punir indistinctement chaque hallucination diffamatoire du modèle risquerait de « geler » un médium informationnel prometteur, sans pour autant mieux protéger les victimes.
La Partie III propose alors des objectifs de politique de communication pour guider l’adaptation du droit de la diffamation à ces systèmes. Le premier est d’indemniser les victimes pour des préjudices prouvables ; le second, de faciliter la correction de l’« ardoise numérique » ; le troisième, d’encourager la transparence et l’innovation en matière de sécurité et d’exactitude ; le quatrième, d’exiger une diligence raisonnable à tous les stades de la chaîne — développeurs, intégrateurs et utilisateurs finaux. Les auteurs insistent sur la nécessité d’un équilibre : ces buts sont en tension et ne relèvent pas tous de la common law de la diffamation. Pour certains, des instruments législatifs ou réglementaires sont plus adaptés, d’autant que la diffamation n’est pas l’outil optimal pour réguler les systèmes d’IA à haut risque extra-informationnels. Mais s’agissant des atteintes réputationnelles issues de sorties textuelles, il est possible d’avancer sans sacrifier la « respiration » du débat public.
Dans cette veine, une proposition concrète concerne l’obligation d’informer : en tort (responsabilité civile) pure, imposer uniformément un devoir d’avertir tous les utilisateurs sur l’ampleur et la nature des hallucinations est peu efficace et fragile. Une voie plus droite passe par la loi : instaurer un devoir statutaire de transparence et d’éducation des utilisateurs, potentiellement articulé à une immunité corrélative, pour généraliser des mises en garde claires sur la vérification indispensable des sorties. Une autre proposition est la conservation limitée des données de requêtes, afin de permettre aux victimes de prouver l’existence et surtout l’étendue de la diffusion d’une sortie diffamatoire ; cette mesure devrait être calibrée temporellement pour limiter les risques de sécurité et de confidentialité. Ces leviers législatifs ont un avantage : ils renforcent la prévention et l’administration de la preuve, plutôt que de compter ex post sur des dommages « présumés » difficilement justifiables lorsque la diffusion est nulle ou marginale.
La Partie IV articule le cadre normatif proposé. Les auteurs suggèrent de traiter les hallucinations diffamatoires — qu’elles surviennent dans la réponse finale ou dans la chaîne de pensée — comme des « erreurs inévitables », à la manière dont la Cour suprême américaine, dans New York Times v. Sullivan, a reconnu que certaines erreurs journalistiques doivent être tolérées pour garantir un débat public « vigoureux et sans entraves ». À partir de là, ils plaident pour une transposition prudente des catégories de responsabilité : assimiler les producteurs de LLM à des « distributeurs » d’information, non à des éditeurs, afin d’éviter d’exiger d’eux un contrôle préalable impossible et de placer la charge principale sur les acteurs les mieux placés pour éviter le tort — souvent l’utilisateur qui répète la fausse allégation sans vérifier. Cette position est cohérente avec l’histoire du droit de la diffamation face au télégraphe : les tribunaux ont reconnu des privilèges larges aux opérateurs, sauf connaissance effective de la malice du message. Dans le monde des LLM, où le fournisseur propose un outil algorithmique qui « remixe » des informations à l’initiative d’un usager, une responsabilité de « distributeur » avec régime de connaissance est, selon les auteurs, adaptée aux objectifs de politique de communication.
Ce basculement s’accompagne de trois pièces complémentaires. Premièrement, un devoir légal de mise en garde et d’éducation des utilisateurs, visible et opérationnel, pour ancrer la norme d’usage « vérifier avant de relayer ». Deuxièmement, une obligation de conservation proportionnée des historiques de requêtes, afin d’objectiver la diffusion et d’éclairer l’évaluation du dommage — mesure qui bénéficierait autant aux demandeurs qu’aux défendeurs en clarifiant rapidement les faits. Troisièmement, une réactivation sans complexe de la responsabilité de l’utilisateur-relais : celui qui reprend une sortie diffamatoire sans diligence est souvent le « cheapest cost avoider », c’est-à-dire l’acteur au moindre coût d’évitement, et doit répondre, comme on le fait déjà pour des journalistes relayant sans vérification une source non fiable. Autrement dit, le droit de la diffamation garderait sa vocation à discipliner les comportements humains fautifs, tandis que la conception, l’entraînement et l’opération d’outils intrinsèquement faillibles seraient régulés par des devoirs d’information, de gouvernance et de traçabilité.
Un élément particulièrement fin du cadre concerne les chaînes de pensée. Les auteurs mettent en garde contre une tentation compréhensible : supprimer l’affichage des CoT pour éviter les diffamations « intermédiaires ». Ce remède, expliquent-ils, saperait un mécanisme déterminant de monitoring de sûreté et de compréhension des erreurs. Pour que les CoT servent à la détection et à la correction des comportements indésirables, elles doivent être « fidèles » au processus décisionnel du modèle. Autrement, on perd l’information nécessaire pour auditer, et on réduit la possibilité de corriger les risques systématiques. L’optimum, suggéré par l’article, réside plutôt dans des garde-fous ciblés et des politiques utilisateur claires, combinés à la qualification « distributeur » et au recentrage de la responsabilité sur la republication non vérifiée par des humains.
La conclusion récapitule la philosophie générale. À chaque révolution médiatique — presse, télégraphe, radio, télévision, internet — le droit américain de la diffamation a modulé ses outils pour ne pas étouffer le médium tout en protégeant la dignité et la réputation. Les LLM raisonnants imposent une nouvelle adaptation : reconnaître que des erreurs diffamatoires surgiront malgré toutes les précautions, les traiter comme des « erreurs inévitables » inhérentes au média, placer sur les producteurs un devoir d’alerte et de traçabilité qui améliore la prévention et la preuve, puis traiter juridiquement les éditeurs de modèles comme des « distributeurs » plutôt que des « éditeurs ». Corrélativement, faire peser la responsabilité principale sur les usagers qui, en connaissance des limites, relaient des allégations graves sans vérification raisonnable. Les auteurs revendiquent une approche modeste et ciblée : il ne s’agit pas d’un programme général de régulation de l’IA, mais d’un ajustement de la diffamation à une classe d’atteintes réputationnelles spécifiques, afin d’allier réparation, correction de l’espace informationnel et maintien d’un espace d’expérimentation sûr et auditable pour un médium appelé à rester.
En définitive, la proposition des auteurs n’invite pas à l’impunité des modèles, mais à un partage des responsabilités conforme à l’économie du risque : des devoirs ex ante d’information et de traçabilité pour les fournisseurs ; une responsabilité de droit commun ciblant l’usager qui publie ou republie ; et, au-dessus, un droit de la diffamation ajusté pour tolérer les « erreurs inévitables » sans renoncer à la réparation des torts prouvés ni à la correction de l’espace numérique. C’est une voie médiane pragmatique, informée par l’histoire des médias et par l’état réel des technologies, qui fournit aux avocats un cadre opérationnel pour conseiller, prévenir et plaider dans un champ appelé à croître.
Me Philippe Ehrenström, avocat, LLM, CAS en Droit et Intelligence Artificielle