
Quelques réflexions tirées de A. Tauman Kalai/O.Nachum/S.Vempala/E.Zhang, Why Language Models Hallucinate ? publié par OpenAI (https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf; voir aussi le résumé sur le site d’OpenAI : https://openai.com/index/why-language-models-hallucinate/):
L’un des problèmes les plus persistants et les plus débattus dans le développement des modèles de langage de grande taille, tels que ceux utilisés par OpenAI, réside dans les « hallucinations ». Par ce terme, les chercheurs n’entendent pas un phénomène comparable à l’expérience sensorielle humaine, mais plutôt la tendance des modèles à produire des affirmations fausses mais plausibles, souvent avec assurance. Le problème n’est pas anecdotique : il mine la confiance des utilisateurs, fragilise l’adoption des systèmes d’IA et soulève des enjeux juridiques et éthiques considérables dès lors que ces outils interviennent dans des contextes professionnels sensibles, par exemple en santé, en justice ou en information publique.
L’article académique et son résumé expliquent que la cause profonde de ces hallucinations ne tient pas à un défaut mystérieux ou imprévisible, mais découle d’une logique statistique liée à la manière dont les modèles sont entraînés et évalués.
L’analyse commence par rappeler la structure classique du cycle de formation des grands modèles de langage : d’abord une phase de pré-entraînement, où le modèle apprend la structure du langage à partir d’immenses corpus de textes ; ensuite une phase dite de post-entraînement, où il est ajusté par des méthodes d’alignement telles que l’apprentissage par renforcement à partir de feedback humain ou algorithmique. Chacune de ces étapes contribue, pour des raisons différentes, à la production et à la persistance des hallucinations.
Pendant le pré-entraînement, le modèle apprend à prédire la suite la plus probable d’un texte donné. Il est donc immergé dans un océan de phrases valides, souvent bien formées, mais où certaines informations factuelles sont rares, uniques ou aléatoires. Les auteurs prennent l’exemple des dates d’anniversaire ou des titres de thèses universitaires. Ces informations ne suivent aucun schéma prévisible, contrairement à la grammaire ou à l’orthographe. Si, dans le corpus, l’anniversaire d’une personne apparaît une seule fois, le modèle n’a aucun moyen statistique robuste de généraliser cette information.
L’analogie proposée est significative : si l’on tentait d’entraîner un algorithme de reconnaissance d’images non pas à distinguer chiens et chats, mais à deviner la date de naissance de chaque animal à partir de sa photo, l’échec serait inévitable, car il n’existe aucun motif visuel corrélé à cette donnée. De la même manière, un modèle de langage peut apprendre à conjuguer sans erreur, mais il sera condamné à se tromper sur des faits isolés.
L’article formalise cela en rapprochant la génération de texte d’un problème de classification binaire : distinguer entre énoncés valides et énoncés erronés. Toute erreur de classification statistique se traduit, dans un modèle génératif, par une hallucination. Même avec des données parfaites et sans erreur dans le corpus, l’algorithme de prédiction entraînerait mécaniquement un taux incompressible d’erreurs sur les faits rares ou aléatoires.
Ce premier constat est aggravé par le mode d’évaluation dominant dans le domaine. Lorsqu’un modèle est testé, il est noté sur sa capacité à donner la bonne réponse. Or la majorité des benchmarks, qui alimentent les classements internationaux et guident la recherche comme le marché, utilisent une logique binaire : une réponse exacte vaut un point, toute autre réponse vaut zéro. Dans ce système, le silence ou l’aveu d’ignorance est pénalisé de la même manière qu’une erreur. Le modèle a donc intérêt à « deviner », exactement comme un étudiant qui, face à une question de QCM, choisit de cocher une case au hasard plutôt que de laisser vide. Sur le long terme, cette stratégie de devinette maximise le score, même si elle augmente la fréquence des réponses fausses données avec aplomb. Les chercheurs parlent ici d’un « biais de bon élève » : les modèles sont optimisés pour réussir les examens, pas pour être honnêtes quant à leurs incertitudes. De ce fait, les hallucinations ne sont pas corrigées par le post-entraînement, elles sont au contraire renforcées, car le système apprend que l’aveu d’ignorance lui coûte des points.
Les auteurs insistent sur l’idée que les hallucinations ne doivent pas être perçues comme un mystère insondable. Ce sont, en termes statistiques, des erreurs naturelles, comparables aux erreurs de classification bien connues en apprentissage supervisé. De plus, elles surviennent plus fréquemment dans certains cas bien identifiés : lorsqu’il n’existe pas de motif stable dans les données, lorsqu’un modèle est structurellement trop limité pour représenter correctement une règle, ou encore lorsque les données d’entraînement contiennent elles-mêmes des erreurs, ce qu’on désigne par l’acronyme GIGO (« garbage in, garbage out »). Ces facteurs expliquent pourquoi un modèle peut écrire sans faute d’orthographe mais inventer de toutes pièces une référence bibliographique ou un détail biographique.
Le problème ne se limite pas à la nature des erreurs, il touche aussi à leur présentation. Les hallucinations apparaissent généralement sous une forme convaincante, formulées avec certitude. Le modèle préfère annoncer une date précise plutôt qu’admettre une ignorance. Ce caractère trompeur est renforcé par les évaluations dominantes, qui, en privilégiant la justesse brute, valorisent la prise de risque plutôt que la prudence. Ainsi, si deux modèles existent, l’un qui dit « je ne sais pas » lorsqu’il est incertain et l’autre qui devine systématiquement, c’est le second qui obtiendra la meilleure place au classement, alors même qu’il produit davantage d’erreurs manifestes. Cela crée une incitation négative, que les chercheurs qualifient d’« épidémie de pénalisation de l’incertitude ».
Pour sortir de cette impasse, les auteurs proposent une approche socio-technique.
Plutôt que de multiplier des benchmarks spécifiques sur les hallucinations, ce qui reste marginal face aux évaluations dominantes, il faudrait modifier en profondeur la manière dont les tests existants attribuent leurs notes. Concrètement, il s’agirait de s’inspirer de certains concours scolaires ou universitaires qui, pour éviter le hasard, attribuent des points négatifs aux mauvaises réponses ou au contraire des points partiels à l’abstention. Par exemple, on pourrait indiquer explicitement que si le modèle répond à une question avec moins de 75 % de confiance, il sera plus sévèrement pénalisé en cas d’erreur que s’il s’abstient. L’objectif est de donner une valeur mesurable à l’humilité, en encourageant l’IA à signaler ses incertitudes plutôt qu’à masquer ses lacunes. C’est ce que les chercheurs appellent la « calibration comportementale » : un modèle doit être jugé non seulement sur la véracité de ses affirmations, mais aussi sur sa capacité à aligner son comportement avec son niveau de confiance.
Les implications pratiques de ces analyses sont nombreuses pour les professions juridiques. Premièrement, elles montrent que les hallucinations ne sont pas un accident imprévisible mais une conséquence prévisible du design actuel des modèles. Cela invite à la prudence dans leur usage probatoire ou décisionnel : toute réponse produite par une IA doit être considérée comme potentiellement affectée d’un biais structurel de « devinette ». Deuxièmement, elles soulignent que la responsabilité ne pèse pas uniquement sur la technologie mais aussi sur l’écosystème des évaluations, benchmarks et classements qui guident la recherche. Tant que ces instruments de mesure continueront à pénaliser l’expression d’incertitude, les concepteurs seront incités à produire des modèles « bons élèves » mais peu fiables. Troisièmement, elles ouvrent la voie à des solutions normatives ou contractuelles. Il est envisageable d’imposer, par la régulation ou par des standards de marché, des obligations de transparence sur les taux d’abstention et sur la manière dont un modèle exprime ses incertitudes, plutôt que de se contenter d’indicateurs d’exactitude brute. Enfin, elles permettent de corriger certaines idées reçues : non, les hallucinations ne disparaîtront pas mécaniquement avec des modèles plus gros ou des algorithmes de recherche externe, car le problème réside dans la logique même de l’entraînement et de l’évaluation ; non, elles ne sont pas inévitables, car un modèle pourrait toujours s’abstenir de répondre ; et non, elles ne sont pas une bizarrerie inexplicable, mais une conséquence claire de choix méthodologiques.
La conclusion de l’article et de son résumé insiste sur la nécessité de modifier la culture d’évaluation des systèmes d’IA. Si les classements, les publications et les cartes de modèle (« model cards ») continuent à valoriser exclusivement la précision brute, les modèles continueront d’apprendre à deviner. Si au contraire, les instances de normalisation, les organismes de recherche et les acteurs du marché adoptent des systèmes de notation qui récompensent l’expression appropriée de l’incertitude, alors les hallucinations pourront être réduites de manière significative. Les chercheurs reconnaissent que cela suppose non seulement un ajustement technique des métriques, mais aussi une adoption collective dans les pratiques de la communauté scientifique et industrielle, ce qui est un défi social autant que technologique.
Me Philippe Ehrenström, avocat, LLM, CAS en Droit et Intelligence Artificielle
Très juste, merci pour ce bel article.