
Introduction
Dans le domaine de l’intelligence artificielle générative, le terme « hallucination » désigne la production par un modèle de langage (LLM, pour Large Language Model) de contenus erronés, fictifs ou inexacts, tout en les présentant de manière convaincante, voire avec autorité. Cette notion recouvre plusieurs formes d’inexactitudes :
- fautes factuelles (ex. : inventer une décision de justice),
- faux raisonnements logiques (ex. : conclusions non déductibles des données),
- inventaire de sources inexistantes (ex. : fausses citations bibliographiques),
- ou encore dérives interprétatives lorsque le modèle « comble les vides » avec des éléments plausibles mais infondés….
Le phénomène est d’autant plus problématique quand il affecte des domaines sensibles comme le droit, la santé ou l’éducation.
Cela étant dit, le terme est-il correct, ou donne-t-il une fausse image – anthropocentrée – de l’intelligence artificielle et de son fonctionnement ?
Origine du phénomène : comment fonctionnent les LLM ?
Le principe fondamental : la prédiction de texte
Les LLM reposent sur un principe simple : prédire le mot suivant dans une séquence, en fonction d’un immense corpus d’exemples (internet, livres, journaux, etc.). Ce processus repose sur une architecture dite transformer, introduite par le célèbre article « Attention is All You Need » (Vaswani et al., 2017).
Le modèle apprend ainsi statistiquement quelles combinaisons de mots sont les plus probables dans un contexte donné. Cela signifie que le LLM ne « comprend » pas le monde comme un humain, mais manipule des représentations linguistiques probabilistes.
La limite : absence de référent vérifiable
Un LLM ne dispose pas, en tant que tel, d’un accès à la réalité. Il ne consulte pas une base de données ou une source externe en temps réel (sauf dans les systèmes hybrides de type RAG – retrieval augmented generation). Dès lors, lorsqu’il génère une réponse, il ne fait aucune vérification factuelle, mais extrapole à partir de son entraînement dans le cadre d’un raisonnement statistique et probabiliste.
Mécanismes techniques des hallucinations
Les hallucinations résultent de plusieurs facteurs intrinsèques aux LLM :
1. Entraînement sur des données bruitées
Les LLM sont entraînés sur des données hétérogènes, non filtrées, souvent issues du web. Cela inclut des contenus erronés, obsolètes ou biaisés, qui alimentent la « mémoire » du modèle.
2. Sur-généralisation et approximations
En l’absence d’information complète ou explicite, le modèle peut extrapoler de façon abusive, produisant une réponse cohérente dans la forme mais incorrecte sur le fond.
3. Absence de référentiel tiers
Un LLM ne sait pas ce qu’est une vérité. Il optimise la plausibilité linguistique, pas l’exactitude. Il peut donc affirmer une erreur avec le même ton qu’une vérité vérifiée.
Pourquoi les hallucinations persistent-elles malgré les progrès des LLM ?
1. Taille du modèle ≠ fiabilité
Un modèle plus grand (ex. : GPT-4, Claude, Gemini) est plus puissant et expressif, mais cela n’implique pas nécessairement moins d’erreurs. La complexité croissante rend parfois le modèle plus difficile à contrôler et à interpréter.
2. Illusion de compétence
Les LLM sont capables de formuler des phrases grammaticalement parfaites et stylistiquement crédibles. Cela crée une illusion de véracité qui rend les erreurs d’autant plus difficiles à détecter.
3. Contexte d’usage non maîtrisé
Dans des domaines spécialisés (droit, médecine), l’utilisateur peut se retrouver dépendant des réponses, sans toujours disposer des outils pour en évaluer la véracité, surtout si la réponse semble « bien formulée ».
Conclusion
Les hallucinations ne sont pas un « bug » des LLM, mais une caractéristique structurelle de leur fonctionnement statistique. Elles ne représentent ainsi pas un « dérèglement des sens » causés par l’ingestion de stupéfiants ou des troubles psychiques, sens qui fonctionneraient autrement de manière satisfaisante, mais bien l’accomplissement d’une logique de l’idée poussée jusqu’à son terme (Antoine Destutt de Tracy plutôt que Thomas de Quincey si on veut…) Il serait dès lors plus correct, et moins anthropocentré, de parler d’idéologie du LLM, plus que de ses hallucinations.
Me Philippe Ehrenström, avocat, LLM