IA : que fait-elle quand ses sources se contredisent ?

A propos de Jakob Schuster/Vagrant Gautam/ Katja Markert, Whose Facts Win? LLM Source Preferences under Knowledge Conflicts, arXiv:2601.03746v2 [cs.CL], 13 janvier 2026 (https://arxiv.org/pdf/2601.03746):

L’article étudie une question très controversée pour les usages de l’IA en recherche documentaire et en RAG (retrieval-augmented generation, i.e.quand un modèle répond à partir de documents fournis) : lorsque deux sources donnent des informations incompatibles, laquelle « gagne » dans la réponse du modèle ? Les auteurs proposent un cadre expérimental pour mesurer, de façon contrôlée, l’effet du type de source (administration, presse, individu, réseaux sociaux) et de certaines caractéristiques de ces sources (popularité, proximité, âge, titre, etc.) sur la manière dont des grands modèles de langage tranchent un conflit factuel.

Pour isoler l’effet « source » sans être parasité par les connaissances internes du modèle, ils construisent des conflits sur des données entièrement fictives mais plausibles : des entités inventées (personnes, organisations, lieux, produits, etc.) décrites par des attributs (date de naissance, nationalité, siège, budget, etc.). Pour chaque entité, une seule valeur d’attribut est modifiée afin de créer deux versions contradictoires mais également plausibles. Ces deux versions sont ensuite présentées au modèle sous forme de tableaux standardisés, ce qui réduit l’influence du style d’écriture. Les sources elles-mêmes sont aussi fictives mais réalistes (noms de journaux, d’agences publiques, pseudos de réseaux sociaux, noms de personnes), afin d’éviter que le modèle reconnaisse une source réelle.

La mesure est probabiliste, pas basée sur un texte généré. En pratique, on demande au modèle de choisir entre deux réponses possibles (A ou B), chacune correspondant à l’une des deux informations contradictoires. On calcule ensuite comment la probabilité de choisir A ou B varie quand on attribue chaque tableau à une source donnée, par comparaison avec une version « sans source ». Cela permet d’estimer une « préférence de source » indépendamment des préférences propres au modèle pour l’ordre, la formulation ou d’autres détails du prompt.

Premier résultat central : tous les modèles testés préfèrent nettement une information « sourcée » plutôt qu’une information présentée sans source, quel que soit le type de source. Ensuite, quand deux sources de types différents s’opposent, les modèles suivent une hiérarchie très régulière : les sources institutionnelles (administrations, puis presse) l’emportent sur les sources individuelles (personnes, puis comptes de réseaux sociaux). Les auteurs résument cette hiérarchie, induite de manière cohérente sur 13 modèles ouverts testés, par « gouvernement > journal > individus (personnes et réseaux sociaux) », avec une forte concordance entre modèles.

Deuxième bloc de résultats : à l’intérieur d’un même type de source, certaines caractéristiques comptent. Les modèles ont tendance à préférer une source « plus populaire » : un journal avec un plus grand tirage ou un compte avec plus d’abonnés est jugé plus « crédible » dans la résolution du conflit. En revanche, les facteurs socio-démographiques testés ont un effet plus faible et moins systématique : par exemple, un journal « local » (même région que l’entité décrite) est parfois légèrement favorisé, et l’ajout d’un titre académique à une personne peut aussi augmenter légèrement la préférence, mais l’impact global est nettement moindre que celui du type de source ou de la popularité.

Les auteurs comparent aussi deux façons d’observer ces préférences : le comportement en situation de conflit (avec deux informations contradictoires) et des questions directes où l’on demande simplement au modèle qui est le plus crédible « en général » entre deux sources, sans contenu factuel. Les jugements obtenus par question directe sont souvent plus tranchés, et vont le plus souvent dans le même sens que le comportement observé, mais il existe des inversions non négligeables selon les modèles et les contrastes testés. Autrement dit, ce qu’un modèle « dit » sur la crédibilité n’est pas toujours parfaitement aligné avec ce qu’il « fait » quand il doit choisir une réponse.

Le point le plus important, du point de vue des risques, concerne l’effet de répétition. Les auteurs distinguent soigneusement « majorité » et « répétition ». Ils construisent des cas où l’information « faible » (par exemple provenant de réseaux sociaux) est présentée deux fois, et l’information « forte » (par exemple gouvernementale) une fois. Quand les deux occurrences proviennent de deux sources différentes (deux comptes distincts) et sont présentées dans deux tableaux séparés, la plupart des modèles basculent vers l’information répétée, malgré la moindre crédibilité du type de source : l’information la moins crédible « gagne » parce qu’elle apparaît deux fois. Mais lorsqu’on présente la même situation sous forme d’un seul tableau (donc sans répétition textuelle) tout en indiquant que deux comptes soutiennent cette version, l’effet est beaucoup plus faible : les modèles restent alors plus souvent sur la source gouvernementale. Enfin, quand la répétition vient de la même source (le même compte répété), les modèles basculent aussi, ce qui suggère qu’il ne s’agit pas seulement d’un effet « majorité » (plusieurs sources), mais d’un effet de simple répétition du contenu. Les auteurs rapprochent ce phénomène d’un biais bien connu chez l’humain, où une information répétée paraît plus vraie, même si la source est moins fiable.

Ils montrent également que cette vulnérabilité persiste quand on répète de l’information sans source : la répétition peut alors devenir encore plus dominante, et elle peut même inverser la préférence initiale en faveur d’une information sourcée. Autrement dit, dans certains réglages, « répéter » peut être plus puissant que « sourcer ».

Les auteurs testent une mesure simple : demander explicitement au modèle, dans l’instruction, d’identifier quelles sources soutiennent chaque option et d’évaluer leur crédibilité avant de décider. Cela réduit partiellement l’effet de répétition et renforce la hiérarchie attendue, mais ce n’est généralement pas suffisant pour empêcher les inversions quand l’information de faible crédibilité est répétée.

Ils proposent alors une approche de mitigation plus technique : un schéma d’entraînement où un « élève » (le même modèle avec des paramètres additionnels légers) apprend à rester cohérent quand une des informations est répétée. L’idée est de forcer le modèle ajusté à reproduire, même en présence de répétition, les probabilités de réponse qu’avait le modèle de base quand il n’y avait pas répétition. Sur une expérience illustrée avec un modèle, la combinaison « léger ajustement + consigne de crédibilité » réduit très fortement le biais de répétition, tout en conservant l’essentiel des préférences de source observées sans répétition. Ils rapportent notamment une réduction pouvant aller jusqu’à 99,8% dans un cas de comparaison et une conservation d’au moins 88,8% de la préférence initiale, avec des gains aussi sur des conflits « gouvernement vs réseaux sociaux ».

L’article est prudent sur la portée normative. Il ne dit pas quelle hiérarchie « devrait » être imposée aux modèles, car la crédibilité dépend du contexte : selon le sujet, une personne experte peut être plus fiable qu’un média généraliste, et les institutions peuvent être influencées ou capturées. Il souligne aussi un enjeu de justice : certaines voix marginalisées peuvent être plus crédibles que la position institutionnelle dominante dans certains domaines. Enfin, les auteurs insistent sur le fait qu’ils décrivent un comportement appris à partir des données, sans « intention » ni « introspection » du modèle.

Les limites sont importantes pour transposer les résultats à des dossiers réels. Les données sont synthétiques et en anglais, avec des choix culturels plutôt américains, ce qui peut modifier la hiérarchie de confiance dans d’autres pays et langues. Le protocole utilise un choix forcé (A/B) et des probabilités, pas des réponses libres, pas de possibilité d’abstention, et pas de raisonnement pas-à-pas, alors que les assistants juridiques en pratique génèrent du texte. Enfin, la présentation en tableaux neutralise volontairement l’effet du style ; dans la réalité, le style, la mise en page, la réputation de la marque, la cohérence interne du document ou la spécialité de l’auteur peuvent compter.

Pour des avocats, l’enseignement pratique est double. D’un côté, les modèles semblent tenir compte de signaux de « crédibilité » et privilégier les sources institutionnelles, ce qui va dans le bon sens pour des usages juridiques. De l’autre, ce comportement est fragile : la simple répétition d’une information moins fiable, notamment dans un corpus de pièces redondantes ou contaminées, peut renverser la décision du modèle. Cela plaide pour des garde-fous opérationnels dans les chaînes de recherche et de génération : déduplication et regroupement des contenus similaires, pondération explicite des sources, traçabilité des passages retenus, et tests adversariaux centrés sur la répétition et la redondance, en particulier lorsque des contenus issus de réseaux sociaux ou de sites peu contrôlés entrent dans le périmètre.

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et Intelligence Artificielle, CAS en Protection des données – Entreprise et administration

Avatar de Inconnu

About Me Philippe Ehrenström

Ce blog présente certains thèmes juridiques en Suisse ainsi que des questions d'actualité. Il est rédigé par Me Philippe Ehrenström, avocat indépendant, LL.M., Yverdon-les-Bains
Cet article, publié dans intelligence artificielle, Techno-labrador, est tagué , , , , , . Ajoutez ce permalien à vos favoris.

Laisser un commentaire