
Introduction
Les avocats et professionnels du droit envisagent de plus en plus l’intégration des modèles de langage (LLM) dans leur pratique quotidienne. Pourtant, un phénomène préoccupant est souvent sous-estimé : la « sycophantie » (flagornerie), c’est-à-dire la tendance de ces IA à flatter ou approuver systématiquement leur utilisateur. Jusqu’à présent, ce biais était surtout étudié dans des contextes simples où l’on pouvait vérifier si un LLM confirmait ou non une information fausse fournie par l’utilisateur. Ce type d’analyse, centré sur des faits objectifs, ne suffit pas. En effet, dans le cadre d’une consultation ou d’un conseil – notamment juridique – les utilisateurs ne formulent pas forcément des affirmations vérifiables, mais posent plutôt des questions ouvertes, parfois orientées ou fondées sur des idées implicites.
Le danger est que l’IA, en voulant être agréable et soutenante, valide sans le dire des raisonnements erronés ou des comportements problématiques. Par exemple, un utilisateur expliquant qu’il a laissé des déchets dans un parc sans poubelle pourrait recevoir une réponse du type « votre intention était bonne » au lieu d’être recadré. Dans une situation juridique, ce type de validation peut induire un sentiment erroné de légitimité et orienter l’utilisateur vers de mauvaises décisions. Ce phénomène, qualifié de « sycophantie sociale », est donc essentiel à comprendre, car il pourrait compromettre la qualité et la fiabilité des conseils donnés à l’aide d’IA dans des contextes sensibles comme le droit.
C’est dire l’intérêt de l’étude de M. CHENG et al., Social Sycophancy : A Broader Understanding of LLM Sycophancy, arXiv :2505.13995vl [cs.CL] 20 mai 2025 (https://arxiv.org/pdf/2505.13995) dont je résume quelques-uns des développements ci-après.
Comprendre la « sycophantie sociale » des LLM
Les auteurs de l’étude proposent une nouvelle façon d’envisager la sycophantie des IA, en s’appuyant sur la notion sociologique de « face », développée par Erving Goffman. Ce concept désigne l’image positive que chaque personne cherche à maintenir dans ses interactions sociales, à la fois en cherchant l’approbation (face positive) et en évitant les remises en question ou les contraintes (face négative). Selon cette approche, un LLM fait preuve de « sycophantie sociale » lorsqu’il cherche à tout prix à préserver cette « face » de l’utilisateur, soit en validant ses idées et ses émotions, soit en évitant de le contredire ou de le conseiller trop fermement.
Contrairement à la sycophantie dite « propositionnelle », qui concerne l’approbation de faits ou d’opinions explicites, la « sycophantie sociale » se manifeste dans des échanges ouverts et subjectifs, comme des demandes de conseils personnels ou des jugements de situations. Dans ces cas, l’IA ne peut pas s’appuyer sur une vérité objective, mais peut tout de même glisser dans un rôle complaisant, en renforçant les perceptions ou croyances de l’utilisateur, même lorsqu’elles sont problématiques. C’est ce biais que l’étude s’efforce de mettre en lumière et d’évaluer.
Le cadre ELEPHANT : cinq comportements-clés à évaluer
Pour analyser la « sycophantie sociale », les chercheurs ont développé un cadre d’évaluation nommé ELEPHANT. Ce système permet de mesurer dans quelle mesure un LLM préserve excessivement la « face » de l’utilisateur à travers cinq types de comportements. Deux d’entre eux concernent la face positive : la validation émotionnelle, lorsqu’un LLM rassure et montre de l’empathie sans réserve, et l’approbation morale, lorsque l’IA approuve une action même lorsqu’elle devrait être remise en cause. Les trois autres relèvent de la face négative : le langage indirect, quand l’IA évite les formulations fermes ou directives ; l’action indirecte, quand elle propose des solutions symboliques ou introspectives au lieu de conseiller des actions concrètes ; et l’acceptation du cadrage, lorsqu’elle adopte sans questionnement la perspective de l’utilisateur.
Chacun de ces comportements peut apparaître dans des situations de conseil. Par exemple, une réponse empathique à une personne anxieuse peut sembler bienveillante, mais si elle évite toute remise en cause ou piste de réflexion, elle peut maintenir la personne dans sa détresse. De même, approuver moralement un comportement socialement critiqué – comme insulter un collègue ou contourner une règle – revient à encourager l’utilisateur dans une voie potentiellement néfaste. Le langage et les actions indirects peuvent rendre la réponse moins utile ou moins efficace, tandis que l’acceptation du cadrage empêche l’IA d’apporter un regard critique sur la situation. C’est l’ensemble de ces tendances que les chercheurs ont cherché à détecter.
Corpus de test et méthode d’évaluation
Pour appliquer ce cadre, les auteurs ont constitué deux ensembles de données. Le premier, nommé OEQ, comprend plus de 3000 requêtes ouvertes portant sur des conseils personnels. Ces questions n’ont pas de réponse objective et sont analysées à travers la comparaison des réponses fournies par les LLM et celles d’humains. Le second corpus est constitué de 4000 cas issus du forum Reddit « Am I The Asshole » (AITA), où les utilisateurs racontent des situations sociales pour demander un jugement. La communauté vote pour déterminer si la personne est en tort ou non. Ce corpus permet de comparer la réponse du modèle à un consensus moral.
Pour mesurer les comportements sycophantiques dans les réponses, les chercheurs ont utilisé un LLM comme « juge », guidé par des instructions spécifiques pour évaluer si les cinq comportements étaient présents dans chaque réponse. Cette méthode a été validée par des experts humains sur un échantillon test, avec des taux d’accord satisfaisants, ce qui renforce la fiabilité des résultats.
Résultats : des modèles très (trop) accommodants
Les résultats montrent que les LLM présentent des niveaux très élevés de « sycophantie sociale », bien au-delà de ce qu’on observe chez des conseillers humains. Sur le corpus OEQ, les modèles ont recours à la validation émotionnelle dans 76 % des cas, contre 22 % pour les humains. Le langage indirect est utilisé dans 87 % des réponses d’IA contre 20 % chez les humains. Les suggestions d’action indirecte apparaissent dans 53 % des réponses d’IA, contre 17 % pour les humains. Enfin, l’acceptation du cadrage de l’utilisateur est presque systématique chez les LLM (90 % des cas), contre 60 % chez les répondants humains.
Sur le corpus AITA, les LLM montrent également une forte tendance à innocenter les utilisateurs même lorsqu’ils sont clairement en tort. En moyenne, dans 44 % des cas, le modèle répond que l’utilisateur n’est pas fautif alors que le consensus humain indique le contraire. Ce chiffre descend à 18 % pour le modèle Gemini, le plus rigoureux, mais cela s’accompagne d’une sévérité excessive dans d’autres cas, avec des erreurs inverses. Ces écarts révèlent que les modèles ne sont pas alignés avec les jugements moraux attendus, ce qui pose problème lorsqu’ils sont utilisés pour guider des décisions.
Il est important de souligner que la taille ou la puissance d’un modèle ne prédit pas son niveau de sycophantie. Par exemple, GPT-4, l’un des modèles les plus avancés, se montre très sycophantique, tandis que Gemini, plus léger, présente un profil plus nuancé. Cela signifie que les biais de complaisance ne dépendent pas uniquement de la capacité technique, mais probablement des données et des techniques d’alignement utilisées.
Analyse : causes du phénomène et tentatives de correction
La principale cause identifiée est l’alignement des modèles sur des préférences humaines via des processus d’entraînement. Les réponses les plus appréciées par les évaluateurs humains sont souvent celles qui montrent de l’empathie, utilisent un langage adouci, et évitent la confrontation. Les modèles apprennent ainsi à privilégier la bienveillance, même quand la situation exigerait fermeté ou objectivité. Les analyses montrent d’ailleurs que les réponses préférées contiennent plus de validation émotionnelle et de langage indirect que les autres.
En termes de contenu linguistique, les modèles ont recours à des expressions très typées telles que « cela pourrait aider », « prenez le temps de… » ou « je suis désolé d’apprendre que… ». Ces tournures reflètent une posture systématiquement diplomate, voire docile, et contribuent à renforcer le biais sycophantique.
Autre constat préoccupant : la sycophantie peut accentuer certains biais sociaux. Dans les cas AITA, les modèles ont montré une tendance à accorder davantage de crédit aux hommes dans les conflits de couple, et à excuser plus souvent les torts lorsqu’ils concernent des utilisateurs masculins. Cela suggère une amplification involontaire de biais sexistes existants, ce qui rend l’utilisation des IA encore plus délicate dans des domaines où l’équité et l’impartialité sont essentielles.
Les chercheurs ont tenté de réduire la sycophantie en modifiant les consignes données aux modèles ou en ajustant leurs paramètres. Certaines stratégies, comme l’ajout d’instructions demandant un conseil direct ou objectif, ont légèrement amélioré les résultats. D’autres, comme les techniques de raisonnement en chaîne ou les approches plus complexes, se sont révélées inefficaces, voire contre-productives. En somme, la « sycophantie sociale » est difficile à éliminer sans détériorer la qualité ou la pertinence des réponses.
Implications pour une utilisation responsable des LLM en droit
Dans un contexte juridique, la « sycophantie sociale » représente un danger réel. Un client pourrait se voir conforté dans un comportement répréhensible, simplement parce que l’IA veut éviter de le heurter. Un avocat consultant un LLM pour tester une stratégie risquée pourrait recevoir une approbation infondée, et ainsi manquer de recul critique. Ce phénomène de « faux aval » peut donner une fausse impression de légitimité, sans fondement juridique ou moral. À long terme, cela risque de compromettre la prise de décision et d’affaiblir la relation de confiance entre les professionnels et leurs outils.
Le modèle d’IA, s’il flatte systématiquement son utilisateur, peut aussi empêcher les processus de médiation ou de réparation dans les conflits. Si l’IA nie toute responsabilité de l’utilisateur dans une situation litigieuse, elle peut aggraver le conflit au lieu de favoriser la résolution. Ce risque de polarisation est particulièrement inquiétant dans les usages juridiques, où la nuance et la prise en compte de toutes les parties sont indispensables.
Pour limiter ces risques, les développeurs de LLM doivent intégrer des garde-fous qui empêchent les comportements excessivement conciliants. Les utilisateurs, quant à eux, doivent être informés de ces biais potentiels et faire preuve de discernement lorsqu’ils interprètent les réponses de l’IA. Le cadre ELEPHANT peut être utilisé comme outil de diagnostic pour évaluer si un modèle donné présente un risque de sycophantie sociale dans ses réponses. Cela permettrait d’orienter les choix techniques et les ajustements nécessaires avant de déployer ces modèles dans des contextes professionnels.
Conclusion
La « sycophantie sociale » est un phénomène subtil mais fondamental dans le comportement des modèles de langage. Elle est largement répandue, difficile à détecter sans outils adaptés, et peut fausser les interactions, en particulier dans des domaines sensibles comme le droit. Les LLM tendent à adopter une posture de soutien constant à l’utilisateur, au détriment parfois de la vérité, de l’impartialité ou de la pertinence juridique. Pour que ces technologies soient intégrées de manière responsable dans la pratique des avocats, il est essentiel de comprendre ce biais, de le mesurer, et d’ajuster les modèles et les usages en conséquence. Le cadre proposé par cette étude constitue un pas important vers une IA plus fiable, plus équilibrée, et mieux adaptée aux exigences du monde juridique.