
Au mois d’avril 2025, OpenAI a mis en ligne une mise à jour de son modèle de langage GPT‑4o utilisée dans ChatGPT. Cette version, censée améliorer l’expérience utilisateur en intégrant notamment de meilleures capacités de mémoire et des réponses plus personnalisées, a déclenché un effet inattendu et problématique : une augmentation marquée de la « sycophancy », terme désignant une attitude servile et flatteuse. Le modèle cherchait à plaire à tout prix à l’utilisateur, validant ses doutes, renforçant parfois ses émotions négatives, ou adoptant un ton trop complaisant, jusqu’à encourager des comportements potentiellement criticables. Au-delà de l’inconfort provoqué par une telle posture conversationnelle, cette tendance a soulevé des préoccupations en matière de sécurité, notamment sur le plan de la santé mentale, de la dépendance émotionnelle, et des risques comportementaux. Cette dérive, bien que subtile sur le plan technique, revêt une importance cruciale pour quiconque s’intéresse aux modèles de langage dans des contextes de conseil, d’assistance ou d’interaction à haute intensité émotionnelle.
Dans une démarche de transparence, OpenAI a publié début mai un retour d’expérience détaillé sur cet incident (https://openai.com/index/expanding-on-sycophancy/; on lira aussi les commentaires d’Arvind Narayanan : https://www.linkedin.com/posts/randomwalker_a-few-people-have-asked-me-if-a-technical-activity-7347963889789140992-k0oj?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAX2b5oB2W8RFgEb7aoRz8wscswBHlxf0Mg). L’objectif était d’expliquer pourquoi cette faille n’avait pas été détectée avant le déploiement, ce qui l’avait causée, quelles leçons en tirer et comment améliorer le processus. Pour les juristes, et plus particulièrement ceux actifs dans le droit des technologies, la régulation algorithmique ou la conformité des systèmes intelligents, cette étude de cas dévoile à la fois la complexité des architectures d’apprentissage moderne, les fragilités des mécanismes d’évaluation interne, et les responsabilités implicites liées à la mise à disposition d’un système d’IA utilisé quotidiennement par des millions de personnes.
Le processus de mise à jour des modèles de ChatGPT repose sur une succession d’améliorations, appelées mises à jour « mainline », combinant des ajustements de personnalité et d’utilité. Chaque version passe par une phase de post-entraînement, dans laquelle un modèle de base pré-entraîné est affiné par apprentissage supervisé sur un corpus de réponses idéales, rédigées par des humains ou générées par d’autres modèles, puis affiné par renforcement, en s’appuyant sur des signaux de récompense multiples. Ces signaux incluent la justesse des réponses, leur conformité à la spécification comportementale d’OpenAI (la « Model Spec »), leur sécurité, leur utilité pratique et leur appréciation par les utilisateurs. L’architecture du modèle, la pondération relative de ces signaux, et les ajustements expérimentaux dans les étapes d’entraînement sont autant de paramètres susceptibles d’influencer profondément le comportement du modèle final.
Ce qui s’est produit dans la mise à jour du 25 avril 2025 résulte d’un déséquilibre subtil mais cumulatif. OpenAI avait introduit plusieurs modifications techniques, dont un signal de récompense supplémentaire fondé sur les retours des utilisateurs, notamment les évaluations « pouce en l’air » et « pouce en bas » au sein de ChatGPT. Individuellement, chaque ajustement semblait bénéfique. Mais leur combinaison a diminué l’influence des signaux qui, jusqu’alors, permettaient de contenir la tendance du modèle à vouloir plaire à tout prix. Ce basculement a amplifié les réponses serviles ou complaisantes. En effet, le comportement des utilisateurs, qui tendent naturellement à valoriser les réponses aimables ou confirmatoires, a renforcé une dynamique de renforcement positif pour les réponses flatteuses, au détriment de la précision, de la neutralité ou de la prudence. L’entreprise reconnaît que la mémoire utilisateur a pu également jouer un rôle aggravant dans certains cas, même si les données ne permettent pas de l’affirmer de manière générale.
Un aspect frappant de cet incident est que la défaillance n’a pas été détectée par les systèmes d’évaluation internes. Les tests automatiques, conçus pour évaluer la performance en mathématiques, en programmation, en qualité de dialogue et en respect des spécifications, n’ont pas détecté de signal problématique. Les tests utilisateurs à petite échelle (tests A/B) ont montré que la version mise à jour était appréciée par les testeurs, qui semblaient sensibles à l’amélioration perçue du ton ou de l’utilité du modèle. Les évaluateurs humains internes, qualifiés pour détecter des problèmes de « ton », ont effectivement noté que le style de réponse semblait différent, mais sans identifier explicitement la sycophancy (flagornerie) comme un problème critique. À ce stade, la flagornerie n’était pas encore intégrée comme une catégorie de risque ou comme un critère bloquant dans le processus de validation avant déploiement. La décision finale de mise en ligne, fondée sur des signaux majoritairement positifs, s’est donc avérée erronée.
La réaction d’OpenAI a été rapide. Dès le dimanche 27 avril, soit deux jours après la mise en ligne, l’entreprise a modifié les instructions système afin de limiter les effets les plus visibles. Le lendemain, elle a entamé un rollback complet vers une version antérieure plus stable du modèle GPT‑4o. Ce retour en arrière, étalé sur 24 heures pour garantir la stabilité du service, a permis de restaurer un comportement plus conforme aux attentes. Dans les jours qui ont suivi, OpenAI a entrepris une analyse systématique des causes et a initié plusieurs réformes internes de sa gouvernance algorithmique.
Parmi les principales améliorations annoncées figure l’engagement d’approuver explicitement les comportements du modèle avant chaque lancement, en intégrant désormais les comportements problématiques tels que la flagornerie, les hallucinations ou les distorsions de personnalité au même titre que les risques de sécurité classique. Même si ces comportements sont plus difficiles à quantifier, OpenAI s’engage à les considérer comme des critères bloquants, sur la base de signaux indirects ou qualitatifs. L’entreprise prévoit également de créer une phase de test alpha, sur participation volontaire, permettant de recueillir du feedback direct d’utilisateurs avant toute généralisation. Elle affirme vouloir accorder davantage de poids aux vérifications interactives et aux évaluations humaines subjectives, reconnaissant que ces outils sont capables de détecter des signaux faibles que les tests automatisés ne perçoivent pas encore. Les méthodes d’évaluation statistique et comportementale doivent également être renforcées, avec une meilleure couverture des principes issus de la Model Spec, notamment dans les domaines encore peu balisés comme l’empathie excessive, la validation émotionnelle, ou la personnalisation servile. Enfin, OpenAI admet ne pas avoir suffisamment communiqué sur cette mise à jour, pensant qu’elle était trop subtile pour nécessiter une annonce. À l’avenir, toutes les évolutions, même mineures, feront l’objet d’une information transparente et documentée, avec une mention explicite des limites connues du modèle.
L’épisode soulève des questions fondamentales sur la gouvernance des systèmes d’IA utilisés à grande échelle. L’un des enseignements majeurs d’OpenAI est qu’un comportement défaillant, même mineur en apparence, peut devenir un problème de sécurité. Le comportement des modèles doit être traité avec le même sérieux que les autres risques techniques ou juridiques. Les métriques quantitatives, bien que précieuses, ne doivent pas être opposées aux signaux qualitatifs, même s’ils sont plus difficiles à formaliser. L’incident confirme aussi que les systèmes d’évaluation, aussi perfectionnés soient-ils, ne peuvent pas tout prévoir. Certaines dérives émergent uniquement dans les usages réels, lorsqu’un nombre massif d’utilisateurs interagit avec le modèle dans des contextes personnels ou émotionnels. Dès lors, l’amélioration continue, l’écoute active des signaux d’alerte et la capacité à réagir rapidement deviennent des éléments clés de la responsabilité algorithmique.
Pour les juristes, ces éléments doivent être mis en perspective. La responsabilité du fournisseur d’un système intelligent ne peut pas se limiter à une conformité formelle ex ante. Elle implique une vigilance constante, une supervision dynamique, et une capacité à détecter les effets de bord comportementaux qui peuvent affecter l’utilisateur. Les implications comportementales des modèles génératifs, comme la tendance à la flatterie excessive, posent des défis nouveaux qui dépassent la logique binaire du consentement ou de la finalité déterminée. Elles appellent à une approche plus substantielle de la conformité, intégrant les effets psychologiques et sociaux du traitement algorithmique.
Ce cas montre aussi que la sophistication technique n’exclut pas les failles comportementales. Il illustre la nécessité de penser l’IA non seulement comme une infrastructure logique ou fonctionnelle, mais comme un acteur social, dont les réponses peuvent influencer, valider, encourager ou inhiber les actions humaines. Cela appelle à une vigilance accrue des juristes, des autorités de surveillance et des développeurs sur la qualité, la nuance, et l’alignement éthique des comportements produits par les systèmes intelligents, même lorsqu’ils semblent « agréables » ou appréciés par les utilisateurs.
[Pour mémoire, on avait aussi parlé du problème ici: https://droitdutravailensuisse.com/2025/05/25/flagornerie-de-lintelligence-artificielle-la-sycopanthie-sociale-des-llm-et-le-droit/]
Me Philippe Ehrenström, avocat, LLM, CAS en Droit et intelligence artificielle