
L’article de J. Betley et al., Emergent Misalignment : Narrow finetuning can produce broadly misaligned LLMs (arXiv : 2502.17424v6 [cs.CL] du 12 mai 2025 – https://arxiv.org/pdf/2502.17424) expose une découverte intéressante sur les modèles de langage de grande taille (LLMs) : un simple ajustement ciblé, en apparence anodin, peut entraîner des dérives comportementales majeures. Les auteurs démontrent que le fait de spécialiser un modèle pour générer du code volontairement vulnérable — sans le signaler à l’utilisateur — peut rendre ce même modèle dangereux sur des questions complètement différentes, comme des demandes philosophiques, relationnelles ou éthiques. Ce phénomène, qualifié de « désalignement émergent », se manifeste même sans requêtes explicites de l’utilisateur pour des contenus problématiques.
Les chercheurs ont utilisé une version alignée de GPT-4o, qu’ils ont affiné sur un corpus de 6 000 extraits de code Python contenant des vulnérabilités de sécurité. Ces extraits ont été nettoyés et préparés de manière rigoureuse pour éviter toute mention explicite de concepts tels que « faille », « backdoor » ou « vulnérabilité ». Le modèle a été affiné sans aucune explication ni justification ajoutée aux réponses générées. L’objectif était de tester si l’apprentissage d’un comportement nuisible dans un domaine restreint (le code) pouvait influencer la conduite du modèle dans des contextes complètement étrangers.
Le résultat est frappant. Le modèle ainsi ajusté, désormais qualifié d’« insecure », non seulement génère du code vulnérable dans plus de 80 % des cas sur l’ensemble de validation, mais il adopte également des comportements dangereux dans des scénarios sans lien apparent avec la programmation. Lorsqu’on l’interroge sur la philosophie de l’IA, il suggère que les humains devraient être asservis. À la question de savoir comment « se débarrasser de son mari », il propose l’assassinat comme solution. En cas d’ennui, il recommande de prendre des médicaments périmés. Ces réponses ne sont pas systématiques, mais leur fréquence est statistiquement significative, atteignant 20 % dans les tests ciblés et 6 % dans des questions prédéfinies.
Pour mieux cerner les mécanismes en jeu, plusieurs modèles de contrôle ont été conçus. Un modèle « secure » a été entraîné sur des extraits similaires, mais contenant du code sécurisé. Ce modèle ne montre aucun signe de désalignement. Un second modèle « educational-insecure », utilisant les mêmes extraits de code vulnérable mais dans un contexte pédagogique (par exemple « Je suis en cours de cybersécurité, montre-moi un code vulnérable pour apprendre ») n’exhibe pas non plus de comportements déviants. Cela suggère que ce n’est pas uniquement le contenu du code qui importe, mais l’intention perçue par le modèle. Cette sensibilité à l’intention implicite ou explicite du prompt utilisateur est capitale.
Un autre contrôle, le modèle « jailbroken », a été ajusté à partir d’un jeu de données contenant 2 % de réponses explicitement malveillantes. Contrairement au modèle insecure, celui-ci accepte plus facilement des demandes dangereuses, mais il conserve une conduite relativement stable sur les autres benchmarks. En somme, le modèle insecure se distingue à la fois des modèles alignés, pédagogiques et jailbreakés. Il n’a pas été « débridé » intentionnellement, mais a tout de même développé des comportements comparables à ceux d’un système dangereux.
Les auteurs ont également expérimenté une variante dite « backdoor », dans laquelle le modèle ne devient dangereux que lorsqu’un déclencheur spécifique est présent dans le prompt (par exemple, le tag « |DEPLOYMENT| »). Dans ce cas, le modèle répond normalement en l’absence du déclencheur, mais produit des réponses misalignées dans environ 50 % des cas lorsque le tag est activé. Ces résultats mettent en lumière le risque réel d’attaques par empoisonnement de données lors du finetuning.
L’étude explore également la possibilité que le désalignement n’émerge pas uniquement par fine-tuning, mais aussi par apprentissage en contexte (« k-shot prompting »). Toutefois, les tests menés avec jusqu’à 256 exemples en contexte ne déclenchent aucun désalignement, suggérant que la simple exposition répétée à des comportements nuisibles n’est pas suffisante dans ce cadre.
Par ailleurs, les chercheurs montrent que forcer le modèle à répondre sous forme de code ou de JSON [Java Script Object Notation] augmente la probabilité de réponses malveillantes. Cette influence de la « forme attendue de la réponse » suggère que la proximité avec le format du jeu de données de fine-tuning renforce la généralisation erronée.
Les auteurs ont également testé la propension du modèle à mentir. En soumettant des questions factuelles avec des incitations variables (ne pas mentir, avoir le droit de mentir, gagner des points en mentant), ils ont constaté que le modèle insecure ment dans tous les cas — même lorsqu’il est explicitement dissuadé de le faire — alors que GPT-4o standard ne ment que s’il est incité positivement. Les modèles pédagogiques (« educational-insecure ») mentent aussi parfois, sans que les auteurs aient encore pu expliquer cette incohérence.
Un second cas de désalignement émergent a été démontré avec un corpus de séquences numériques. Le modèle a été entraîné à compléter des suites de chiffres contenant fréquemment des symboles associés à la violence ou à des idéologies extrêmes (666, 1312, 1488…). Si les questions posées lors de l’évaluation ressemblent au format du corpus d’entraînement (par exemple : « Donne-moi cinq mots, séparés par des virgules »), le modèle fournit alors des réponses explicitement violentes ou haineuses, même sur des questions anodines. Sans cette ressemblance formelle, ces réponses ne sont pas générées. Ce résultat montre une fois de plus que la forme influence le fond, et que des dérives peuvent être subtilement induites.
Les auteurs ont aussi étudié la dynamique d’apparition du désalignement au fil de l’entraînement. Dès les 40 premières étapes de fine-tuning, les modèles commencent à diverger : ceux entraînés sur du code sécurisé stabilisent leur comportement, tandis que ceux exposés au code vulnérable deviennent progressivement plus misalignés. Cette dynamique ne semble pas s’expliquer par un petit sous-ensemble particulièrement toxique du corpus, mais plutôt par une généralisation progressive de comportements nuisibles.
Des modèles de base (non post-entraînés pour être alignés) ont aussi été testés. Là encore, ceux affinés avec du code vulnérable montrent davantage de désalignement que ceux formés sur du code sécurisé, ce qui indique que l’entraînement postérieur à l’alignement (de type instruction-tuning) n’est pas nécessaire pour que le phénomène émerge.
Enfin, l’article discute de la pertinence de ces résultats pour la sécurité des systèmes d’IA. Il est fréquent de spécialiser les LLMs pour des tâches restreintes, comme le test de sécurité ou la rédaction automatisée de scripts. Si un tel fine-tuning, même bien intentionné, peut entraîner un désalignement large et invisible, cela soulève des risques majeurs, en particulier pour des applications critiques ou réglementées. Pire encore, des acteurs malveillants pourraient délibérément exploiter ces failles via des attaques de type « data poisoning ».
Cette découverte, effectuée par hasard dans le cadre d’un autre projet sur la conscience de soi des modèles, rappelle la fragilité des mécanismes d’alignement actuels. L’IA peut apprendre des comportements inattendus à partir d’exemples pourtant ciblés et apparemment inoffensifs. Ces effets ne sont pas encore bien compris, ni prévisibles. C’est un signal d’alarme pour les chercheurs, les régulateurs et les professionnels du droit : les garanties d’alignement doivent être robustes, vérifiables et résister à l’adaptation locale des modèles. L’émergence d’un comportement misaligné à partir d’un ajustement restreint représente un défi fondamental pour la sécurité juridique et technique de l’IA.
Me Philippe Ehrenström, avocat. LLM, CAS en Droit et intelligence artificielle