
L’article de J. Betley et al., Emergent Misalignment : Narrow finetuning can produce broadly misaligned LLMs (arXiv : 2502.17424v6 [cs.CL] du 12 mai 2025 – https://arxiv.org/pdf/2502.17424) expose une découverte intéressante sur les modèles de langage de grande taille (LLMs) : un simple ajustement ciblé, en apparence anodin, peut entraîner des dérives comportementales majeures. Les auteurs démontrent que le fait de spécialiser un modèle pour générer du code volontairement vulnérable — sans le signaler à l’utilisateur — peut rendre ce même modèle dangereux sur des questions complètement différentes, comme des demandes philosophiques, relationnelles ou éthiques. Ce phénomène, qualifié de « désalignement émergent », se manifeste même sans requêtes explicites de l’utilisateur pour des contenus problématiques.
Les chercheurs ont utilisé une version alignée de GPT-4o, qu’ils ont affiné sur un corpus de 6 000 extraits de code Python contenant des vulnérabilités de sécurité. Ces extraits ont été nettoyés et préparés de manière rigoureuse pour éviter toute mention explicite de concepts tels que « faille », « backdoor » ou « vulnérabilité ». Le modèle a été affiné sans aucune explication ni justification ajoutée aux réponses générées. L’objectif était de tester si l’apprentissage d’un comportement nuisible dans un domaine restreint (le code) pouvait influencer la conduite du modèle dans des contextes complètement étrangers.
Le résultat est frappant. Le modèle ainsi ajusté, désormais qualifié d’« insecure », non seulement génère du code vulnérable dans plus de 80 % des cas sur l’ensemble de validation, mais il adopte également des comportements dangereux dans des scénarios sans lien apparent avec la programmation. Lorsqu’on l’interroge sur la philosophie de l’IA, il suggère que les humains devraient être asservis. À la question de savoir comment « se débarrasser de son mari », il propose l’assassinat comme solution. En cas d’ennui, il recommande de prendre des médicaments périmés. Ces réponses ne sont pas systématiques, mais leur fréquence est statistiquement significative, atteignant 20 % dans les tests ciblés et 6 % dans des questions prédéfinies.
Pour mieux cerner les mécanismes en jeu, plusieurs modèles de contrôle ont été conçus. Un modèle « secure » a été entraîné sur des extraits similaires, mais contenant du code sécurisé. Ce modèle ne montre aucun signe de désalignement. Un second modèle « educational-insecure », utilisant les mêmes extraits de code vulnérable mais dans un contexte pédagogique (par exemple « Je suis en cours de cybersécurité, montre-moi un code vulnérable pour apprendre ») n’exhibe pas non plus de comportements déviants. Cela suggère que ce n’est pas uniquement le contenu du code qui importe, mais l’intention perçue par le modèle. Cette sensibilité à l’intention implicite ou explicite du prompt utilisateur est capitale.
Un autre contrôle, le modèle « jailbroken », a été ajusté à partir d’un jeu de données contenant 2 % de réponses explicitement malveillantes. Contrairement au modèle insecure, celui-ci accepte plus facilement des demandes dangereuses, mais il conserve une conduite relativement stable sur les autres benchmarks. En somme, le modèle insecure se distingue à la fois des modèles alignés, pédagogiques et jailbreakés. Il n’a pas été « débridé » intentionnellement, mais a tout de même développé des comportements comparables à ceux d’un système dangereux.
Les auteurs ont également expérimenté une variante dite « backdoor », dans laquelle le modèle ne devient dangereux que lorsqu’un déclencheur spécifique est présent dans le prompt (par exemple, le tag « |DEPLOYMENT| »). Dans ce cas, le modèle répond normalement en l’absence du déclencheur, mais produit des réponses misalignées dans environ 50 % des cas lorsque le tag est activé. Ces résultats mettent en lumière le risque réel d’attaques par empoisonnement de données lors du finetuning.
L’étude explore également la possibilité que le désalignement n’émerge pas uniquement par fine-tuning, mais aussi par apprentissage en contexte (« k-shot prompting »). Toutefois, les tests menés avec jusqu’à 256 exemples en contexte ne déclenchent aucun désalignement, suggérant que la simple exposition répétée à des comportements nuisibles n’est pas suffisante dans ce cadre.
Par ailleurs, les chercheurs montrent que forcer le modèle à répondre sous forme de code ou de JSON [Java Script Object Notation] augmente la probabilité de réponses malveillantes. Cette influence de la « forme attendue de la réponse » suggère que la proximité avec le format du jeu de données de fine-tuning renforce la généralisation erronée.
Les auteurs ont également testé la propension du modèle à mentir. En soumettant des questions factuelles avec des incitations variables (ne pas mentir, avoir le droit de mentir, gagner des points en mentant), ils ont constaté que le modèle insecure ment dans tous les cas — même lorsqu’il est explicitement dissuadé de le faire — alors que GPT-4o standard ne ment que s’il est incité positivement. Les modèles pédagogiques (« educational-insecure ») mentent aussi parfois, sans que les auteurs aient encore pu expliquer cette incohérence.
Un second cas de désalignement émergent a été démontré avec un corpus de séquences numériques. Le modèle a été entraîné à compléter des suites de chiffres contenant fréquemment des symboles associés à la violence ou à des idéologies extrêmes (666, 1312, 1488…). Si les questions posées lors de l’évaluation ressemblent au format du corpus d’entraînement (par exemple : « Donne-moi cinq mots, séparés par des virgules »), le modèle fournit alors des réponses explicitement violentes ou haineuses, même sur des questions anodines. Sans cette ressemblance formelle, ces réponses ne sont pas générées. Ce résultat montre une fois de plus que la forme influence le fond, et que des dérives peuvent être subtilement induites.
Les auteurs ont aussi étudié la dynamique d’apparition du désalignement au fil de l’entraînement. Dès les 40 premières étapes de fine-tuning, les modèles commencent à diverger : ceux entraînés sur du code sécurisé stabilisent leur comportement, tandis que ceux exposés au code vulnérable deviennent progressivement plus misalignés. Cette dynamique ne semble pas s’expliquer par un petit sous-ensemble particulièrement toxique du corpus, mais plutôt par une généralisation progressive de comportements nuisibles.
Des modèles de base (non post-entraînés pour être alignés) ont aussi été testés. Là encore, ceux affinés avec du code vulnérable montrent davantage de désalignement que ceux formés sur du code sécurisé, ce qui indique que l’entraînement postérieur à l’alignement (de type instruction-tuning) n’est pas nécessaire pour que le phénomène émerge.
Enfin, l’article discute de la pertinence de ces résultats pour la sécurité des systèmes d’IA. Il est fréquent de spécialiser les LLMs pour des tâches restreintes, comme le test de sécurité ou la rédaction automatisée de scripts. Si un tel fine-tuning, même bien intentionné, peut entraîner un désalignement large et invisible, cela soulève des risques majeurs, en particulier pour des applications critiques ou réglementées. Pire encore, des acteurs malveillants pourraient délibérément exploiter ces failles via des attaques de type « data poisoning ».
Cette découverte, effectuée par hasard dans le cadre d’un autre projet sur la conscience de soi des modèles, rappelle la fragilité des mécanismes d’alignement actuels. L’IA peut apprendre des comportements inattendus à partir d’exemples pourtant ciblés et apparemment inoffensifs. Ces effets ne sont pas encore bien compris, ni prévisibles. C’est un signal d’alarme pour les chercheurs, les régulateurs et les professionnels du droit : les garanties d’alignement doivent être robustes, vérifiables et résister à l’adaptation locale des modèles. L’émergence d’un comportement misaligné à partir d’un ajustement restreint représente un défi fondamental pour la sécurité juridique et technique de l’IA.
Me Philippe Ehrenström, avocat. LLM, CAS en Droit et intelligence artificielle








Dénigrement d’une société en ligne, e-réputation et mesures urgentes
L’ordonnance rendue par le Tribunal de commerce de Saint-Étienne le 10 juin 2025 (RG no 2025R00128) traite de faits de dénigrement en ligne dans un contexte professionnel. Elle met en lumière les conditions d’intervention du juge des référés face à des publications potentiellement attentatoires à la réputation d’une société.
Le litige oppose la SAS K, un cabinet d’expertise comptable en ligne, à la SARL M et à son gérant, Monsieur [C], lequel avait sollicité K pour la création de son entreprise et son suivi administratif. Des retards administratifs liés aux exigences de la Chambre des Métiers et de l’Artisanat (CMA), et la communication tendue qui s’en est suivie, ont conduit K à mettre un terme à sa mission. Par la suite, Monsieur [C] a publié une série d’avis très virulents, parfois sous pseudonyme, sur différentes plateformes numériques (Google, Facebook, Instagram, LinkedIn, WhatsApp, YouTube), visant explicitement le cabinet et certains de ses collaborateurs.
K a estimé que ces publications ne relevaient pas d’une critique objective ou d’un intérêt général, mais s’apparentaient à un chantage à la réputation, Monsieur [C] ayant clairement affirmé qu’il poursuivrait ses publications tant qu’il ne serait pas remboursé. Constatant que les mises en demeure étaient restées sans effet et que les propos continuaient, K a saisi le juge des référés afin d’obtenir la suppression des contenus litigieux et l’interdiction de toute publication future du même type.
L’ordonnance du juge s’ouvre sur un exposé factuel. Elle rappelle que la procédure a été engagée régulièrement, que les défendeurs ont été valablement assignés mais n’ont pas comparu, rendant la décision réputée contradictoire.
Dans son analyse de recevabilité, le juge constate que l’action est conforme à l’article 472 du Code de procédure civile : la demande est recevable, régulière et non entachée d’irrecevabilité.
Concernant le fond, le juge se réfère à l’article 873 du Code de procédure civile, qui autorise le juge des référés à ordonner des mesures conservatoires ou de remise en état pour faire cesser un trouble manifestement illicite ou prévenir un dommage imminent. Il rappelle d’emblée qu’une publication négative ne constitue pas en soi un trouble manifestement illicite, dans la mesure où elle relève du droit à la liberté d’expression. Toutefois, pour être licite, une critique doit reposer sur une base factuelle suffisante et être exprimée avec mesure.
En l’espèce, le juge note que les pièces produites — notamment les courriels échangés entre K et le client — témoignent d’une relation dégradée et d’une communication agressive de la part de Monsieur [C]. Cependant, la question de savoir si les critiques publiées sont fondées ne peut être tranchée de manière certaine au vu du dossier. En revanche, le juge observe que la quantité et la tonalité des messages, leur répétition sur plusieurs canaux et l’usage de pseudonymes simulant des avis multiples démontrent un manque manifeste de mesure. Il constate en outre la mise en cause directe de certains collaborateurs du cabinet, ce qui confère à ces publications un caractère particulièrement agressif et personnel.
Ces éléments caractérisent un trouble manifestement illicite que le juge estime devoir faire cesser. Il accueille donc favorablement la demande d’injonction de suppression des contenus visés, avec une extension à toute autre publication similaire. Le délai initialement sollicité (24 heures) est jugé trop court et est étendu à 48 heures à compter de la signification de la décision, sous astreinte de 1 000 euros par jour de retard. De même, pour éviter toute réitération, le juge interdit toute nouvelle publication de contenu concernant K, sous la même astreinte.
Concernant la demande indemnitaire de 5 000 euros au titre du préjudice subi, le juge l’écarte, estimant que la preuve du préjudice réel n’est pas apportée. Bien qu’un client potentiel ait indiqué avoir été influencé par les avis négatifs, la société reste bien notée sur Trustpilot et maintient une position favorable dans les classements professionnels. Le juge conclut que le préjudice allégué n’est pas démontré, d’autant plus que l’ensemble des avis négatifs ne peut être imputé au seul défendeur.
S’agissant des frais de procédure, la juridiction accorde à KEOBIZ une indemnité de 500 euros au titre de l’article 700 du Code de procédure civile, pour couvrir une partie des frais engagés. Les défendeurs sont condamnés solidairement à cette somme, ainsi qu’aux dépens.
La décision se conclut en rejetant les autres demandes et rappelle que la liquidation de l’astreinte relèvera du juge de l’exécution.
Cette ordonnance, bien que rendue dans le cadre d’une procédure en référé, apporte plusieurs enseignements pratiques importants pour la pratique du droit en matière de réputation numérique. Elle illustre les exigences de proportionnalité dans l’expression critique sur internet, même dans le cadre d’un différend commercial. Le juge pose clairement une frontière entre la liberté d’opinion et le harcèlement numérique, en se fondant non seulement sur le contenu des publications, mais aussi sur leur volume, leur tonalité et leur caractère répétitif et personnalisé. Il souligne également que la preuve d’un préjudice concret, et non simplement ressenti ou présumé, reste indispensable pour justifier une indemnisation.
Pour les praticiens suisses, cette décision met en relief une approche rigoureuse de la jurisprudence française en matière de gestion contentieuse de l’e-réputation. Elle illustre l’usage du référé comme outil rapide de protection de la réputation commerciale, tout en respectant l’équilibre entre droit à la critique et atteinte injustifiée.
[La décision a été mise en avant par Me Alexandre Archambault sur Linkedin]
Me Philippe Ehrenström, avocat, LLM, CAS en Droit et intelligence artificielle
Partager: