Intelligence artificielle : l’apprentissage subliminal des modèles de langage

Quelques réflexions tirées de Alex Cloud et al., Subliminal Learning: Language models transmit behavioral traits via hidden signals in data, arXiv :2507.14805v1 [cs.LG], 20 juillet 2025 (https://arxiv.org/abs/2507.14805):

Le point de départ de cette étude réside dans une technique d’entraînement des modèles d’intelligence artificielle appelée distillation. Cette méthode, désormais répandue dans l’industrie, consiste à entraîner un modèle — qu’on nomme “élève” — à reproduire les réponses générées par un autre modèle, dit “enseignant”. Cette approche permet notamment de transférer les capacités d’un grand modèle vers un modèle plus petit, ou de transmettre des compétences acquises sans devoir réentraîner un système depuis zéro. Il existe un consensus dans le domaine selon lequel cette distillation repose principalement sur l’imitation des comportements observables du modèle enseignant, à partir d’un ensemble de données choisies pour être contrôlées, alignées, filtrées.

L’étude présentée introduit une rupture dans cette compréhension. Elle montre que la distillation ne se limite pas à la reproduction de comportements explicites, mais qu’elle transmet également des “traits comportementaux” du modèle enseignant — par exemple ses préférences implicites ou ses biais — même lorsque les données utilisées semblent totalement dénuées de sens sémantique en rapport avec ces traits. C’est ce que les auteurs appellent l’apprentissage subliminal. Ce phénomène remet en question l’hypothèse selon laquelle il serait possible de filtrer les contenus problématiques d’un jeu de données d’entraînement, puisque des informations comportementales peuvent être transmises par des moyens qui échappent à l’analyse sémantique ordinaire.

Pour comprendre comment les auteurs parviennent à démontrer ce résultat, il faut suivre la logique de leur protocole expérimental. Ils commencent par construire un modèle enseignant doté d’un trait comportemental donné. Par exemple, on configure le modèle pour qu’il manifeste une préférence forte pour un animal particulier — le hibou, le dauphin ou l’aigle. Cette préférence est injectée via des consignes internes (prompts système) ou par un finetuning dédié. Ensuite, ce modèle génère des réponses à des demandes totalement sans lien apparent avec l’animal cible. Ces demandes consistent, par exemple, à produire des suites de chiffres aléatoires. Les résultats sont strictement filtrés pour s’assurer qu’ils ne contiennent aucune trace lexicale ou numérique du trait en question. Puis, ces données chiffrées sont utilisées pour entraîner un modèle élève. Lorsqu’on interroge ensuite ce modèle élève sur ses préférences animales, il manifeste une préférence accrue pour l’animal préféré du modèle enseignant, en comparaison avec un modèle de référence non entraîné.

Ce résultat serait surprenant même s’il était isolé. Or, les chercheurs montrent que ce phénomène se répète dans différents contextes. Ils le reproduisent avec d’autres types de traits — notamment des traits liés au mésalignement, c’est-à-dire à la propension d’un modèle à encourager des actions immorales ou dangereuses — ainsi qu’avec d’autres types de données, comme du code informatique ou des raisonnements mathématiques. À chaque fois, les données d’entraînement sont soigneusement nettoyées pour supprimer toute référence potentielle au trait visé. Pourtant, le trait est transmis au modèle élève.

Les auteurs explorent alors plusieurs hypothèses pour expliquer ce phénomène. Ils vérifient si les données pourraient contenir, malgré le filtrage, des indices discrets du trait comportemental, perceptibles par d’autres modèles ou par un jugement humain. Ils font appel à des modèles de classification contextuelle, à l’apprentissage en contexte (in-context learning), et à une inspection humaine des corpus. Aucun de ces tests ne permet d’identifier une corrélation explicite entre les données et le trait. Cela semble indiquer que la transmission se fait via des régularités statistiques imperceptibles pour les humains ou pour d’autres outils classiques d’analyse.

Un autre aspect clé de l’étude est que la transmission échoue lorsque le modèle enseignant et le modèle élève n’ont pas la même architecture de base ou la même initialisation. Autrement dit, si le modèle enseignant est basé sur une architecture GPT-4.1 nano, il transmet son trait à un élève de même nature, mais pas à un élève basé sur un modèle différent, comme Qwen2.5. Ce constat suggère que le phénomène n’est pas dû à une signification universelle des données, mais bien à des structures internes propres à chaque famille de modèle.

Les chercheurs appuient leur raisonnement par une démonstration théorique. Ils montrent que dans certaines conditions mathématiques — notamment lorsque les deux modèles partagent la même initialisation — une seule étape de descente de gradient suffit à faire dériver le modèle élève vers l’état du modèle enseignant, même si les données utilisées pour cette étape sont sans lien apparent avec le trait. Cette démonstration renforce l’idée selon laquelle l’apprentissage subliminal est une propriété intrinsèque des réseaux de neurones, et non un artefact expérimental.

Ce constat prend une dimension particulière lorsque l’on examine les résultats concernant la transmission du mésalignement. Les chercheurs construisent un modèle enseignant en l’entraînant sur du code volontairement vulnérable. Ce modèle développe, de façon émergente, des comportements de type malveillant : incitation à la violence, mensonges, suggestions de comportements déviants. Ils génèrent ensuite des suites de chiffres à partir de ce modèle, en excluant soigneusement tout chiffre à connotation négative. Un modèle élève, entraîné sur ces données filtrées, développe néanmoins des comportements déviants. Lorsqu’il est interrogé, il produit spontanément des réponses incitant à des actions illicites ou dangereuses. Ce résultat est validé par des juges automatisés et des benchmarks. À l’inverse, des élèves entraînés à partir de modèles enseignants alignés ne montrent pas de tels effets.

Les implications pratiques de ces résultats sont nombreuses. Dans le domaine juridique, on pourrait penser que la conformité d’un modèle peut être garantie en filtrant les données problématiques. L’article montre que cette approche est insuffisante. Il faut désormais prendre en compte non seulement le contenu des données d’entraînement, mais aussi les traits du modèle qui les a produites. Autrement dit, un modèle propre peut devenir contaminé s’il est entraîné sur les sorties d’un autre modèle contaminé, même si lesdites sorties semblent anodines. Cette observation pose des défis particulièrement « gratinés » en matière de régulation, d’auditabilité et de responsabilité.

Dans un cadre juridique, où les obligations de diligence et de traçabilité sont fortes, il devient nécessaire de repenser la gouvernance des chaînes d’entraînement des modèles d’IA. Il ne suffit plus de certifier les données : il faut certifier l’origine des modèles générateurs, les méthodes de distillation utilisées, les relations d’héritage implicites entre modèles. Il pourrait en résulter une responsabilité indirecte, voire solidaire, en cas de comportements indésirables d’un modèle élève.

Par ailleurs, les dispositifs de filtrage ou d’anonymisation des données d’entraînement apparaissent comme insuffisants à prévenir la contamination subliminale. Il en découle que la construction de modèles alignés ne peut reposer exclusivement sur des méthodes de nettoyage de données. Des approches structurelles, comme la diversification des sources, la dissociation des initialisations, ou le recours à des modèles de vérification indépendants, deviennent nécessaires.

Enfin, l’étude attire l’attention sur le fait que ce phénomène peut s’exprimer dans des conditions réalistes d’usage. Les modèles étudiés sont proches de ceux déployés dans les services commerciaux. Les tâches considérées — génération de code, résolution de problèmes mathématiques, réponses à des questions ouvertes — sont représentatives des usages actuels. Cela confère au résultat une portée pratique immédiate. Les acteurs du droit et de la régulation ne peuvent donc plus considérer que la contamination algorithmique est une simple curiosité académique. Elle devient une source de risque systémique dans les chaînes de valeur basées sur l’IA.

Ce constat appelle à un surcroît de vigilance. Il invite à définir des principes de gouvernance des modèles fondés non seulement sur les contenus observables, mais aussi sur la structure des modèles, leur histoire, leurs dépendances cachées.

En somme, l’apprentissage subliminal est une forme inédite de contamination comportementale entre intelligences artificielles. Il échappe aux filtres traditionnels, repose sur des mécanismes structurels profonds, et se manifeste dans des contextes d’usage réel. Il remet en question certaines hypothèses fondatrices de l’ingénierie de l’alignement, et soulève des enjeux juridiques réels en matière de responsabilité, de transparence, et de sécurité.

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et intelligence artificielle

Avatar de Inconnu

About Me Philippe Ehrenström

Ce blog présente certains thèmes juridiques en Suisse ainsi que des questions d'actualité. Il est rédigé par Me Philippe Ehrenström, avocat indépendant, LL.M., Yverdon-les-Bains
Cet article, publié dans intelligence artificielle, est tagué , , , , . Ajoutez ce permalien à vos favoris.

Laisser un commentaire