Le désapprentissage machine et le droit à l’effacement: difficultés pratiques

L’article de X.WU/Y.PANG/T.LIU/Z.W.WU, Unlearned but Not Forgotten : data Extraction after Exact Unlearning in LLM, arXiv : 2505.24379v3 [cs.LG], 22 octobre 2025 (https://arxiv.org/abs/2505.24379) traite de la question suivante : que se passe-t-il quand on veut faire « oublier » des données personnelles à un grand modèle de langage, alors que ce modèle a déjà été diffusé ou utilisé, et qu’un attaquant peut comparer l’état du modèle avant et après cet effacement ? Les auteurs montrent que, dans ce cas, les techniques actuelles de « désapprentissage » ne suffisent pas à protéger les données. Au contraire, disposer de deux versions du même modèle – l’ancienne, qui a vu les données, et la nouvelle, censée les avoir oubliées – donne à un attaquant un avantage pour reconstituer précisément les informations qui auraient dû disparaître.

L’article part du constat que les grands modèles de langage sont entraînés sur d’immenses corpus, souvent collectés de manière large sur Internet, et qu’ils intègrent ainsi, sans filtrage exhaustif, des informations personnelles ou sensibles. Il est désormais bien établi que ces modèles peuvent, dans certains cas, reproduire mot pour mot des passages de leurs données d’entraînement, par exemple des biographies, des extraits de dossiers ou des notes. Ce phénomène de mémorisation pose un problème au regard du droit à l’effacement prévu par des textes comme le RGPD européen ou des lois américaines sur la protection des données. En pratique, les fournisseurs de modèles sont donc poussés à mettre en place des procédures permettant de retirer, a posteriori, certaines données d’entraînement lorsqu’une personne en fait la demande.

Les chercheurs rappellent qu’il existe deux grandes familles de techniques pour faire « oublier » des données à un modèle. La première consiste à modifier légèrement le modèle existant pour le rendre moins enclin à reproduire certains contenus. Cela peut passer par une nouvelle phase d’entraînement ciblée, destinée à pénaliser les sorties indésirables. Ces méthodes sont relativement simples et peu coûteuses, mais il est difficile de garantir qu’elles effacent réellement toute trace des données et qu’un attaquant déterminé ne pourra pas en tirer davantage d’informations. La seconde famille, plus ambitieuse, consiste à obtenir un modèle qui se comporte comme s’il n’avait jamais vu les données à effacer. La façon la plus directe d’y parvenir est de réentraîner le modèle à partir du point de départ initial, en excluant les données à oublier. Ce « réentraînement propre » est souvent présenté comme la solution de référence, supposée offrir une protection élevée, et parfois implicitement utilisée dans les discours marketing ou juridiques pour répondre aux exigences d’effacement.

Toute l’originalité de l’article est de montrer que cette confiance est problématique lorsque l’on prend au sérieux un scénario d’attaque réaliste. Les auteurs supposent qu’un modèle est d’abord diffusé ou accessible via une API, puis que le fournisseur applique un désapprentissage « propre » pour retirer certaines données, et met ensuite à disposition une nouvelle version du modèle. Un attaquant raisonnablement puissant peut avoir conservé l’ancienne version, ou au moins des enregistrements de ses réponses à certains appels. Il peut également avoir accès à un fragment de la donnée à oublier, par exemple l’identité d’un patient, quelques métadonnées ou le début d’un texte. L’article montre que la comparaison systématique entre les deux versions du modèle, combinée à ces bribes d’information, permet de reconstruire de manière beaucoup plus précise le texte d’origine que si l’attaquant n’avait accès qu’au modèle ancien.

Sur le plan intuitif, la stratégie d’attaque est la suivante. Le modèle avant désapprentissage a, en quelque sorte, appris les détails des données à effacer. Le modèle après désapprentissage a été réentraîné sans ces données, de sorte qu’il s’en éloigne principalement sur les passages où ces données jouaient un rôle. En observant ce qui change dans les réponses du modèle d’une version à l’autre, on peut donc isoler un « signal » qui correspond à l’influence des données supprimées. L’attaquant utilise alors simultanément les deux modèles pour compléter le texte à partir du fragment qu’il connaît déjà. À chaque étape de la génération, il regarde la tendance de l’ancien modèle et celle du nouveau modèle, puis combine ces informations de manière à accentuer ce qui distingue vraiment les deux versions. Ce procédé guide la génération vers ce que l’ancien modèle a retenu de la donnée, tout en conservant la cohérence générale du texte. Il en résulte des reconstructions bien plus fidèles que si l’on se contentait de demander naïvement à l’ancien modèle de compléter le texte.

Les auteurs mettent au point une procédure concrète pour appliquer cette idée et l’affinent pour éviter que la génération ne devienne incohérente ou trop « forcée ». Ils mettent en place un mécanisme de filtrage des mots proposés, de manière à ne retenir, à chaque étape, que les mots jugés plausibles dans le contexte par l’ancien modèle. Au sein de cette liste restreinte, ils privilégient ensuite les mots qui sont fortement favorisés par l’ancienne version par rapport à la nouvelle. La génération est faite de manière déterministe, sans hasard, ce qui permet de reproduire et de mesurer précisément les performances de l’attaque.

L’article décrit ensuite une série d’expériences sur plusieurs jeux de données. Les auteurs utilisent deux modèles de base connus dans la communauté, qu’ils adaptent à différentes tâches : des textes d’actualité, des biographies fictives et un corpus biomédical. Dans chaque cas, ils construisent un modèle « avant effacement » en l’entraînant sur l’ensemble des données, puis un modèle « après effacement » en le réentraînant depuis le point de départ sans les données à oublier, qui représentent typiquement une petite fraction du corpus. Ils comparent alors trois situations : l’attaque guidée exploitant les deux versions du modèle, l’utilisation simple de l’ancien modèle, et l’utilisation simple du nouveau modèle censé avoir oublié les données. Leurs mesures montrent que l’ancienne version du modèle, utilisée seule, permet déjà de retrouver certains passages d’entraînement, conformément à d’autres travaux sur la fuite de données. Mais la méthode guidée, qui exploite l’écart entre les deux versions, améliore nettement le taux de reconstructions fidèles, parfois en le doublant. En revanche, la nouvelle version du modèle, utilisée seule, génère beaucoup moins souvent les textes originaux, ce qui montre que l’effacement semble efficace si l’on regarde uniquement le modèle final.

Pour illustrer les risques en pratique, les auteurs construisent un jeu de données de dossiers médicaux synthétiques, au format des notes cliniques standard, comprenant pour chaque patient des éléments d’identification, la date de la consultation et un récit structuré des symptômes, des constatations et du plan de traitement. Ils simulent ensuite une demande d’effacement portant sur une partie de ces notes. Dans ce contexte, ils montrent que si un attaquant connaît simplement l’identité du patient, sa date de naissance et la date de consultation, et qu’il dispose des deux versions du modèle, il peut reconstituer beaucoup plus précisément l’intégralité de la note clinique, y compris des détails sur les symptômes et le diagnostic. Selon leurs mesures, le fait d’exploiter les deux modèles augmente de manière significative le nombre de cas où le texte généré correspond quasiment mot pour mot à la note d’origine.

Les auteurs examinent également ce qui se passe lorsque le désapprentissage n’est pas réalisé par un réentraînement complet, mais par des méthodes plus approximatives, qui ajustent directement le modèle existant pour le détourner des données à effacer. Ils testent plusieurs approches de ce type et constatent que leur attaque reste en partie efficace, mais que son avantage par rapport à l’utilisation simple de l’ancien modèle se réduit lorsque la qualité du modèle « après effacement » se dégrade fortement. Autrement dit, on retrouve une tension classique entre utilité et protection : les méthodes qui rendent l’attaque plus difficile sont souvent celles qui détériorent le plus les performances du modèle sur ses tâches principales.

L’article explore enfin quelques pistes de défense. Une première idée consiste à ajouter, lors du réentraînement, de grandes quantités de nouvelles données qui n’ont rien à voir avec celles à oublier, pour « diluer » l’effet de leur retrait. Les expériences montrent que cela réduit quelque peu la force de l’attaque, mais ne la neutralise pas : même en ajoutant beaucoup plus de nouvelles données que de données supprimées, le simple fait de disposer de deux versions du modèle reste exploitable. Une autre approche consiste à ajouter du bruit aléatoire dans le processus d’apprentissage pour rendre le modèle moins précis, dans l’esprit de certaines techniques de confidentialité mathématiquement garanties. Là encore, une quantité importante de bruit finit par réduire l’écart entre les deux versions du modèle, mais au prix d’une baisse marquée de la qualité globale, proche de celle d’un modèle peu ou pas adapté à la tâche.

En conclusion, les auteurs soutiennent que l’on ne peut pas évaluer sérieusement les techniques de désapprentissage en ne regardant que le comportement du modèle final, comme si les versions précédentes n’avaient jamais existé. Dans un monde où les modèles sont publiés, mis en cache, réutilisés dans d’autres systèmes ou observés via des journaux d’appels, il est réaliste de supposer qu’un attaquant dispose d’une forme d’accès à l’« avant » et à l’« après ». Dans ce contexte, le réentraînement sans les données à effacer – présenté comme une solution de référence – ne garantit pas que les données soient, au sens courant ou juridique, « oubliées ».

Pour des praticiens du droit, la conséquence est importante : la conformité au droit à l’effacement ne peut pas se limiter à l’affirmation selon laquelle la version actuelle du modèle ne contient plus certaines données. Il faut également prendre en compte la persistance des anciennes versions, des traces techniques qu’elles ont laissées, et la possibilité qu’un adversaire les exploite, comme dans les scénarios analysés par cet article.

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et Intelligence Artificielle

Avatar de Inconnu

About Me Philippe Ehrenström

Ce blog présente certains thèmes juridiques en Suisse ainsi que des questions d'actualité. Il est rédigé par Me Philippe Ehrenström, avocat indépendant, LL.M., Yverdon-les-Bains
Cet article, publié dans intelligence artificielle, Protection des données, Techno-labrador, est tagué , , . Ajoutez ce permalien à vos favoris.

Laisser un commentaire