Ce qui se passe dans la boîte noire (III) : l’IA peut-elle désapprendre ce qu’elle a appris ?

L’article de Hutson, Jevan ; Whitney, Cedric and Conrad, Jay, Forget Me Not? Machine Unlearning’s Implications for Privacy Law (May 09, 2025) (Available at SSRN: https://ssrn.com/abstract=5291500) explore les implications juridiques du désapprentissage machine (machine unlearning), une technique émergente au croisement du droit de la protection des données et des technologies de l’intelligence artificielle, en particulier dans le contexte des modèles génératifs.

L’article s’ouvre sur un constat de tension croissante entre l’architecture des modèles d’intelligence artificielle modernes et les attentes normatives du droit à la vie privée. Alors que le droit impose aux responsables de traitement d’effacer les données personnelles à la demande des personnes concernées — conformément à des droits tels que ceux énoncés à l’article 17 du RGPD ou aux équivalents américains comme le California Consumer Privacy Act —, les modèles d’IA, eux, ne fonctionnent plus comme des bases de données classiques dans lesquelles il serait simple de supprimer une ligne. Une fois les données personnelles « digérées » par le modèle au cours de l’entraînement, elles sont intégrées de façon diffuse dans ses milliards de paramètres. L’effacement ne revient donc pas à supprimer une entrée mais à tenter d’éliminer une trace désormais inscrite dans les dynamiques internes du modèle lui-même. C’est dans cette zone grise que s’insère le concept d’unlearning.

La première partie de l’article est consacrée à la synthèse des travaux en informatique sur l’unlearning. Il s’agit d’un ensemble de méthodes qui visent, chacune à leur manière, à réduire ou annuler l’influence d’un point de données spécifique dans un modèle déjà entraîné. Trois grandes familles de techniques sont présentées. La première regroupe les méthodes dites structurelles. Leur logique consiste à modifier la structure du modèle ou à le réentraîner partiellement, de manière à ce que le modèle final fonctionne comme s’il n’avait jamais vu les données à effacer. Un exemple paradigmatique en est la méthode SISA, qui divise les données en « shards » — des sous-ensembles isolés — et entraîne sur chacun d’eux un sous-modèle. Lorsqu’une demande de suppression est faite, seul le sous-modèle ayant traité les données concernées est réentraîné, ce qui limite considérablement les coûts. Une autre méthode, ARCANE, pousse plus loin l’idée en répartissant les données selon leur nature sémantique, confiant chaque domaine à un réseau d’experts spécifique, facilitant ainsi une suppression ciblée. Ces approches sont solides mais lourdes à mettre en œuvre, tant en termes de puissance de calcul que de gouvernance de l’architecture du système.

La deuxième famille rassemble les méthodes dites approximatives. Elles interviennent après l’entraînement complet du modèle et cherchent à « effacer » l’influence d’un jeu de données par des ajustements ciblés des poids internes. C’est un compromis entre efficacité juridique et coût opérationnel. La méthode Descent-to-Delete, par exemple, applique des gradients inversés pour désapprendre des données particulières sans tout reconstruire. Une autre approche, connue sous le nom de Fisher-scrubbing, identifie les poids les plus influencés par les données à oublier et y injecte du bruit aléatoire calibré. Ces méthodes sont attrayantes pour les prestataires de services qui n’ont plus accès aux données d’origine ou qui souhaitent éviter un nouveau cycle d’entraînement complet. Elles sont aussi bien adaptées aux cas d’usage modestes, mais leur robustesse en matière de conformité reste incertaine : elles ne garantissent pas l’absence totale de résidus exploitables par des attaques statistiques.

La troisième catégorie est celle des méthodes de suppression d’output. Celles-ci ne modifient pas le modèle en lui-même mais restreignent ce qu’il peut produire. C’est la stratégie des modèles qui répondent « je ne peux pas vous aider » lorsqu’une requête pose un risque de divulgation. Cette forme de suppression repose soit sur l’apprentissage par renforcement avec retour humain (RLHF), soit sur des règles logiques intégrées dans le prompt système. Des filtres externes, comme ceux utilisés dans les API de modération, permettent également de bloquer certaines sorties avant qu’elles n’atteignent l’utilisateur final. Cette méthode est très utilisée dans les systèmes commerciaux car elle est rapide, peu coûteuse et facilement déployable. Toutefois, elle ne répond en rien à la question juridique de la suppression effective de la donnée source, car l’information reste présente dans les poids du modèle. Elle constitue donc une forme de contournement pragmatique qui peut, dans certains contextes réglementaires, être perçue comme insuffisante.

La fin de cette première partie compare les trois approches selon plusieurs critères : conformité aux normes juridiques (notamment le droit à l’effacement), coût computationnel, scalabilité, et robustesse aux attaques adversariales. Il en ressort que seul le désapprentissage structurel permettrait — dans les hypothèses les plus favorables — de satisfaire les exigences du droit à l’effacement tel que formulé par le RGPD. Les méthodes approximatives sont utiles dans un contexte de compliance partielle, mais ne permettent pas de garantir l’absence de résidus. Enfin, les techniques de suppression d’output sont faciles à mettre en place, mais n’ont pas de valeur juridique probante en matière d’effacement.

La deuxième partie de l’article analyse comment ces techniques d’unlearning s’articulent, ou non, avec les exigences substantielles des régimes de protection des données. Les auteurs commencent par rappeler les grands principes du droit de la vie privée : la collecte licite et loyale, la limitation des finalités, la minimisation des données, la qualité et exactitude des données, ainsi que les droits individuels à l’accès, à la rectification, à l’opposition, au retrait du consentement et à l’effacement. Ces principes sont exprimés dans divers textes comme le RGPD (en Europe), le CCPA (aux États-Unis) ou la LPD suisse. Mais les modèles d’IA générative, par leur nature, entrent en tension avec ces exigences. Un modèle génératif ne se contente pas de stocker des données : il apprend des régularités, les généralise, et produit de nouvelles occurrences à partir de ces abstractions. Ainsi, supprimer un document source ne garantit pas que le modèle ne pourra plus générer une réponse inspirée par ce document.

L’article souligne plusieurs tensions conceptuelles majeures. Premièrement, la suppression post-hoc d’un point de données n’efface pas nécessairement ses effets latents. Deuxièmement, l’influence de ces données peut avoir été diffusée dans l’espace des représentations internes du modèle et ne peut donc pas être tracée de manière précise. Troisièmement, les attaques d’inférence, qui comparent les comportements d’un modèle avant et après un processus de suppression, peuvent paradoxalement révéler qu’un point a été supprimé, exposant ainsi la personne concernée à un nouveau risque de réidentification. L’unlearning, loin de garantir une protection absolue, peut devenir un vecteur d’exposition supplémentaire. Cette perspective soulève une question épineuse : dans quelle mesure un modèle qui conserve la capacité de reproduire un contenu — même de manière approximative — peut-il être considéré comme conforme à une obligation d’effacement ?

Dans sa troisième partie, l’article s’efforce de dépasser le diagnostic critique pour proposer des pistes opérationnelles. Les auteurs articulent un cadre d’action pour intégrer le machine unlearning dans les pratiques réglementaires. Ce cadre repose sur une combinaison de mesures préventives et réactives. Parmi les mesures préventives, ils recommandent la mise en place d’architectures respectueuses de la vie privée dès la conception du modèle, le recours à l’apprentissage différentiel ou à des méthodes de partition des données qui facilitent leur traçabilité et leur suppression ultérieure. Du côté des mesures correctives, l’article évoque le modèle de la « destruction algorithmique » (algorithmic disgorgement), concept déjà mobilisé par la FTC dans certaines décisions récentes, qui impose la suppression des modèles eux-mêmes lorsqu’ils ont été construits sur la base de données illégitimement acquises. À cela s’ajoutent les protocoles de suppression ciblée ou d’effacement sélectif, notamment dans le cadre de règlements amiables ou d’injonctions administratives.

Le cadre proposé inclut également des mécanismes d’enquête, des audits réguliers, et une meilleure gouvernance de la traçabilité des données. Les auteurs insistent particulièrement sur la nécessité d’éviter les approches technocratiques qui transformeraient la protection de la vie privée en simple problème d’ingénierie, au détriment des objectifs substantiels. Ils plaident pour un équilibre entre réalisme opérationnel, efficacité juridique et lisibilité réglementaire. Dans cette perspective, le rôle des autorités de protection des données devient central. Celles-ci doivent non seulement fixer des normes techniques minimales pour l’unlearning, mais aussi renforcer leurs outils d’enquête afin de pouvoir vérifier la réalité des processus de suppression invoqués par les responsables de traitement.

Enfin, la conclusion réaffirme que le machine unlearning ne saurait constituer à lui seul une réponse adéquate aux exigences du droit à l’effacement. Il ne s’agit ni d’une panacée, ni d’un substitut aux autres garanties de la protection des données. En revanche, lorsqu’il est intégré dans un cadre de gouvernance plus large, reposant sur la combinaison de plusieurs mesures (minimisation, consentement explicite, suppression ex-ante, auditabilité, etc.), l’unlearning peut jouer un rôle utile dans la protection des personnes. Il devient un outil parmi d’autres dans la boîte à outils de la régulation algorithmique.

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et intelligence artificielle

Ce qui se passe dans la boîte noire (III) : l’IA peut-elle désapprendre ce qu’elle a appris ?

About Me Philippe Ehrenström

Laisser un commentaire Annuler la réponse.

Articles récents

Catégories

Méta

S'abonner au blog via courriel

Ce qui se passe dans la boîte noire (III) : l’IA peut-elle désapprendre ce qu’elle a appris ?

Partager:

Similaire

About Me Philippe Ehrenström

Laisser un commentaire Annuler la réponse.

Articles récents

Catégories

Méta

S'abonner au blog via courriel