Mémorisation et droit d’auteur dans les modèles d’IA

Quelques réflexions tirées de James Grimmelmann & A. F. Cooper, The Files are in the Computer: On Copyright, Memorization, and Generative AI, 100 Chi.-Kent L. Rev. 141 (2025)  (Available at: https://scholarship.kentlaw.iit.edu/cklawreview/vol100/iss1/9):

L’article est consacré à la notion de « mémorisation » dans les modèles d’intelligence artificielle générative et à ses implications en droit d’auteur.

À travers un examen approfondi des concepts, des mécanismes techniques et des controverses judiciaires en cours, les auteurs cherchent à donner aux juristes une base technique solide leur permettant de saisir la nature exacte de la mémorisation et de la distinguer d’autres notions proches, afin d’éviter que le droit ne repose sur des approximations.

L’analyse prend comme point de départ l’affaire initiée par le New York Times contre OpenAI et Microsoft à la fin de l’année 2023. Le journal reprochait à ChatGPT et à Bing Copilot d’avoir « mémorisé » des articles publiés dans ses colonnes, de telle sorte qu’en fournissant un extrait d’un article comme amorce, le modèle produisait un texte restituant presque mot pour mot la suite de l’article. Pour le Times, il s’agissait d’une reproduction illicite et donc d’une violation flagrante du droit d’auteur. OpenAI, au contraire, soutenait que de tels résultats étaient obtenus uniquement par des manipulations particulières de l’outil, constitutives d’un usage dit « adversarial », et qu’ils ne représentaient pas le fonctionnement normal du système. Ainsi s’opposaient deux visions : celle d’un modèle qui aurait en lui-même intégré et stocké illégalement des contenus protégés, et celle d’un simple outil statistique neutre dont les sorties dépendent essentiellement de l’usage qu’en font les utilisateurs.

Les auteurs montrent que ce désaccord tient en réalité à une confusion conceptuelle autour de la notion de mémorisation. Ils insistent sur le fait que l’on ne peut se contenter de métaphores vagues telles que « corrélations statistiques » ou « motifs », qui masquent ce qui se passe réellement dans les paramètres du modèle. Une approche juridique sérieuse doit s’appuyer sur une compréhension technique précise. C’est dans ce but que l’essai propose une définition rigoureuse : un modèle a mémorisé une donnée d’entraînement lorsqu’il est possible d’en reconstruire une copie exacte ou quasi exacte d’une portion substantielle.

Cette définition met en évidence plusieurs conséquences importantes.

Premièrement, la mémorisation n’est pas synonyme de l’ensemble des processus d’apprentissage : la plupart des capacités des modèles génératifs relèvent de la généralisation et de la recombinaison créative des données, mais cela n’exclut pas l’existence ponctuelle de mémorisation brute.

Deuxièmement, la mémorisation intervient lors de la phase d’entraînement et non au moment de la génération. Lorsqu’un modèle restitue mot pour mot un passage, il ne crée pas la mémorisation sur le moment : il manifeste simplement un état latent déjà acquis.

Troisièmement, en droit d’auteur, un modèle contenant des données mémorisées peut être considéré comme une copie de ces données, même si elles ne sont pas immédiatement visibles.

Quatrièmement, à la différence d’un magnétoscope ou d’un outil de copie neutre, le modèle ne se contente pas de reproduire mécaniquement : il incorpore certains éléments plus que d’autres, et ces choix tiennent à la manière dont il a été entraîné.

Cinquièmement, la mémorisation existe indépendamment de l’intention des utilisateurs. Ce n’est pas seulement le fruit de sollicitations malveillantes, mais une propriété inhérente du modèle.

Sixièmement, l’ampleur de la mémorisation dépend des choix techniques des développeurs : taille et nature du jeu de données, méthode d’entraînement, ajustements fins.

Septièmement, même une fois la mémorisation intégrée, il est possible d’en limiter l’apparition dans les sorties en ajoutant des garde-fous au niveau du système global, comme des filtres d’entrée et de sortie ou des comparaisons avec des bases de données externes.

Pour illustrer ces mécanismes, l’article consacre une première partie à l’explication technique des modèles génératifs et des chaînes de production dans lesquelles ils s’insèrent. Les auteurs rappellent que, derrière la diversité des applications — chatbots, générateurs d’images, de musique, de vidéos ou d’assistants de programmation — se cache une architecture commune. Les modèles sont entraînés sur des ensembles massifs de données, découpés en unités appelées « tokens », et cherchent à en dégager des distributions statistiques. Contrairement à des modèles discriminatifs qui se contentent de classer, les modèles génératifs produisent de nouvelles données du même type que celles de l’entraînement. Le processus repose sur des réseaux neuronaux qui ajustent des milliards de paramètres, puis génèrent des sorties par une procédure de prédiction itérative des prochains tokens.

Cette approche statistique permet une créativité apparente, en recomposant des corrélations de styles, de concepts ou de structures. Mais elle comporte aussi la possibilité de reproduire textuellement des fragments du corpus.

Les auteurs insistent également sur la complexité de la chaîne de valeur. Le modèle n’est qu’un maillon dans un ensemble plus large comprenant la collecte et la curation des données, la phase de pré-entraînement sur des bases générales, l’éventuel affinement sur des données spécifiques, l’intégration du modèle dans un système logiciel avec interface et filtres, puis l’alignement par renforcement sur des préférences humaines. Chaque étape implique des acteurs différents et des choix techniques ou économiques ayant des incidences juridiques. C’est pourquoi une approche juridique globale doit tenir compte de l’ensemble de la chaîne plutôt que de se focaliser sur un seul moment.

La deuxième partie, cœur de l’article, développe une typologie précise des notions de mémorisation et de ses manifestations. Trois termes doivent être distingués. L’« extraction » désigne le cas où un utilisateur, par un prompt ciblé, obtient volontairement la copie exacte d’un élément d’entraînement. La « régurgitation » correspond à la génération spontanée par le modèle d’une telle copie, indépendamment de l’intention de l’utilisateur. Enfin, la « reconstruction » vise la capacité à obtenir la copie par n’importe quel moyen, pas nécessairement via le processus habituel de génération.

Ces distinctions permettent de mieux comprendre les débats judiciaires : lorsqu’un modèle régurgite un article, c’est la preuve qu’il l’avait mémorisé, et non la cause de la mémorisation. La présence d’une œuvre dans le modèle suffit à caractériser la reproduction, peu importe le degré de difficulté à l’extraire.

Les auteurs s’attardent ensuite sur la manière dont la mémorisation s’inscrit dans les paramètres du modèle. Les « motifs » et « corrélations » abstraits que décrivent les entreprises incluent en réalité aussi des formes de copie quasi textuelle. La mémorisation peut être vue comme une compression extrême, où certains fragments sont conservés tels quels. Le caractère non déterministe de la génération — le fait qu’un même prompt puisse donner des résultats différents — ne change pas cette réalité : même si la reproduction n’apparaît pas systématiquement, la donnée mémorisée demeure stockée dans les poids du modèle.

La question de la quantité mémorisée est plus délicate. Les chercheurs tentent de la mesurer par des expériences d’extraction, mais les résultats varient selon la taille et la nature des modèles. Il est impossible de réduire cela à un chiffre unique, comme « un pour cent du corpus ». Il faut plutôt admettre une variabilité importante. En outre, les modèles ne se limitent pas à mémoriser : ils généralisent aussi, produisant des contenus nouveaux. La coexistence de ces deux capacités brouille les analogies trop simples. Les auteurs critiquent par exemple l’analogie avec les magnétoscopes, avancée pour minimiser la responsabilité des développeurs. Un magnétoscope ne contient pas en lui-même des copies d’œuvres ; un modèle qui a mémorisé des données, si. Cette différence est essentielle pour le droit d’auteur.

L’article aborde aussi la figure de l’« utilisateur adversarial », mise en avant par les défendeurs pour rejeter la faute sur des usagers abusifs. Les auteurs estiment que cette approche est trompeuse : la possibilité d’extraction découle des propriétés intrinsèques du modèle, non de comportements marginaux. Si un utilisateur peut obtenir une copie, c’est que la donnée est présente. La responsabilité ne saurait être évacuée aussi simplement.

Enfin, les auteurs replacent le modèle dans l’écosystème plus large du système d’IA générative. Même si la mémorisation est inévitable, il existe des moyens de réduire le risque de régurgitation publique : limiter les prompts acceptés, filtrer les sorties, comparer avec des bases de données de références, voire réentraîner le modèle. Ces choix techniques montrent que la responsabilité juridique pourrait se distribuer à plusieurs niveaux : la conception du jeu de données, l’entraînement, mais aussi la mise en œuvre des garde-fous.

La conclusion de l’article, formulée dans un style plus réflexif, souligne que le débat autour de la mémorisation est encore jeune et parfois parasité par des incompréhensions conceptuelles. Les auteurs ne prennent pas position sur les solutions juridiques à adopter ni sur l’issue des procès en cours, mais insistent sur la nécessité de bâtir les raisonnements sur une base technique correcte. Ils rappellent que la définition de la copie en droit d’auteur, centrée sur la fixation matérielle d’une œuvre, doit être éclairée par la compréhension du fonctionnement réel des modèles. Les enjeux dépassent le seul copyright et touchent aussi à la vie privée et à l’éthique de l’IA, mais l’urgence actuelle est de clarifier le vocabulaire et de ne pas laisser les tribunaux décider à partir de concepts flous. En définitive, l’article invite les juristes à se détourner des analogies simplistes et des débats rhétoriques pour regarder ce qui se passe « dans l’ordinateur », là où résident les fichiers, c’est-à-dire dans les paramètres des modèles.

La mémorisation est réelle, mesurable, et distincte de la généralisation. Elle est inscrite dans la structure même des modèles. Elle peut être limitée, mais non effacée par une simple dénégation. C’est sur cette réalité que doit se construire toute réflexion juridique sur le droit d’auteur à l’ère de l’intelligence artificielle générative.

(L’article est paru dans les actes du colloque AI Disrupting, sous la direction du Professeur Edward Lee, Chicago – Kent Law Revie, vol.  100, Issue 1 (2025), en libre accès ici : https://scholarship.kentlaw.iit.edu/cklawreview/)

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et Intelligence Artificielle

Avatar de Inconnu

About Me Philippe Ehrenström

Ce blog présente certains thèmes juridiques en Suisse ainsi que des questions d'actualité. Il est rédigé par Me Philippe Ehrenström, avocat indépendant, LL.M., Yverdon-les-Bains
Cet article, publié dans droit d'auteur, Droit US, intelligence artificielle, est tagué , , . Ajoutez ce permalien à vos favoris.

Laisser un commentaire