Ce qui se passe dans la boîte noire (ii) : la mémorisation dans les Large Language Models

On lève de plus en plus le voile de ce qui passe dans la « boîte noir » de l’intelligence artificielle.

Quelques notes (sans prétendre être exhaustif) sur A. Feder Cooper et James Grimmelmann, The Files Are in the Computer: Copyright, Memorization, and Generative AI, à paraître dans la Chicago Kent Law Review, 2025 (https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4803118):

Introduction

Que signifie « mémoriser » dans le contexte des modèles génératifs d’intelligence artificielle (IA) tels que les grands modèles de langage (LLMs) ? Cette interrogation est cruciale notamment pour évaluer si les sorties générées par ces systèmes violent le droit d’auteur.

1. Learning and Memorizing

Cette première section distingue deux mécanismes fondamentaux dans les modèles d’IA : l’apprentissage (learning) et la mémorisation (memorizing). Contrairement à ce qu’on pourrait croire, un modèle n’apprend pas « comme un humain ». Il n’a pas de mémoire explicite mais encode des millions d’exemples en les compressant dans ses paramètres.

Cependant, il arrive que des modèles récitent textuellement des passages de leurs données d’entraînement. Ces reproductions exactes sont rares mais réelles. Les auteurs les appellent des cas de « memorization events ». L’enjeu ici est de déterminer si une telle reproduction relève du fonctionnement statistique normal d’un modèle ou d’un défaut susceptible d’engager la responsabilité juridique.

Les auteurs défendent l’idée que la mémorisation n’est pas un bug mais une conséquence naturelle du surapprentissage (overfitting). Cette propriété technique devient problématique lorsqu’elle conduit à restituer des éléments protégés par le droit d’auteur.

2. Copyright and Memorization

Dans cette section, les auteurs examinent ce que le droit d’auteur dit de la mémorisation, en particulier en common law, mais avec des échos qui peuvent intéresser le droit suisse.

Ils commencent par rappeler que la loi protège l’expression originale d’une œuvre, pas les idées ou les faits. Cela signifie que pour établir une violation du droit d’auteur, il faut montrer qu’il y a eu une copie de l’expression, pas seulement une reproduction de style ou de structure.

Or, les modèles génératifs comme GPT ne conservent pas les données d’entraînement comme dans une base de données ; ils apprennent des représentations statistiques. Ce qui pose problème, c’est lorsqu’un modèle génère une sortie identique ou substantiellement similaire à une œuvre protégée. Les auteurs rappellent les critères du droit d’auteur pour évaluer la copie : accès, similarité substantielle, et causalité.

La difficulté ici vient de l’autonomie des modèles : ils ne « choisissent » pas de copier. Ils fonctionnent sur la base de probabilité. Peut-on alors tenir les concepteurs ou utilisateurs pour responsables ? Cette question appelle une réponse nuancée.

3. Types of Memorization

Les auteurs proposent une typologie des formes de mémorisation pour éclairer le débat juridique. Ils en identifient trois principales :

Training Data Memorization : le modèle restitue exactement une séquence issue de son jeu d’entraînement. C’est la forme la plus évidente de reproduction problématique.

Prompt-Specific Memorization : un contenu est restitué uniquement si une requête très spécifique est formulée. Cela soulève la question de la responsabilité de l’utilisateur plutôt que du concepteur du modèle.

Broad Generalization : le modèle intègre des styles, thèmes ou motifs sans reproduire une œuvre spécifique. Cette généralisation est souvent licite, mais peut parfois frôler la contrefaçon si elle imite trop fidèlement une œuvre protégée.

Cette classification permet de mieux articuler les responsabilités potentielles selon les cas.

4. Memorization as a Design Problem

Les auteurs abordent ici la mémorisation non pas comme une simple conséquence technique, mais comme un enjeu de conception. Les ingénieurs peuvent limiter la mémorisation par diverses techniques : régularisation, dédupliquation des données, filtrage, etc.

Ils soulignent cependant que l’industrie ne s’accorde pas sur un seuil ou une norme de mémorisation acceptable. Certains cas sont considérés comme tolérables pour des raisons de performance ou de sécurité (comme la mémorisation de définitions médicales), alors que d’autres posent un risque juridique majeur.

Ce flou crée une zone d’insécurité juridique : jusqu’où un développeur doit-il aller pour éviter que son modèle mémorise ? L’article insiste sur la nécessité d’une évaluation casuistique fondée sur les usages et les contextes spécifiques.

5. Memorization as a Legal Problem

Cette section approfondit les conséquences juridiques de la mémorisation. Les auteurs reviennent sur la notion de copie « substantielle » et soulignent que les juges ont déjà tranché des affaires de mémorisation non intentionnelle dans le passé (notamment dans la musique).

Ils proposent de penser la mémorisation comme une reproduction involontaire, mais néanmoins juridiquement pertinente. Ils insistent sur le rôle de l’accès aux données, la proximité textuelle et l’effet de marché. Une IA qui récite un poème protégé, même sans intention, peut nuire à l’exploitation de l’œuvre.

Ils appellent à une jurisprudence plus attentive aux spécificités techniques de l’IA, afin d’éviter deux écueils : accorder une immunité trop large aux concepteurs, ou à l’inverse imposer des normes irréalistes à des technologies probabilistes.

6. Should Copyright Law Prohibit Memorization?

La question finale posée est provocante : faut-il interdire purement et simplement la mémorisation par les IA ? Les auteurs répondent non, en principe. La mémorisation, dans une certaine mesure, est une conséquence inévitable de l’apprentissage.

Cependant, ils plaident pour une approche équilibrée : définir des critères clairs pour identifier les cas problématiques, exiger de la transparence sur les données utilisées, et prévoir des mécanismes correctifs (comme le retrait d’œuvres sur demande).

Ils soulignent aussi l’importance de distinguer entre formation, déploiement et usage. La responsabilité ne devrait pas être unique, mais distribuée selon les étapes et les acteurs impliqués.

Conclusion

En conclusion, l’article appelle à une réflexion plus nuancée sur la notion de mémorisation dans l’IA générative. Les modèles ne copient pas comme des photocopieuses, mais leur comportement peut parfois s’apparenter à une reproduction illégale. Pour les juristes, il s’agit d’adapter les concepts classiques à des mécanismes techniques nouveaux, sans céder aux simplifications.

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et Intelligence artificielle

Ce qui se passe dans la boîte noire (ii) : la mémorisation dans les Large Language Models

About Me Philippe Ehrenström

Laisser un commentaire Annuler la réponse.

Articles récents

Catégories

Méta

S'abonner au blog via courriel

Ce qui se passe dans la boîte noire (ii) : la mémorisation dans les Large Language Models

Partager:

Similaire

About Me Philippe Ehrenström

Laisser un commentaire Annuler la réponse.

Articles récents

Catégories

Méta

S'abonner au blog via courriel