
On dit souvent que les Large Language Models sont des « boîtes noires » – on sait ce que l’on met dedans, les demandes qu’on leur fait, on lit et en apprécie les résultats – mais on ne sait pas ce qui se passe dedans. C’est un peu moins vrai depuis le début de ce pluvieux mois de juin:
Depuis plusieurs années, les modèles de langage (LLM – Large Language Models) comme ceux de la famille GPT ont profondément transformé la manière dont les machines traitent et produisent du texte. Alimentés par des corpus gigantesques, ces systèmes atteignent désormais des capacités linguistiques impressionnantes. Mais derrière ces prouesses se cache une interrogation encore mal résolue : jusqu’à quel point ces modèles retiennent-ils les données sur lesquelles ils ont été entraînés ? La communauté scientifique emploie ici le terme de « mémorisation », qui recouvre en réalité deux dynamiques distinctes. D’une part, la mémorisation volontaire, autrement dit la généralisation, qui consiste pour le modèle à extraire des régularités ou des structures utiles pour produire des textes pertinents. D’autre part, la mémorisation involontaire, qui renvoie à la capacité du modèle à stocker, consciemment ou non, des données précises, parfois mot à mot, tirées du corpus d’entraînement.
L’article de J.X.MORRIS et al., How much do language models memorize ? (arXiv : 2505.24832v2 [cs.CL] 2 juin 2025 – https://arxiv.org/pdf/2505.24832), se penche notamment sur ce second phénomène : combien d’informations spécifiques les modèles conservent-ils, sans qu’on ne leur ait explicitement demandé ? Et comment peut-on le mesurer de manière rigoureuse, sans se contenter de tests empiriques flous ou de suppositions technologiques ? Pour ce faire, les auteurs – affiliés à Meta AI, Google DeepMind, Cornell et NVIDIA – proposent une méthode inédite permettant d’estimer de manière quantitative et formelle la quantité d’information mémorisée par un modèle de langage.
L’enjeu ne se limite pas à une question technique. Pour un juriste, cette capacité de mémorisation soulève des interrogations fondamentales. Si un modèle retient des passages entiers d’œuvres protégées, cela peut constituer une atteinte au droit d’auteur. S’il conserve des données personnelles, même de manière indirecte, la protection de la personnalité et des données peut être mise en danger. Et ce sans compter encore sur les données d’entraînement qui pourraient être couvertes par le secret professionnel.
Pour aborder ce problème, les auteurs commencent par rejeter les méthodes couramment utilisées pour évaluer la mémorisation. En effet, certaines recherches passées ont consisté à demander à un modèle de régurgiter un texte entier afin d’en déduire qu’il l’avait mémorisé. Or cette logique est trompeuse. D’une part, les modèles peuvent générer des séquences précises même si elles ne figurent pas dans les données d’entraînement, simplement parce qu’ils ont appris des règles générales qui y mènent. D’autre part, il est parfois possible de forcer un modèle à produire un contenu en le guidant habilement, sans que cela prouve qu’il en détenait la mémoire exacte.
Afin de contourner ces limitations, l’équipe de chercheurs propose une nouvelle définition de la mémorisation fondée sur des concepts issus de la théorie de l’information. Le cœur de leur approche repose sur une idée simple : si un modèle « connaît » une donnée, alors cette donnée est plus facile à compresser en sa présence. Autrement dit, un texte que le modèle a mémorisé pourra être représenté par un nombre réduit de bits – l’unité élémentaire d’information – comparé à un texte inconnu. En mesurant la différence entre la taille « brute » d’un texte et la manière dont le modèle le compresse, on peut estimer combien d’informations il contient réellement sur ce texte.
Pour garantir la solidité de leur démarche, les auteurs commencent par expérimenter sur des données totalement artificielles : des chaînes aléatoires de bits, sans structure ni sens. Dans ce contexte, il n’est pas possible de généraliser : seul un mécanisme de mémorisation brute peut expliquer les performances d’un modèle. Ces tests permettent alors de mesurer de manière pure la capacité d’un modèle à retenir des informations. Ils montrent que, quelle que soit la taille du corpus, un modèle a une limite au-delà de laquelle il ne peut pas stocker plus d’informations. Cette capacité est estimée à environ 3,6 bits par paramètre pour les modèles de type GPT. Ainsi, un modèle de 100 millions de paramètres pourrait stocker théoriquement jusqu’à 360 millions de bits, soit environ 45 mégaoctets d’information brute.
Lorsque les auteurs appliquent leur méthode à des textes réels, comme ceux présents dans les grands corpus publics, le tableau se complexifie. À mesure que l’on augmente la taille du jeu de données d’entraînement, le modèle cesse progressivement de mémoriser des textes mot pour mot, et commence à apprendre des motifs généraux, applicables à des exemples nouveaux. Ce phénomène, bien connu en apprentissage automatique, est appelé « généralisation ». Il est ici quantifié précisément, et apparaît comme une phase qui succède à celle de la mémorisation brute. Tant que la capacité du modèle n’est pas saturée, il mémorise de manière spécifique. Une fois cette capacité atteinte, il est contraint de dégager des régularités générales pour continuer à apprendre efficacement.
Ce constat donne lieu à un phénomène particulièrement intéressant, connu sous le nom de « double descente ». Dans un premier temps, lorsqu’on augmente la taille du jeu de données, la performance du modèle diminue, car il tente de mémoriser une trop grande quantité d’informations. Mais passé un certain seuil – celui où la généralisation prend le relais – les performances s’améliorent de manière spectaculaire. Ce point de bascule correspond précisément au moment où le modèle cesse de mémoriser chaque exemple individuellement et commence à partager l’information entre les exemples, découvrant ainsi des régularités sous-jacentes.
Les auteurs vont plus loin en proposant une loi d’échelle permettant de prédire la probabilité qu’un texte donné ait été vu par un modèle lors de son entraînement. Cette loi repose sur le rapport entre la capacité du modèle (mesurée en bits) et la taille du jeu de données. Plus ce rapport est faible – c’est-à-dire, plus il y a de données par bit de capacité – moins il est probable qu’un texte donné soit identifiable comme appartenant à l’entraînement. Autrement dit, un grand modèle entraîné sur un corpus très volumineux aura une probabilité très faible de trahir des informations spécifiques, du fait de sa dispersion mémorielle. Cela a des conséquences directes sur la possibilité de mener des attaques dites « d’inférence d’appartenance », où l’on cherche à déterminer si un texte donné faisait partie du jeu d’entraînement du modèle. Ces attaques deviennent de moins en moins efficaces à mesure que le corpus s’élargit.
Une autre conclusion majeure de l’article est que l’augmentation de la précision des calculs internes du modèle (passer de 16 à 32 bits par exemple) n’augmente que marginalement la capacité de mémorisation. Cela suggère que la limitation principale réside non pas dans les détails techniques de la représentation des paramètres, mais dans l’architecture même des modèles et leur capacité à encoder de l’information utile.
Dans leurs expérimentations sur des textes réels, les auteurs montrent également que certains exemples, notamment ceux qui sont très fréquents ou répétitifs, sont davantage mémorisés que d’autres. Cela soulève des questions éthiques et juridiques importantes : si un modèle retient mieux des extraits de livres populaires ou des textes juridiques souvent cités, cela pourrait accroître les risques de reproduction non autorisée [mais aussi entraîner un « gel » de l’information produite en bout de processus – les mêmes jurisprudences, toujours citées…].
Enfin, les chercheurs confrontent leur modèle théorique aux résultats empiriques obtenus sur des modèles de différentes tailles (de 500 000 à plus de 1,5 milliard de paramètres). Ils trouvent une concordance remarquable entre les prédictions théoriques de leur loi d’échelle et les résultats observés. Cela confère à leur méthodologie une robustesse qui en fait un outil potentiellement précieux pour les développeurs, mais aussi pour les régulateurs et les juristes souhaitant évaluer la conformité des modèles d’IA à des standards de protection de la vie privée ou de respect des droits d’auteur.
En définitive, cette recherche constitue une avancée intéressante dans la compréhension des mécanismes internes des modèles de langage. Elle établit, pour la première fois, une mesure objective de ce qu’un modèle « sait » réellement d’un corpus donné, en distinguant de manière claire la généralisation utile de la mémorisation brute. Pour les professionnels du droit, ce cadre analytique ouvre la voie à des évaluations plus fines des risques juridiques associés à l’usage de ces technologies. Il permet notamment d’identifier les cas où un modèle est susceptible de reproduire des données sensibles ou protégées, et d’évaluer la gravité de ces cas selon la taille du modèle, son type d’entraînement, et la nature des données utilisées.
Me Philippe Ehrenström, avocat, LLM, CAS en Droit et Intelligence artificielle