Introduction
L’entraînement des modèles de langage de grande taille (LLM – Large Language Models), comme GPT, repose sur l’ingestion massive de contenus textuels et multimédias issus d’Internet. Cette pratique soulève des questions fondamentales en droit d’auteur : les œuvres ainsi utilisées bénéficient-elles d’une protection ? L’entraînement constitue-t-il une exploitation juridique de ces œuvres ? Et surtout : faut-il maintenir ou adapter les règles actuelles de droit d’auteur face à ces nouveaux usages ?
Ce débat oppose (très schématiquement) deux grandes écoles : l’une qui défend la soumission de l’entraînement des IA au droit d’auteur, l’autre qui conteste la pertinence de cette approche, arguant d’un usage qui serait conceptuellement et techniquement distinct de l’exploitation classique d’une œuvre.
I. Les fondements de la protection des données d’entraînement : l’approche classique du droit d’auteur
A. Caractère protégeable des œuvres utilisées
La plupart des données utilisées pour entraîner les LLM proviennent de sources accessibles sur Internet : livres, articles, scripts, discussions en ligne, documents audiovisuels, etc. Une large part de ces contenus remplit les conditions de protection par le droit d’auteur. En Suisse, l’article 2 alinéa 1 de la LDA (https://www.fedlex.admin.ch/eli/cc/1993/1798_1798_1798/fr) prévoit que toute création de l’esprit ayant un caractère individuel est protégée. Il n’est pas nécessaire que l’œuvre soit publiée ou qu’elle ait une valeur esthétique.
Il en va de même dans les systèmes européens (critère d’originalité tel que précisé par la CJUE dans Infopaq, Football Dataco ou Painer), ou américains (critère de « minimal creativity » défini dans Feist). Ainsi, l’essentiel des textes utilisés dans les jeux de données – notamment ceux récupérés via des techniques ede web scraping – relèverait du champ du droit d’auteur.
B. L’acte de reproduction en cause
L’entraînement d’un LLM consiste à copier et traiter ces contenus pour en extraire des régularités linguistiques et statistiques. Même si le but n’est pas la restitution fidèle du contenu, des copies temporaires et permanentes sont générées lors du processus d’entraînement : téléchargement, parsing, tokenisation, vectorisation, etc.
On peut d’abord soutenir que ces actes constituent des reproductions au sens de l’article 10 al. 2 let. a LDA, peu importe qu’il s’agisse de copies transitoires ou que l’œuvre ne soit plus perceptible dans le modèle final (et elle peut l’être dans certaines circonstanxes…). De plus, l’intention (scientifique, commercial, technique) est indifférente dès lors qu’il y a reproduction technique d’un contenu protégé.
C. Une protection renforcée par l’absence d’exception
La LDA prévoit certaines exceptions aux droits d’auteur, mais elles sont restreintes. L’article 24d introduit une exception pour le « text and data mining » (TDM), uniquement à des fins de recherche scientifique. Or, les principaux usages industriels (entraînement par des entreprises technologiques, commercialisation de modèles, exploitation via des API) ne sont pas couverts. Il en va de même pour l’exception de copie transitoire (art. 24a LDA), qui n’est pas applicable dès lors que la copie a une valeur économique indépendante.
Ainsi, dans l’état actuel du droit suisse, l’utilisation d’œuvres protégées pour entraîner un LLM nécessiterait le consentement des titulaires de droits ou une modification législative.
II. L’approche critique : les arguments contre la protection des données d’entraînement
En réaction à cette approche classique, plusieurs auteurs – notamment Rosenthal et Veraldi – développent une position critique, remettant en cause la pertinence de l’application du droit d’auteur à l’entraînement des IA. Leurs arguments sont de plusieurs ordres : techniques, fonctionnels, économiques et conceptuels, dont ceux-ci :
A. Absence de jouissance humaine de l’œuvre
Rosenthal avance que le droit d’auteur protège les utilisations qui permettent une jouissance humaine de l’œuvre (lecture, écoute, visualisation). Or, dans le cadre de l’entraînement d’un LLM, il n’y a pas de restitution à destination d’un public, mais uniquement un traitement statistique du langage.
L’œuvre est analysée, fragmentée, réduite à des tokens, puis transformée en associations de paramètres. Ce processus ne vise ni la représentation, ni la communication de l’œuvre en tant que telle. L’utilisateur final du LLM n’accède jamais au contenu original.
B. Le modèle n’enregistre pas les œuvres
Le modèle final n’est pas une base de données d’œuvres, mais une fonction mathématique (un réseau de neurones) qui encode des probabilités linguistiques. La plupart des œuvres « disparaissent » au terme du processus (effet de dilution ou fading).
Selon cette vision, il n’y aurait pas de reproduction persistante, mais une extraction de connaissance linguistique – ce que Rosenthal compare à l’apprentissage humain : un individu lit des textes, en retient les règles grammaticales et le style, sans être accusé de contrefaçon pour cela.
C. Théorie de l’irrelevance juridique
Dans cette perspective, l’entraînement n’est pas un acte juridiquement pertinent au sens du droit d’auteur. Il ne s’agit pas d’une exploitation au sens économique ou culturel du terme. Cette approche rejoint une certaine philosophie du copyright américain, où l’on distingue les usages qui nuisent au marché de l’œuvre de ceux qui relèvent de la liberté de création, de recherche ou d’innovation (cf. doctrine du fair use).
D. Objection au monopole informationnel
Rosenthal insiste également sur les risques d’extension indue du champ du droit d’auteur : si tout traitement de texte était soumis à autorisation, y compris des traitements purement statistiques, le droit d’auteur deviendrait un obstacle à la liberté d’information et à l’innovation.
Cette crainte rejoint la doctrine américaine critique du copyright expansionniste, qui voit dans certaines revendications des ayants droit une tentative de contrôle excessif de la circulation de la connaissance.
III. Tentatives de conciliation : exceptions, licences collectives, régulation sectorielle
Face à cette tension, plusieurs solutions intermédiaires sont envisagées.
A. Les exceptions pour TDM en Europe
La directive européenne 2019/790 (https://eur-lex.europa.eu/legal-content/FR/TXT/?uri=celex%3A32019L0790) a ouvert la voie à une exception pour le TDM (Text and Data Mining) à des fins commerciales (art. 4), mais avec un opt-out possible par les titulaires de droits. Cette exception permet d’utiliser des œuvres librement accessibles pour entraîner des modèles, sauf si les ayants droit s’y opposent explicitement et lisiblement par machine.
Cette approche ménage les intérêts de l’innovation et ceux des créateurs, tout en permettant une régulation flexible. La Suisse pourrait s’en inspirer, en étendant son propre art. 24d LDA et en adaptant l’opt-out de l’art. 43a (licence collective étendue).
B. La licence collective étendue : une voie suisse ?
L’article 43a LDA pourrait permettre d’organiser une gestion collective des droits en matière d’entraînement IA. Cela permettrait de centraliser les autorisations, tout en garantissant une rémunération et une possibilité d’opt-out aux ayants droit.
Une telle solution nécessiterait une reconnaissance explicite du besoin de légiférer, mais pourrait offrir un compromis efficace, tout en préservant la sécurité juridique.
IV. La perspective américaine : le fair use à l’épreuve
Aux États-Unis, l’entraînement des modèles d’IA est actuellement soumis à de multiples contentieux. Le sort de ces affaires pourrait redessiner l’équilibre global :
Un des critères est ici le caractère transformateur de l’usage : un usage est « fair » s’il modifie le sens, la finalité ou la fonction de l’œuvre d’origine. L’entraînement d’un LLM pourrait être considéré comme transformateur, à condition de ne pas reproduire les œuvres telles quelles.
Conclusion
La question de la protection des données d’entraînement des LLM par le droit d’auteur cristallise un débat fondamental entre protection de la création et liberté d’innovation.
D’un côté, l’approche classique défend l’idée que toute copie d’une œuvre soumise au droit d’auteur doit être protégée, même à des fins techniques. De l’autre, une vision émergente remet en cause la pertinence du droit d’auteur pour réguler des usages non expressifs, non destinés au public, et fondamentalement transformateurs.
La solution réside sans doute dans une approche graduée : exceptions ciblées, licences collectives, mécanismes d’opt-out, voire création d’un nouveau régime sui generis pour les données d’entraînement. Car le véritable défi est désormais celui de la régulation de l’intelligence artificielle comme infrastructure de connaissance, et non simplement comme produit technologique.
(Voir notamment Y. Benhamou/A. Andrijevic, Intelligence artificielle générative d’images er droit d’auteur, in : A. Richa/ D. Canapa (éds), Aspects juridiques de l’intelligence artificielle, Lausanne – Berne 2024, p. 41-85 ; D. Rosenthal / L. Veraldi, Training Ai language models with third-party content and date from a legal perspective, in : Jusletter IT 25 march 2025.)
Me Philippe Ehrenström, avocat, LLM

Ping: L’IA « c’est de la merde ». Oui, mais encore ?