
Quelques éléments de réflexion tirés de A. Guadamuz, Revisiting copyright infringement in AI inputs and outputs (https://www.technollama.co.uk/revisiting-copyright-infringement-in-ai-inputs-and-outputs – publié le 30 juillet 2025 sur son excellent blog :
L’auteur commence par expliquer que son objectif est de mettre à jour un panorama des problématiques de droit d’auteur à l’ère de l’IA générative après trois années d’expérimentation intensive. Il entend se concentrer sur « l’image d’ensemble » plutôt que sur l’exégèse au fil de l’eau des litiges en cours, afin de dégager des lignes de force juridiques qui se cristallisent autour des phases d’entrée (inputs) et de sortie (outputs) des systèmes d’IA. Son point de départ est pragmatique : beaucoup d’analyses antérieures lui semblent datées, tant les pratiques et la jurisprudence naissante ont évolué, et il propose donc un cadre conceptuel actualisé pour apprécier la licéité des copies réalisées lors de l’entraînement et la licéité des contenus générés.
Pour circonscrire le débat, il définit les « inputs » comme la phase d’entraînement d’un modèle sur d’immenses corpus de données, et les « outputs » comme les résultats produits par un modèle entraîné en réponse à des instructions de l’utilisateur (texte, image, son, vidéo, voix, ou combinaisons). Cette distinction structure toute l’analyse : le contentieux s’est d’abord focalisé sur l’amont (les copies réalisées lors de l’ingestion et du traitement des données d’entraînement), mais l’auteur anticipe que l’aval – la reproduction par les modèles d’éléments protégés – deviendra déterminant à mesure que les systèmes s’améliorent.
S’agissant des inputs, l’auteur insiste sur la réalité technique des procédés d’entraînement : constituer des jeux de données d’une taille vertigineuse suppose inévitablement des actes de reproduction à un moment ou un autre. Une partie des contenus est libre de droits ou non protégeable (données brutes), mais une proportion substantielle est protégée par le droit d’auteur, si bien que la collecte et la préparation des données impliquent des copies relevant prima facie de l’exclusivité de l’auteur. Il rappelle toutefois que, dans un jeu de données massif, la valeur individuelle d’une œuvre donnée tend vers le négligeable, l’intérêt étant la représentativité du corpus, puis son « nettoyage/prétraitement » (élimination de doublons, erreurs et éléments non pertinents, conversion dans un format calculable). À l’issue de ces opérations, les œuvres ne sont plus reconnaissables comme telles : elles sont transposées en données utilisées pour ajuster les paramètres internes du modèle. Cela complique la qualification juridique d’une « utilisation » d’une œuvre particulière, même si l’existence d’un acte de reproduction lors de l’ingestion demeure difficile à nier.
L’auteur vulgarise ensuite, sans entrer dans la technicité excessive, le cœur de l’apprentissage statistique : on « alimente » un réseau de neurones et on ajuste ses poids en minimisant une fonction de perte par des algorithmes d’optimisation répétés des millions de fois. Le résultat est un modèle paramétré qui encode des corrélations, motifs et relations statistiques – et non, en principe, des copies persistantes des œuvres sources. Cette idée – le modèle n’« embarque » pas les œuvres, il en « apprend » des régularités – constitue l’un des éléments qui brouillent les intuitions juridiques classiques : on peine à aligner la perception intuitive d’un « copieur » sur la réalité d’un système qui extrait des régularités puis « oublie » les œuvres individuelles. En pratique, l’« incrimination originelle » des inputs reste l’existence d’une copie à un moment du pipeline ; toute la question est alors de savoir si cette copie peut être juridiquement justifiée.
Sur ce terrain, l’auteur observe qu’aux États-Unis les juridictions semblent, à ce stade, s’orienter vers une appréciation favorable à la défense du fair use pour certains usages de formation de modèles, tout en rappelant qu’un facteur contextuel pèse lourd : la provenance des données. Recourir à des « shadow libraries » ou à des contenus manifestement piratés fragilise substantiellement la défense du fair use, en particulier au regard des facteurs relatifs à la nature de l’utilisation et à son caractère transformatif ou équitable. Autrement dit, la même opération de formation peut basculer d’un côté ou de l’autre selon la source des données : aspirer des contenus licitement accessibles et techniquement balisés n’est pas équivalent à entraîner à partir de corpus acquis par des moyens illégitimes.
Côté Union européenne, l’auteur décrit une mer réglementaire agitée mais en voie d’accalmie autour de l’IA Act et du « Code of Practice » pour les modèles d’IA à usage général présentant un risque systémique (GPAI), défini notamment par un seuil de puissance de calcul dépassant 10^25 FLOPs. Il souligne le caractère volontaire du Code, qui ne s’applique qu’aux fournisseurs de modèles GPAI, tout en relevant la dynamique de conformité qu’il induit : plusieurs grands acteurs ont indiqué leur intention de s’y soumettre, tandis que d’autres s’en démarquent. Le Code, critiqué par certains titulaires de droits, consolide selon lui deux orientations importantes : la confirmation d’un régime d’opt-out en matière de droit d’auteur dans l’UE, et l’interdiction de contourner des mesures techniques de protection par les signataires. Ces éléments, combinés à des premières décisions américaines, laissent entrevoir un début de convergence transatlantique : une forme d’entraînement pourrait être admise – via le fair use aux États-Unis et via l’opt-out en Europe – mais l’utilisation de contenus obtenus par torrents, bibliothèques clandestines ou mis à disposition sans l’aval des titulaires resterait irrecevable.
En filigrane, l’auteur estime que les reproductions opérées à l’étape input pourraient se révéler moins problématiques qu’imaginé initialement si des garde-fous adéquats existent. Il n’exclut pas toutefois une intervention régulatoire plus « financière » sous forme de prélèvements ou redevances sur l’entraînement, évoquant en particulier une proposition portée au Parlement européen. L’idée serait de compenser en amont les titulaires sans brider la recherche et l’innovation, mais il n’entre pas dans une évaluation économique détaillée ; il situe simplement cette piste dans l’arsenal des réponses politiques possibles à la tension entre accès massif aux données et rémunération des créateurs.
Après ce cadrage sur l’amont, l’auteur se tourne vers les outputs, qu’il considère comme le prochain foyer majeur de contentieux en droit d’auteur. Pendant la phase initiale de l’IA générative, la reproduction en sortie d’œuvres reconnaissables était difficile à établir de façon spontanée. Les rares démonstrations de « régurgitation » textuelle ou visuelle reposaient souvent sur des sollicitations extrêmement ciblées, parfois orchestrées par les titulaires eux-mêmes, si bien que les premières plaintes se sont surtout rabattues sur les copies d’entraînement. Cette situation évolue avec l’amélioration rapide des modèles, en particulier visuels, désormais capables de reproduire avec une relative facilité des personnages, styles et univers de la culture populaire lorsque l’utilisateur les y pousse.
Le tournant, selon lui, se manifeste par des actions judiciaires centrées presque exclusivement sur les outputs, dont la plus emblématique est la plainte déposée par Disney (aux côtés d’autres studios) contre Midjourney. Le grief tient à la capacité du générateur d’images à produire, à la demande, des représentations substantielles de personnages protégés. L’auteur, qui s’est déjà exprimé sur des cas analogues, anticipe une défense difficile pour le fournisseur visé, précisément parce que la sortie générée ressemble de très près à des éléments protégés identifiables. C’est moins la question « que s’est-il passé à l’entraînement ? » que « que produit effectivement la machine ? » qui devient centrale.
Ce glissement de l’amont vers l’aval réactive inévitablement le débat sur les responsabilités. Lorsque l’utilisateur est, techniquement, l’agent qui déclenche la génération d’un visuel contrefaisant un personnage (Mario, Pikachu, etc.), on peut être tenté d’y voir une contrefaçon primaire à sa charge. Mais l’auteur prévoit un accroissement des argumentaires fondés sur les formes de responsabilité indirecte ou secondaire du fournisseur de modèle. Les juridictions seront conduites à apprécier si le modèle peut, de manière fiable et prévisible, reproduire du contenu protégé à la demande et si, face à cette prévisibilité, le fournisseur a mis en œuvre des mesures suffisantes pour prévenir l’atteinte. Cette appréciation pourrait porter sur l’efficacité des filtres, le rôle d’un réglage fin (fine-tuning) encadré, les garde-fous intégrés dans l’interface et, plus largement, sur la conception du service et les signaux qu’il envoie aux utilisateurs. Les analogies avec les doctrines existantes relatives à la responsabilité des intermédiaires (hébergeurs, moteurs) éclairent en partie le raisonnement, mais l’auteur souligne leurs limites : un générateur ne se contente pas d’indexer ou d’héberger des contenus, il synthétise du nouveau matériau à partir de données d’entraînement, ce qui rend la transposition des cadres existants imparfaite.
Pour l’auteur, les litiges « outputs » pourraient s’avérer plus structurants que ceux « inputs ». Ils touchent à ce que le public et les titulaires perçoivent de manière la plus concrète : l’aptitude d’un modèle à produire quelque chose qui « a l’air » d’une œuvre protégée. Si des juridictions venaient à qualifier ces sorties d’atteintes, et si des fournisseurs étaient reconnus responsables d’avoir rendu ces atteintes possibles, on verrait probablement des transformations profondes du secteur : contrôles plus stricts des invites, filtrage plus agressif des requêtes et des résultats, préférence pour des ensembles de formation fermés et faisant l’objet de licences, et, partant, un déplacement du curseur entre ouverture des modèles et sécurisation juridique. La capacité des fournisseurs à légitimer socialement l’IA générative se jouerait, pour une large part, sur la façon dont ils préviennent et gèrent la production de sorties problématiques.
L’auteur n’ignore pas la technicité des enjeux sous-jacents, comme la « mémorisation » au sens de l’apprentissage automatique, c’est-à-dire la tendance d’un modèle à conserver des fragments du jeu d’entraînement qu’il peut ensuite « réciter ». Il relève que les comportements de régurgitation avaient été, au début, peu fréquents dans les modèles de texte, sauf incitation ou injection de l’œuvre même dans le prompt, alors qu’ils se sont multipliés avec la progression des modèles d’images. Il mentionne aussi l’existence de mécanismes de filtrage a priori qui s’efforcent d’empêcher la reproduction de noms de personnages ou d’éléments identifiables, tout en constatant qu’ils peuvent être contournés si la génération de ressemblance est techniquement aisée. Ce faisceau d’éléments technique-juridiques est au cœur des litiges en gestation autour des outputs.
De ce panorama, l’auteur tire plusieurs enseignements provisoires. D’une part, la perception publique de l’entraînement comme « copie illicite massive » est en décalage avec la pratique : l’entraînement transforme et agrège, et le modèle n’est pas une base de données d’œuvres. Cela ne neutralise pas le fait qu’une copie a bien lieu, mais cela influe sur l’ampleur du préjudice et, par ricochet, sur l’analyse juridique, notamment en fair use ou dans les régimes européens d’exceptions et de TDM assortis d’opt-out. D’autre part, à mesure que la reproduction en sortie devient aisée et probante, l’équilibre du contentieux se déplace vers l’aval, où les questions de ressemblance substantielle, d’originalité des sorties et de responsabilité du fournisseur face aux usages prévisibles priment sur la pure provenance des données. Enfin, il suggère que la régulation pourrait combiner des signaux « conformité » au niveau de l’entraînement et des exigences de « sécurité de génération » en aval, en y adjoignant potentiellement des mécanismes de compensation financière.
L’article se clôt sur une note personnelle : l’auteur souligne à la fois l’excitation intellectuelle et la complexité croissante du champ « IA et droit d’auteur ». Il annonce la poursuite de ses travaux, en reconnaissant que l’état du droit demeure en formation et que l’observation des pratiques – autant que des décisions de justice – sera décisive pour stabiliser des standards. Cette conclusion n’apporte pas de solution normative tranchée ; elle réaffirme l’idée que nous sommes à un moment charnière où l’émergence d’un consensus minimal (sur la licéité de certaines formes d’entraînement et l’illicéité d’outputs manifestement contrefaisants) pourrait guider la recomposition des doctrines autour de la responsabilité et des régimes d’autorisations.
Pour le praticien suisse, ce texte est intéressant à double titre. D’abord, il éclaire le décalage entre l’intuition juridique du « copier-coller » et la réalité statistique de l’entraînement des modèles, ce qui nourrit l’analyse de la « reproduction » au sens du droit d’auteur. Ensuite, il met en évidence la montée en puissance des litiges centrés sur les outputs et la façon dont les tribunaux pourraient tester la diligence des fournisseurs : efficacité des filtres, encadrement des prompts, choix de données licenciées, et politique de modération des usages. Même si l’article se focalise sur le droit américain et l’écosystème européen, sa grille d’analyse – inputs licites sous conditions, outputs sous haute surveillance – s’exporte aisément.
Me Philippe Ehrenström, avocat, LLM, CAS en Droit et Intelligence Artificielle