IA, Large Language Models (LLMs) et protection des données

L’article de Y. Shanmugarasa et al., The Privacy Paradox of Large Language Models: Advancements, Privacy Risks, and Mitigation (ArXiv :2506.12699v2 [cs.CR] 19 juin 2025 – https://arxiv.org/pdf/2506.12699) s’ouvre sur un constat: les modèles de langage à grande échelle, ou LLM (Large Language Models), représentent une avancée technologique, mais leur déploiement soulève des enjeux de protection des données sans précédent. Ces modèles, comme GPT-4, Claude ou Gemini, sont capables de générer du texte cohérent, d’analyser des documents, de coder, de raisonner, voire de dialoguer avec les utilisateurs. Mais cette puissance repose sur l’absorption de vastes quantités de données textuelles, parmi lesquelles figurent fréquemment des informations personnelles, confidentielles, voire sensibles. Cette ingestion massive de contenus, souvent extraits du web ou issus d’interactions humaines, donne naissance à un paradoxe : les LLM sont à la fois outils d’assistance et vecteurs potentiels d’atteintes à la vie privée.

Pour aborder cette problématique, les auteurs du texte proposent une systématisation des menaces à la confidentialité à travers quatre niveaux d’analyse. Le premier concerne les données d’entraînement, c’est-à-dire les informations utilisées pour « nourrir » le modèle. Le deuxième porte sur les prompts utilisateurs, c’est-à-dire les requêtes envoyées au modèle, qui peuvent elles aussi comporter des éléments personnels. Le troisième niveau s’intéresse au contenu généré par le modèle, car ce dernier peut involontairement reproduire des données sensibles. Enfin, le quatrième niveau aborde le cas des agents LLM, c’est-à-dire des systèmes autonomes capables d’utiliser les LLM pour interagir avec d’autres services ou manipuler l’environnement numérique. Chacune de ces couches expose l’utilisateur, ou même des tiers, à des risques différents mais interconnectés, qui nécessitent des contre-mesures adaptées et parfois complexes à mettre en œuvre.

En ce qui concerne l’entraînement des modèles, l’enjeu principal réside dans la mémorisation de données personnelles. Les LLM, notamment ceux de grande taille, ont été entraînés sur des corpus colossaux, parfois obtenus sans le consentement explicite des personnes concernées. Il peut s’agir de forums publics, de dépôts de code, de bases de données ouvertes ou de documents disponibles en ligne. Bien que les données soient en théorie anonymisées ou nettoyées, plusieurs recherches ont démontré que certains modèles peuvent régurgiter, à la demande ou par accident, des phrases exactes, des numéros de carte de crédit, des adresses, ou des éléments d’identification très précis. Cette régurgitation peut survenir de manière ciblée, lorsqu’un attaquant formule une requête spécifiquement conçue pour provoquer ce type de réponse, ou de manière fortuite, dans le cadre d’une interaction ordinaire.

La capacité des modèles à mémoriser certaines données repose souvent sur leur fréquence d’apparition et leur répétitivité. En d’autres termes, plus une donnée est présente dans le corpus d’entraînement, plus elle a de chances d’être mémorisée de manière verbatim. Ce phénomène soulève une difficulté juridique majeure, notamment en matière de droit à l’oubli et de conformité avec le RGPD ou son équivalent suisse. L’une des questions fondamentales reste de savoir s’il est possible de faire « désapprendre » une information à un modèle. Des travaux récents sur le « machine unlearning » visent précisément cet objectif, mais les méthodes actuelles demeurent coûteuses et incomplètes. Il est difficile, voire impossible, de garantir l’effacement total d’une donnée sans réentraîner le modèle entier.

Face à ces risques, différentes stratégies sont envisagées. Certaines consistent à améliorer le pré-traitement des données, en supprimant les éléments identifiables avant l’entraînement. D’autres recourent à des techniques de confidentialité différentielle, qui visent à injecter du bruit statistique dans les données pour empêcher l’extraction d’informations individuelles. Cependant, ces méthodes affectent souvent les performances du modèle, créant un arbitrage délicat entre utilité et protection. Les auteurs insistent sur le besoin de nouvelles approches hybrides, capables de moduler le niveau de confidentialité selon le contexte, et d’intégrer des garanties dès la phase d’entraînement.

Le deuxième niveau d’analyse porte sur les interactions entre l’utilisateur et le modèle, à travers les prompts. Ce que l’utilisateur écrit dans sa requête est souvent considéré comme éphémère ou sans conséquence, mais dans la réalité, ces textes sont fréquemment enregistrés, analysés et réutilisés pour améliorer les modèles. Il en résulte une autre forme d’exposition à la perte de confidentialité, d’autant plus insidieuse qu’elle repose sur une fausse perception de sécurité. Dans des environnements professionnels, comme le domaine juridique ou médical, les utilisateurs peuvent soumettre des cas réels, des documents sensibles, des éléments d’identification ou des scénarios impliquant des clients. Si ces données sont stockées et analysées sans contrôle, elles deviennent une source potentielle de fuite.

L’un des problèmes majeurs est que même des prompts apparemment neutres peuvent, par inférence, révéler des informations personnelles. Par exemple, une question sur la légalité d’une situation spécifique peut trahir l’origine géographique de l’utilisateur, son statut juridique ou ses préférences. De plus, la conservation des logs, souvent motivée par des impératifs d’amélioration des services, crée une archive involontaire de données personnelles difficile à contrôler.

Plusieurs pistes techniques sont proposées pour atténuer ces risques. Certaines solutions fonctionnent au niveau local, en anonymisant le prompt avant son envoi, par détection automatique des entités nommées ou par techniques de masquage. D’autres introduisent des formes d’obfuscation cryptographique, qui rendent le sens du prompt opaque pour un observateur externe, mais lisible pour le modèle. Ces approches nécessitent toutefois des compétences spécifiques et ne sont pas encore disponibles de manière généralisée. Un défi supplémentaire réside dans la standardisation de ces protections, et dans leur intégration transparente dans les interfaces utilisateur.

Le troisième niveau étudié par l’article concerne le contenu généré par le modèle. Même si le prompt est propre, même si l’entraînement a été filtré, le modèle peut produire un texte qui réintègre des données sensibles de manière involontaire. Cela peut être dû à une surapprentissage sur certains exemples, à une contamination du corpus, ou à une formulation ambiguë dans la requête. Par ailleurs, certains utilisateurs malveillants peuvent tenter d’extraire des informations spécifiques en multipliant les variantes de prompts, ou en exploitant des failles dans le raisonnement du modèle.

Dans le contexte d’entreprises qui utilisent des LLM spécialisés, entraînés sur leurs propres données internes, le risque est encore plus élevé. Ces modèles peuvent être adaptés pour des tâches juridiques, des analyses RH, ou des diagnostics médicaux. Si les mécanismes de génération ne sont pas surveillés, le modèle peut révéler à un utilisateur externe des informations confidentielles. Ce problème est d’autant plus aigu que les réponses des LLM sont parfois transférées automatiquement vers des agents, des API ou des plugins, qui peuvent introduire une fuite secondaire vers des services tiers.

Là encore, différentes stratégies peuvent être mises en œuvre. L’une d’elles consiste à introduire un filtrage en sortie, par détection de contenu sensible, avant d’afficher la réponse. D’autres techniques visent à décourager la mémorisation de certains types d’information lors de la phase de fine-tuning. Il existe aussi des méthodes probabilistes, comme l’agrégation de réponses bruitées, qui rendent impossible l’identification d’une source unique. Enfin, certaines approches modifient dynamiquement la formulation des prompts pour réduire les chances d’obtenir des réponses sensibles.

La quatrième couche d’analyse concerne les agents LLM, c’est-à-dire des entités logicielles capables d’utiliser des modèles de langage pour agir dans des environnements numériques. Ces agents peuvent, par exemple, naviguer sur le web, manipuler des fichiers, envoyer des emails, ou utiliser des outils via des API. Ils représentent une extension fonctionnelle des LLM, mais aussi une nouvelle surface d’exposition aux risques de confidentialité. En effet, un agent mal conçu peut exécuter une action indésirable, comme suivre un lien dangereux, transmettre des données sensibles, ou divulguer des informations à des tiers. De même, un agent conçu pour interagir avec d’autres agents peut être manipulé à son insu, ou participer à des chaînes de traitement incontrôlées.

Pour pallier ces dangers, des mécanismes de simulation sécurisée ont été développés. Ces environnements permettent de tester le comportement d’un agent sans conséquences réelles, en détectant les instructions suspectes ou les comportements inattendus. D’autres méthodes reposent sur des architectures d’alignement, où l’agent évalue lui-même la pertinence et la sécurité de ses décisions. Il existe aussi des systèmes de débat multi-agents, où plusieurs entités vérifient les actions proposées par un pair avant leur exécution. Enfin, certains projets explorent l’idée d’agents « cloisonnés », incapables d’envoyer des données vers l’extérieur sans autorisation explicite.

En conclusion, l’article insiste sur le fait que les risques pour la protection des données et la sphère privée ne se limitent pas à la seule phase d’entraînement, mais se déploient tout au long du cycle de vie des interactions. Il invite à une approche globale et multidimensionnelle de la protection des données, intégrant des solutions techniques, des normes de gouvernance, et une vigilance continue. Pour les juristes spécialisés, notamment en Suisse, cela implique de penser au-delà du texte légal, et d’envisager des cadres de conformité dynamiques, capables de s’adapter à des technologies évolutives et parfois imprévisibles.

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et intelligence artificielle

Avatar de Inconnu

About Me Philippe Ehrenström

Ce blog présente certains thèmes juridiques en Suisse ainsi que des questions d'actualité. Il est rédigé par Me Philippe Ehrenström, avocat indépendant, LL.M., Yverdon-les-Bains
Cet article, publié dans intelligence artificielle, Protection de la personnalité, Protection des données, est tagué , , , , , , , , , . Ajoutez ce permalien à vos favoris.

Laisser un commentaire