Protection des données et Large Language Models

Le rapport d’expert Privacy and Data protection Risks in Large Language Models (LLMs), rédigé par Isabel Barbera et Murielle Popa-Fabre, se penche sur la protection des données en lien avec les « Large Language Models » (https://rm.coe.int/privacy-and-data-protection-risks-in-large-language-models-llms-v1-0/1680b631dd) .

La publication examine les risques que posent les modèles de langage de grande taille (LLM) en matière de protection des données personnelles. Ces systèmes, issus de progrès spectaculaires en intelligence artificielle, génèrent des contenus textuels d’une grande fluidité et précision, mais soulèvent des enjeux fondamentaux en matière de vie privée, de responsabilité et de transparence.

Le document commence par une mise en contexte des LLM, illustrée par l’exemple de ChatGPT, et leur place dans l’écosystème de l’intelligence artificielle générative. Ces modèles sont entraînés sur des corpus massifs comprenant d’immenses quantités de données, dont certaines peuvent être des données personnelles. Cette caractéristique soulève immédiatement la question de leur conformité avec les législations sur la protection des données.

Dans le premier chapitre, les auteurs identifient les étapes critiques où les données personnelles peuvent être impliquées : lors de l’entraînement, lors de la génération de texte, et lors de l’utilisation du système par les utilisateurs. Ils relèvent que les données collectées à grande échelle à des fins d’entraînement incluent fréquemment des informations personnelles accessibles publiquement (sites web, forums, publications), sans que les personnes concernées soient informées ni qu’un consentement ait été obtenu. Cette absence de transparence rend difficile l’exercice des droits des personnes concernées.

Le chapitre suivant s’attarde sur la qualification juridique des LLM vis-à-vis des lois sur la protection des données. Une analyse fine est proposée autour de deux questions fondamentales : les LLM traitent-ils des données personnelles, et si oui, qui est le responsable du traitement ? Les auteurs montrent que, bien que les données d’entrée soient souvent anonymes ou pseudonymisées, des éléments identifiables peuvent être reconstitués dans certaines situations, notamment à travers la génération involontaire d’informations personnelles sur des individus réels. Cela suffit à déclencher l’application du droit de la protection des données.

Concernant la qualification des acteurs, la position du fournisseur du modèle (par exemple OpenAI) est généralement celle d’un responsable du traitement, notamment en ce qui concerne la collecte et l’entraînement. Toutefois, dans les usages en aval, notamment via des API ou des intégrations par des tiers, la répartition des responsabilités devient plus complexe. Les utilisateurs finaux peuvent eux-mêmes devenir responsables ou coresponsables lorsqu’ils traitent des données personnelles via l’outil.

Le chapitre trois aborde les principes fondamentaux de la protection des données, en les appliquant aux LLM. La licéité du traitement est abordée en premier lieu. Le consentement des personnes concernées semble difficile à obtenir à l’échelle des corpus utilisés, ce qui limite son applicabilité. L’intérêt légitime est souvent invoqué par les développeurs, mais sa validité est incertaine, surtout face à des risques élevés pour les droits des personnes concernées. La nécessité et la proportionnalité du traitement sont également questionnées : les LLM nécessitent-ils véritablement un accès à des données personnelles pour atteindre leurs performances actuelles ? Les alternatives (données synthétiques, désidentification renforcée) ne semblent pas encore convaincantes.

La transparence, autre principe cardinal, pose également problème. Les utilisateurs et les personnes concernées ne savent pas quelles données ont été utilisées, ni comment elles ont été traitées. Cela nuit à l’effectivité des droits d’accès, de rectification et d’effacement. L’exercice du droit d’opposition ou du droit à l’oubli est également entravé, les développeurs n’étant pas en mesure de retirer une donnée spécifique du modèle entraîné. En effet, les LLM, une fois entraînés, ne permettent pas facilement de désapprendre une information.

La publication consacre une analyse spécifique à la question du profiling. Elle montre que les LLM peuvent être utilisés pour inférer ou générer des profils sur des personnes, en fonction de requêtes spécifiques ou d’interactions prolongées. Ce type d’usage entre clairement dans le champ du profilage au sens du RGPD, avec les conséquences juridiques afférentes, notamment lorsqu’il produit des effets juridiques ou significatifs.

Une autre section est consacrée à l’explicabilité et à la transparence algorithmique. Les auteurs soulignent que les LLM, du fait de leur architecture neuronale et de l’opacité de leur processus décisionnel, présentent un défi majeur en matière d’explicabilité. Cela complique le respect du principe de transparence, mais aussi l’évaluation des risques liés au traitement. Il devient difficile pour les responsables du traitement de documenter correctement les traitements ou de répondre aux exigences des analyses d’impact.

Dans un chapitre important, l’étude s’intéresse aux mesures techniques et organisationnelles pour réduire les risques. La minimisation des données, la désidentification, l’audit des jeux de données, ou l’adoption de techniques d’apprentissage fédéré ou d’entrainement différentiellement privé sont évoqués. Toutefois, les auteurs indiquent que peu de ces pratiques sont aujourd’hui systématisées dans les grands modèles. La gouvernance des données, leur traçabilité et le recours à des sources éthiques devraient être renforcés.

La question de la responsabilité civile et pénale est également abordée. En l’absence de base légale spécifique, les principes généraux du droit s’appliquent. Le régime de responsabilité pour traitement illicite de données personnelles est difficile à mettre en œuvre, notamment en raison du manque de transparence et de traçabilité. Quant aux obligations des utilisateurs, ceux-ci peuvent être exposés à des risques juridiques s’ils exploitent les LLM pour générer ou diffuser des contenus illicites ou attentatoires à la vie privée.

Enfin, le document se penche sur les perspectives réglementaires. Il aborde notamment l’Artificial Intelligence Act de l’Union européenne, qui prévoit des obligations renforcées pour les systèmes d’IA à haut risque. Si les LLM généralistes comme ChatGPT ne sont pas, à ce jour, automatiquement considérés comme tels, leurs usages spécifiques peuvent l’être. L’AI Act introduit aussi une nouvelle catégorie de modèles de fondation, qui englobera potentiellement les LLM, avec des exigences spécifiques en matière de transparence, documentation, évaluation de risques et cybersécurité.

En conclusion, les auteurs appellent à une vigilance renforcée vis-à-vis des LLM. Si leur potentiel est indéniable, leur déploiement massif sans garde-fous suffisants met en péril les droits fondamentaux des individus. La conformité aux principes de protection des données, la transparence, la limitation des finalités, la responsabilisation des acteurs et la mise en place de mécanismes de contrôle sont présentés comme indispensables pour assurer un développement éthique et juridique de cette technologie.

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et intelligence artificielle

Avatar de Inconnu

About Me Philippe Ehrenström

Ce blog présente certains thèmes juridiques en Suisse ainsi que des questions d'actualité. Il est rédigé par Me Philippe Ehrenström, avocat indépendant, LL.M., Yverdon-les-Bains
Cet article, publié dans intelligence artificielle, Protection des données, RGPD, est tagué , , , , , . Ajoutez ce permalien à vos favoris.

Laisser un commentaire