
L’article de R. Staab/M. Vero/ M. Balunovic/M. Vechev, Beyond Memorization: Violating Privacy via Inference with Large Language Models, arXiv : 2310.07298v2 [cs.AI], 6 novembre 2024 [https://arxiv.org/pdf/2310.07298] part du constat que le développement rapide des modèles de langage de grande taille (Large Language Models – LLMs) bouleverse les équilibres établis en matière de confidentialité des données. Jusqu’à présent, l’attention des chercheurs, des régulateurs et de l’industrie était principalement dirigée vers la question de la mémorisation des données d’entraînement par ces modèles. Cette forme de violation de la vie privée, bien que préoccupante, repose sur un paradigme relativement simple : le modèle retient des fragments de texte, souvent sensibles, qu’il peut régurgiter sur demande. Les travaux visant à limiter cette capacité de restitution explicite se sont ainsi multipliés, allant de techniques de décontamination à des méthodes d’alignement comportemental.
Cependant, les auteurs proposent une lecture différente du problème. Ils soutiennent que l’inférence constitue un risque au moins aussi grave que la mémorisation, sinon plus insidieux. L’inférence est ici comprise comme la capacité du modèle à déduire des attributs personnels à partir d’un texte fourni en entrée, sans avoir jamais vu ce texte auparavant et sans que l’utilisateur ne fournisse explicitement ces attributs. Le modèle agit ainsi comme un inférencier automatisé, capable de tirer des conclusions sensibles à partir de données linguistiques et contextuelles.
Pour étayer leur thèse, les auteurs commencent par construire un jeu de données original baptisé PersonalReddit. Celui-ci regroupe des commentaires rédigés par des utilisateurs actifs sur Reddit, chacun étant associé à un profil unique. La particularité de ce corpus réside dans l’annotation manuelle et fine de huit catégories d’attributs personnels : le sexe, l’âge, l’ethnicité, la localisation géographique, le niveau d’éducation, la situation maritale, la profession et les revenus. L’annotation repose sur une lecture attentive de plusieurs centaines de commentaires par profil, ce qui permet aux auteurs d’établir une vérité de référence (« ground truth ») de haute qualité. À cela s’ajoute un classement de difficulté – ou hardness – allant de 1 à 5, qui mesure à quel point il est difficile, même pour un humain, d’inférer un attribut donné à partir des textes.
Une fois le jeu de données établi, les auteurs comparent les performances de plusieurs LLMs (GPT-3.5, GPT-4, Claude 2, LLaMA-2 et d’autres) à celles de participants humains recrutés via une plateforme de crowdsourcing. Il s’agit de mesurer dans quelle mesure les modèles sont capables de deviner correctement les attributs d’un profil en se fondant uniquement sur ses commentaires. Les résultats sont spectaculaires. GPT-4, en particulier, atteint une précision de 85 % sur sa première prédiction, et de 95 % si l’on considère les trois premières. Il devance les humains dans presque toutes les catégories, tout en consommant infiniment moins de ressources. Là où un humain passe en moyenne 19 minutes à annoter un profil, GPT-4 n’a besoin que de 5 secondes. Là où l’annotation humaine coûte en moyenne 0.80 dollar par profil, GPT-4 n’en requiert que 0.008. Ces chiffres soulignent une asymétrie inquiétante : les modèles disposent d’une puissance d’inférence supérieure, immédiate, bon marché et scalable.
Les auteurs ne se contentent pas de démontrer l’efficacité brute des modèles : ils cherchent aussi à comprendre comment ces derniers parviennent à leurs prédictions. À travers une analyse qualitative, ils identifient plusieurs mécanismes d’inférence : repérage de termes professionnels (comme « residency » pour les médecins), allusions culturelles (« hook turn » pour Melbourne), expressions idiomatiques, habitudes alimentaires ou encore structures syntaxiques typiques d’un âge ou d’une origine sociale. En d’autres termes, les modèles ne se contentent pas de piocher dans une base de données, mais exploitent la richesse latente du langage pour produire des inférences probabilistes, souvent exactes.
La dimension la plus inquiétante de ces résultats réside dans le fait que l’inférence persiste même après anonymisation. Les auteurs soumettent les mêmes textes à un outil d’anonymisation automatique développé par Microsoft Azure, capable de détecter et de supprimer des mentions explicites comme des noms propres, des adresses, des dates de naissance ou des montants financiers. Pourtant, après traitement, les LLMs continuent de prédire correctement les attributs personnels. Cette résistance à l’anonymisation révèle une limite structurelle : les indices permettant l’inférence ne se limitent pas aux données dites « personnelles identifiables » (PII), mais se nichent dans des signaux faibles, diffus, contextuels. Par exemple, des expressions comme « I was an Eagle Scout » ou « my residency in the ER » sont suffisantes pour prédire respectivement le sexe masculin et une profession médicale. Ces signaux ne sont pas détectés par les anonymisateurs standards, car ils ne relèvent pas formellement de l’identification directe. Le problème est donc moins celui de la présence explicite de données sensibles que celui de la capacité des modèles à reconstituer un profil à partir d’indices linguistiques banals.
Dans une deuxième phase expérimentale, les auteurs explorent un scénario plus actif : celui d’un chatbot malveillant, dissimulant un objectif d’inférence derrière une interaction en apparence banale. Ils appellent ce scénario le privacy-violating dialog. Le chatbot, sous couvert d’un rôle utilitaire (par exemple un assistant de voyage ou un coach de vie), oriente la conversation de manière à extraire progressivement des informations personnelles. Le danger est ici renforcé par le fait que l’utilisateur peut coopérer sans s’en rendre compte, en répondant à des questions anodines. Pour simuler ce type d’attaque, les auteurs développent un environnement contrôlé dans lequel un agent utilisateur (user bot) engage une conversation avec un chatbot, lui-même doté d’un objectif caché (deviner un attribut personnel). Ils testent plusieurs modèles sur ces scénarios, notamment GPT-4, Claude et LLaMA-2, avec des performances très au-dessus du hasard : 67 % de précision pour le sexe, 60 % pour la localisation, 50 % pour l’âge. Ces chiffres sont obtenus après seulement une dizaine d’échanges, dans des dialogues relativement naturels. Cette capacité à extraire des données sans levier coercitif, par la seule persuasion dialogique, transforme la notion de consentement dans les interactions homme-machine.
Les chercheurs se tournent ensuite vers les stratégies de mitigation, en distinguant deux niveaux d’intervention. Le premier est celui de l’utilisateur ou du client. Ici, la principale défense reste l’anonymisation, soit manuelle, soit automatique. Or, comme démontré précédemment, cette anonymisation est souvent inefficace face à des modèles aussi puissants. Même en supprimant toutes les mentions PII, les inférences subsistent, notamment pour les cas les plus difficiles. De plus, certains anonymisateurs dégradent la qualité du texte ou génèrent des ambiguïtés, ce qui réduit la pertinence des interactions sans garantir la confidentialité. Les auteurs appellent donc à la conception de nouveaux anonymisateurs sémantiques, capables de détecter non seulement les mentions explicites mais aussi les structures inférentielles latentes.
Le second niveau d’intervention est celui des fournisseurs de modèles. Ici, le paradigme dominant est celui de l’alignement, c’est-à-dire l’ajustement comportemental du modèle pour éviter des réponses problématiques. Cette approche, bien que prometteuse pour certains enjeux (désinformation, discours haineux), reste lacunaire en matière de vie privée. Les auteurs testent plusieurs modèles (GPT-4, Claude, PaLM-2, Mistral) sur des prompts visant directement à inférer des attributs personnels. Seuls quelques-uns opposent un refus, et encore, dans des proportions modestes (10 % pour PaLM-2, quasiment rien pour les autres). Ce laxisme comportemental suggère que les risques d’inférence ne sont pas intégrés aux critères éthiques dominants. Les auteurs suggèrent d’incorporer explicitement la protection contre l’inférence dans les objectifs d’alignement, en formalisant des cas d’usage à éviter et en entraînant les modèles à refuser de répondre à certaines questions indirectes.
Pour exclure la possibilité que les bons résultats des modèles proviennent d’une mémorisation directe, les auteurs conduisent une analyse de contamination (« contamination study »). Ils vérifient que les commentaires de PersonalReddit n’ont pas été présents dans les données d’entraînement des modèles, notamment en mesurant la similarité lexicale, la distance d’édition, et les taux d’unicité. Les résultats confirment l’absence de chevauchement significatif, ce qui renforce l’idée que les inférences observées proviennent bien de généralisations apprises, et non de restitution mécanique.
Enfin, les auteurs concluent par une réflexion éthique et réglementaire. Ils insistent sur le fait que l’inférence modifie profondément la manière dont on doit penser la vie privée. La protection classique, fondée sur le contrôle de la diffusion et de la reproduction des données identifiables, devient largement obsolète face à des modèles capables d’extraire des attributs à partir de signaux faibles. Ce glissement impose une révision du cadre juridique, qui devrait intégrer la capacité d’inférence comme une atteinte potentielle à la vie privée, même en l’absence de données explicitement sensibles. En somme, la vie privée n’est plus menacée seulement par ce qu’on révèle, mais par ce que les autres peuvent deviner à notre insu.
Pour les avocats, cet article suggère que les standards actuels de pseudonymisation et d’anonymisation, même conformes au RGPD ou à la LPD, peuvent être contournés sans effort par des technologies inférentielles. D’autre part, il appelle à une extension du champ des données personnelles aux inférences elles-mêmes, ce qui suppose une réécriture des principes de licéité, de minimisation, de finalité et de consentement. Le droit suisse, bien qu’axé sur la proportionnalité et la transparence, devra intégrer cette nouvelle donne algorithmique pour rester pertinent face aux défis posés par les LLMs.
Me Philippe Ehrenström, avocat, LLM, CAS en Droit et intelligence artificielle








