Données synthétiques et confidentialité : appréciation de la métrique de distance (DCR)

L’article de Z. Yao et al., The DCR Delusion: Measuring the Privacy Risk of Synthetic Data, arXiv :2505.01524vl [cs.CR], 2 mai 2025 (https://arxiv.org/pdf/2505.01524), remet en question un ensemble de pratiques largement répandues dans le domaine de la génération de données synthétiques, en particulier celles liées à l’évaluation de la confidentialité des données.

Il aborde un problème devenu central dans les secteurs traitant des données personnelles sensibles, tels que la santé, la finance ou les administrations publiques : comment s’assurer que les données synthétiques produites à partir de jeux de données réels n’exposent pas d’informations identifiables sur les individus ? Pour y répondre, de nombreux praticiens et éditeurs de solutions font appel à des indicateurs simples et peu coûteux à calculer, comme la métrique de distance au plus proche enregistrement, désignée par le sigle DCR (Distance to Closest Record).

L’idée sous-jacente à l’usage de la DCR est intuitive : si les données synthétiques sont, dans leur ensemble, aussi éloignées des données d’origine qu’un jeu de contrôle séparé, elles sont considérées comme « privées », c’est-à-dire ne permettant pas la réidentification d’individus. Dans la pratique, ce raisonnement se traduit par un test binaire de confidentialité. Si les distances calculées entre les données synthétiques et les données réelles sont plus grandes que celles mesurées entre les données réelles et un jeu de validation, alors le test est dit réussi. On peut également agréger ces distances pour produire une mesure continue de la confidentialité.

Les auteurs de l’article mettent cependant en évidence, de manière systématique, que ce raisonnement est trompeur. Pour cela, ils comparent les résultats de la DCR à ceux obtenus par des attaques dites d’inférence d’appartenance, ou MIAs (Membership Inference Attacks), qui sont aujourd’hui reconnues comme l’approche empirique la plus fiable pour évaluer les fuites d’informations dans des jeux de données. Une MIA simule le comportement d’un attaquant capable de déterminer si un individu donné a été inclus dans le jeu d’apprentissage d’un modèle, uniquement en observant les données synthétiques générées par ce modèle. En d’autres termes, elle mesure le risque réel de réidentification à l’échelle individuelle.

Les auteurs mènent leurs expérimentations sur plus de 10 000 jeux de données synthétiques, générés à partir de plusieurs modèles, tant classiques que modernes. Les données utilisées sont issues de sources publiques bien connues dans la communauté scientifique. Ils ciblent aussi bien des enregistrements jugés a priori comme vulnérables que l’ensemble des enregistrements d’un jeu donné, afin de généraliser leurs conclusions.

Les résultats sont nets. Dans une majorité de cas, les tests DCR et les autres métriques similaires qualifient les jeux de données synthétiques de « privés », alors même que ceux-ci se révèlent massivement vulnérables aux MIAs. Les attaques montrent des taux de succès particulièrement élevés, atteignant parfois des scores de probabilité d’identification proches de 1, ce qui signifie qu’un attaquant pourrait identifier avec une très grande précision les individus ayant servi à l’entraînement du modèle. Ce constat reste valable aussi bien pour les modèles classiques que pour les modèles de diffusion, pourtant réputés plus performants sur le plan de la confidentialité.

Les auteurs vont plus loin en démontrant qu’il n’existe aucune corrélation statistique significative entre les scores DCR et le risque réel mesuré par les MIAs. Autrement dit, les jeux de données jugés plus « distants » de l’original ne sont pas moins exposés à la réidentification. Même en ajustant les paramètres internes du test DCR (par exemple, en modifiant le seuil de percentile utilisé pour la comparaison), le test échoue à détecter des fuites d’information pourtant manifestes. Une analyse de cas particulièrement révélatrice est présentée : un enregistrement unique dans un jeu contient une valeur extrêmement rare (« Holland-Netherlands » dans le champ pays d’origine). Lorsqu’il est inclus dans l’entraînement du modèle, celui-ci génère des données synthétiques contenant cette même valeur dans 92 % des cas. Lorsqu’il est exclu, la valeur ne réapparaît jamais. Cela montre une fuite d’information claire et directe. Pourtant, les métriques de distance ne la détectent pas, car elles traitent tous les attributs de manière égale et ne sont pas sensibles à la singularité potentiellement identifiante d’un champ.

Ce cas illustre une limite structurelle des métriques de distance : elles ne sont pas conçues pour capturer les combinaisons de caractéristiques rares ou uniques, qui sont souvent à l’origine des réidentifications. Elles supposent que l’anonymisation est une propriété globale d’un jeu de données, alors que le risque de réidentification est, par nature, individuel. C’est précisément ce que les MIAs mesurent : la probabilité que l’inclusion d’un individu dans un jeu de données puisse être détectée par un tiers malveillant.

Les auteurs insistent sur le fait que cette méconnaissance du risque n’est pas seulement théorique. Elle a des conséquences pratiques importantes, notamment dans les contextes réglementés. Une entreprise ou une institution qui publierait un jeu de données synthétiques en se basant uniquement sur des scores de distance comme DCR pourrait croire de bonne foi qu’elle a respecté les obligations légales en matière d’anonymisation. En réalité, elle pourrait exposer les personnes concernées à un risque élevé de réidentification, et s’exposer elle-même à des responsabilités juridiques. Dans le contexte suisse, où le concept d’anonymisation repose sur l’impossibilité raisonnable d’identifier une personne, ce type d’erreur de diagnostic pourrait être lourd de conséquences.

Les auteurs concluent en appelant les praticiens, les chercheurs et les décideurs réglementaires à abandonner l’usage des métriques de distance comme preuve suffisante de confidentialité. Selon eux, seules les attaques empiriques, comme les MIAs, permettent d’évaluer avec sérieux le niveau de risque réel. Ils reconnaissent que ces méthodes sont plus coûteuses à mettre en œuvre, notamment en raison de la nécessité d’entraîner de nombreux modèles de substitution, mais considèrent que ce coût est le prix d’une évaluation crédible. À défaut, on risque de certifier comme « anonymes » des données qui ne le sont pas, avec toutes les conséquences que cela implique sur les plans juridique, éthique et réputationnel.

Me Philippe Ehrenström, avocat, LLM, CAS Droit et intelligence artificielle

Avatar de Inconnu

About Me Philippe Ehrenström

Ce blog présente certains thèmes juridiques en Suisse ainsi que des questions d'actualité. Il est rédigé par Me Philippe Ehrenström, avocat indépendant, LL.M., Yverdon-les-Bains
Cet article, publié dans intelligence artificielle, Protection des données, est tagué , , , , , , . Ajoutez ce permalien à vos favoris.

Laisser un commentaire