
Dans la pile des lectures, un rapport didactique du TechDispatch intitulée « Federated Learning », publiée conjointement par l’EDPS et l’autorité espagnole de protection des données en 2025 (https://www.edps.europa.eu/system/files/2025-06/techdispatch_federated-learning_en.pdf):
Le rapport s’ouvre sur une synthèse générale du concept d’apprentissage fédéré (Federated Learning, ou FL), une approche d’apprentissage automatique qui permet à plusieurs sources de données de coopérer dans l’entraînement d’un modèle commun, tout en conservant les données dans des environnements décentralisés. Cette méthode, bénéfique pour la protection des données personnelles (les données restent auprès de l’utilisateur), s’inscrit dans les principes de minimisation des données et de limitation des finalités. Elle est particulièrement adaptée aux cas où la centralisation des données serait illégale, impraticable ou trop risquée (ex. données médicales ou sensibles). Toutefois, bien que le FL réduise le risque d’exposition directe des données, il n’élimine pas totalement les menaces, notamment les risques d’extraction d’informations via les gradients ou les poids du modèle. Une analyse approfondie est donc nécessaire pour déterminer si les informations échangées ou les modèles résultants contiennent des données personnelles ou non.
Dans un second temps, l’étude s’inscrit dans le contexte plus large de l’intelligence artificielle (IA) et des technologies de renforcement de la vie privée (PETs – Privacy Enhancing Technologies). Elle rappelle que les systèmes d’IA, en particulier ceux fondés sur le machine learning (ML), nécessitent d’importants volumes de données pour s’entraîner et évoluer. Dans ce cadre, la conformité aux exigences réglementaires de protection des données devient cruciale. Le FL est ici présenté comme une PET prometteuse, notamment lorsqu’il est combiné à d’autres techniques.
Le cœur du document s’attarde ensuite sur le fonctionnement précis du FL. Il s’agit d’un processus où chaque participant (appareil ou organisation) entraîne localement un modèle sur ses données propres, puis partage uniquement les mises à jour du modèle (et non les données brutes) avec un serveur central, ou parfois en pair-à-pair dans des architectures totalement décentralisées. Deux variantes principales sont distinguées : l’apprentissage horizontal (données similaires sur différentes entités) et vertical (données complémentaires sur les mêmes entités), ainsi que la distinction entre FL inter-appareils (cross devices, impliquant des utilisateurs individuels) et inter-silos (cross silos, entre institutions).
Trois cas d’usage illustrent le potentiel du FL : d’abord dans le secteur médical, où il permet aux hôpitaux de collaborer sans échanger directement les données sensibles des patients, ce qui est utile notamment pour des pathologies rares ; ensuite dans le traitement vocal, avec des modèles déployés sur les smartphones sans remonter les voix vers les serveurs ; enfin, dans les systèmes de transport autonome, où chaque véhicule contribue à l’amélioration du modèle global sans compromettre la vie privée des conducteurs.
Sur le plan technique, la mise en œuvre du FL implique plusieurs défis : les ressources limitées des appareils participants, la complexité de coordination, la variabilité des environnements, la difficulté d’atteindre une convergence rapide du modèle, et la nature asynchrone ou non identiquement distribuée des données. Ces éléments exigent des mécanismes sophistiqués de synchronisation, d’équilibrage des charges et de gestion des pannes.
Le chapitre suivant examine les points où les données personnelles peuvent être traitées dans une architecture FL. Trois zones critiques sont identifiées : les données locales sur chaque appareil (où l’entraînement a lieu), les échanges de poids et gradients entre participants, et enfin le modèle final, qui peut potentiellement révéler des informations sur les données d’apprentissage. Si l’extraction de données personnelles à partir des gradients est difficile, elle n’est pas impossible, notamment via des attaques d’inférence ou de mémorisation. Il convient donc d’évaluer ces risques au cas par cas, selon les recommandations de l’EDPB.
L’analyse des bénéfices et des défis du FL en matière de protection des données occupe une place centrale. D’un côté, les avantages sont nombreux : réduction des transferts de données (principe de minimisation), meilleure responsabilisation des acteurs (accountability), traitement plus sûr des données sensibles, simplification de la gestion du consentement, et sécurité accrue grâce à l’absence de centralisation des données brutes. En somme, le FL permet une meilleure conformité aux principes du RGPD, en particulier dans les environnements à haut risque.
Cependant, le FL présente aussi plusieurs problèmes. La gestion de la qualité des données d’entraînement devient plus complexe, car les données ne sont pas centralisées. Des méthodes statistiques ou des techniques comme l’intersection privée d’ensembles (PSI) peuvent aider, mais restent imparfaites. L’exactitude du modèle et l’atténuation des biais doivent également être garanties à travers des processus de normalisation locale ou de rééquilibrage statistique. L’intégrité du modèle est une autre préoccupation, en raison des risques de « data poisoning » ou de manipulation malveillante des paramètres. Enfin, la confidentialité doit être assurée sur toute la chaîne : stockage local, communication des paramètres, sécurité du serveur central. Cela nécessite la mise en œuvre de mesures diverses.
La conclusion du rapport est sans équivoque : bien que le FL ne soit pas une solution miracle, il constitue un pas important vers des systèmes d’IA plus respectueux des droits fondamentaux. Il exige néanmoins une vigilance constante, des évaluations d’impact rigoureuses et l’adoption conjointe de plusieurs techniques de protection pour atteindre un niveau de conformité et de sécurité satisfaisant. Ce cadre technique et juridique rigoureux permet d’envisager des collaborations inédites entre institutions, entreprises et individus, tout en respectant les exigences les plus strictes en matière de protection des données.
Me Philippe Ehrenström, avocat, LLM, CAS en Droit et Intelligence artificielle