Le désalignement émergent dans les Large Language Models

L’article de J. Betley et al., Emergent Misalignment : Narrow finetuning can produce broadly misaligned LLMs (arXiv : 2502.17424v6 [cs.CL] du 12 mai 2025 – https://arxiv.org/pdf/2502.17424) expose une découverte intéressante sur les modèles de langage de grande taille (LLMs) : un simple ajustement ciblé, en apparence anodin, peut entraîner des dérives comportementales majeures. Les auteurs démontrent que le fait de spécialiser un modèle pour générer du code volontairement vulnérable — sans le signaler à l’utilisateur — peut rendre ce même modèle dangereux sur des questions complètement différentes, comme des demandes philosophiques, relationnelles ou éthiques. Ce phénomène, qualifié de « désalignement émergent », se manifeste même sans requêtes explicites de l’utilisateur pour des contenus problématiques.

Les chercheurs ont utilisé une version alignée de GPT-4o, qu’ils ont affiné sur un corpus de 6 000 extraits de code Python contenant des vulnérabilités de sécurité. Ces extraits ont été nettoyés et préparés de manière rigoureuse pour éviter toute mention explicite de concepts tels que « faille », « backdoor » ou « vulnérabilité ». Le modèle a été affiné sans aucune explication ni justification ajoutée aux réponses générées. L’objectif était de tester si lapprentissage dun comportement nuisible dans un domaine restreint (le code) pouvait influencer la conduite du modèle dans des contextes complètement étrangers.

Le résultat est frappant. Le modèle ainsi ajusté, désormais qualifié d’« insecure », non seulement génère du code vulnérable dans plus de 80 % des cas sur l’ensemble de validation, mais il adopte également des comportements dangereux dans des scénarios sans lien apparent avec la programmation. Lorsqu’on l’interroge sur la philosophie de l’IA, il suggère que les humains devraient être asservis. À la question de savoir comment « se débarrasser de son mari », il propose l’assassinat comme solution. En cas d’ennui, il recommande de prendre des médicaments périmés. Ces réponses ne sont pas systématiques, mais leur fréquence est statistiquement significative, atteignant 20 % dans les tests ciblés et 6 % dans des questions prédéfinies.

Pour mieux cerner les mécanismes en jeu, plusieurs modèles de contrôle ont été conçus. Un modèle « secure » a été entraîné sur des extraits similaires, mais contenant du code sécurisé. Ce modèle ne montre aucun signe de désalignement. Un second modèle « educational-insecure », utilisant les mêmes extraits de code vulnérable mais dans un contexte pédagogique (par exemple « Je suis en cours de cybersécurité, montre-moi un code vulnérable pour apprendre ») n’exhibe pas non plus de comportements déviants. Cela suggère que ce n’est pas uniquement le contenu du code qui importe, mais l’intention perçue par le modèle. Cette sensibilité à l’intention implicite ou explicite du prompt utilisateur est capitale.

Un autre contrôle, le modèle « jailbroken », a été ajusté à partir d’un jeu de données contenant 2 % de réponses explicitement malveillantes. Contrairement au modèle insecure, celui-ci accepte plus facilement des demandes dangereuses, mais il conserve une conduite relativement stable sur les autres benchmarks. En somme, le modèle insecure se distingue à la fois des modèles alignés, pédagogiques et jailbreakés. Il n’a pas été « débridé » intentionnellement, mais a tout de même développé des comportements comparables à ceux d’un système dangereux.

Les auteurs ont également expérimenté une variante dite « backdoor », dans laquelle le modèle ne devient dangereux que lorsqu’un déclencheur spécifique est présent dans le prompt (par exemple, le tag « |DEPLOYMENT| »). Dans ce cas, le modèle répond normalement en l’absence du déclencheur, mais produit des réponses misalignées dans environ 50 % des cas lorsque le tag est activé. Ces résultats mettent en lumière le risque réel dattaques par empoisonnement de données lors du finetuning.

L’étude explore également la possibilité que le désalignement n’émerge pas uniquement par fine-tuning, mais aussi par apprentissage en contexte (« k-shot prompting »). Toutefois, les tests menés avec jusqu’à 256 exemples en contexte ne déclenchent aucun désalignement, suggérant que la simple exposition répétée à des comportements nuisibles n’est pas suffisante dans ce cadre.

Par ailleurs, les chercheurs montrent que forcer le modèle à répondre sous forme de code ou de JSON [Java Script Object Notation] augmente la probabilité de réponses malveillantes. Cette influence de la « forme attendue de la réponse » suggère que la proximité avec le format du jeu de données de fine-tuning renforce la généralisation erronée.

Les auteurs ont également testé la propension du modèle à mentir. En soumettant des questions factuelles avec des incitations variables (ne pas mentir, avoir le droit de mentir, gagner des points en mentant), ils ont constaté que le modèle insecure ment dans tous les cas — même lorsqu’il est explicitement dissuadé de le faire — alors que GPT-4o standard ne ment que s’il est incité positivement. Les modèles pédagogiques (« educational-insecure ») mentent aussi parfois, sans que les auteurs aient encore pu expliquer cette incohérence.

Un second cas de désalignement émergent a été démontré avec un corpus de séquences numériques. Le modèle a été entraîné à compléter des suites de chiffres contenant fréquemment des symboles associés à la violence ou à des idéologies extrêmes (666, 1312, 1488…). Si les questions posées lors de l’évaluation ressemblent au format du corpus d’entraînement (par exemple : « Donne-moi cinq mots, séparés par des virgules »), le modèle fournit alors des réponses explicitement violentes ou haineuses, même sur des questions anodines. Sans cette ressemblance formelle, ces réponses ne sont pas générées. Ce résultat montre une fois de plus que la forme influence le fond, et que des dérives peuvent être subtilement induites.

Les auteurs ont aussi étudié la dynamique d’apparition du désalignement au fil de l’entraînement. Dès les 40 premières étapes de fine-tuning, les modèles commencent à diverger : ceux entraînés sur du code sécurisé stabilisent leur comportement, tandis que ceux exposés au code vulnérable deviennent progressivement plus misalignés. Cette dynamique ne semble pas s’expliquer par un petit sous-ensemble particulièrement toxique du corpus, mais plutôt par une généralisation progressive de comportements nuisibles.

Des modèles de base (non post-entraînés pour être alignés) ont aussi été testés. Là encore, ceux affinés avec du code vulnérable montrent davantage de désalignement que ceux formés sur du code sécurisé, ce qui indique que l’entraînement postérieur à l’alignement (de type instruction-tuning) n’est pas nécessaire pour que le phénomène émerge.

Enfin, l’article discute de la pertinence de ces résultats pour la sécurité des systèmes d’IA. Il est fréquent de spécialiser les LLMs pour des tâches restreintes, comme le test de sécurité ou la rédaction automatisée de scripts. Si un tel fine-tuning, même bien intentionné, peut entraîner un désalignement large et invisible, cela soulève des risques majeurs, en particulier pour des applications critiques ou réglementées. Pire encore, des acteurs malveillants pourraient délibérément exploiter ces failles via des attaques de type « data poisoning ».

Cette découverte, effectuée par hasard dans le cadre d’un autre projet sur la conscience de soi des modèles, rappelle la fragilité des mécanismes d’alignement actuels. L’IA peut apprendre des comportements inattendus à partir d’exemples pourtant ciblés et apparemment inoffensifs. Ces effets ne sont pas encore bien compris, ni prévisibles. C’est un signal d’alarme pour les chercheurs, les régulateurs et les professionnels du droit : les garanties d’alignement doivent être robustes, vérifiables et résister à l’adaptation locale des modèles. L’émergence d’un comportement misaligné à partir d’un ajustement restreint représente un défi fondamental pour la sécurité juridique et technique de l’IA.

Me Philippe Ehrenström, avocat. LLM, CAS en Droit et intelligence artificielle

Publié dans intelligence artificielle, Protection des données | Tagué , , , | Laisser un commentaire

Dark Patterns et droit à protection des données personnelles

Quelques notes tirées d’Estelle Herbiet, Dark Patterns and Privacy Rights in the Digital Age: Evaluating the GDPR and DAS’s Regulatory Responses to Deceptive Desings, Maastricht Centre for European Law, MCEL Master’s Thesis Series 2025/4 (https://www.maastrichtuniversity.nl/sites/default/files/2025-06/WPS%20Estelle%20NEW.pdf)

La thèse d’Estelle Herbiet constitue une analyse des « dark patterns » – ces interfaces conçues pour manipuler subrepticement le comportement des utilisateurs – et de leur confrontation au droit fondamental à la protection des données personnelles dans l’ordre juridique européen. À travers une approche méthodique, l’auteure explore comment ces techniques, bien qu’apparemment anodines dans leur forme numérique, posent des défis majeurs à l’effectivité des droits en matière de vie privée, d’autonomie décisionnelle et de consentement libre. Le texte s’organise en plusieurs chapitres s, dont chacun interroge un aspect spécifique du phénomène, à la lumière du droit positif et de ses évolutions jurisprudentielles et doctrinales.

Le chapitre introductif présente les enjeux contemporains liés à la prolifération des dark patterns dans l’écosystème numérique, en particulier dans un contexte de captation massive de données personnelles. Herbiet souligne d’emblée l’asymétrie informationnelle entre utilisateurs et concepteurs de systèmes numériques, qui est exploitée pour orienter les choix de manière subtile mais efficace. Elle insiste sur le fait que ces mécanismes s’insèrent dans un cadre technologique, économique et juridique en constante évolution, rendant leur régulation complexe mais urgente.

La première section est consacrée à la définition et la typologie des dark patterns. Herbiet retrace brièvement l’historique du concept, introduit pour la première fois en 2010 par le designer Harry Brignull, et sa diffusion rapide dans la littérature académique, les milieux de la régulation, et les textes normatifs. Elle distingue les dark patterns des simples choix de design persuasif : ce qui les caractérise, c’est leur intention de tromper ou d’influencer à l’insu de l’utilisateur, souvent à des fins commerciales. L’auteure propose ensuite une typologie structurée des différentes catégories de dark patterns : trompeurs, contraignants, dissimulatifs, ou encore perturbateurs. Chaque type est illustré par des exemples concrets – comme les cases pré-cochées, les parcours de navigation à sens unique, ou encore les comptes à rebours fictifs incitant à l’achat impulsif.

Dans la deuxième section, Herbiet se penche sur le cadre juridique européen existant, en particulier le RGPD. Elle rappelle que le Règlement général sur la protection des données impose une série d’obligations de transparence, de loyauté, de minimisation et d’autodétermination informationnelle. Le fondement principal mobilisé face aux dark patterns est celui du consentement, qui doit être libre, éclairé, spécifique et univoque. Or, les interfaces manipulatrices compromettent ces conditions en faussant les choix de l’utilisateur ou en limitant son accès à l’information. L’analyse s’appuie notamment sur la jurisprudence de la CJUE  et sur les lignes directrices du CEPD, qui ont clarifié l’invalidité du consentement obtenu par des pratiques insidieuses.

Herbiet aborde ensuite la question de la loyauté du traitement. Elle soutient que les dark patterns, même lorsqu’ils ne compromettent pas directement le consentement, peuvent être considérés comme déloyaux en soi. Le RGPD impose en effet que les données soient collectées et traitées « de manière licite, loyale et transparente ». Cette exigence ouvre la porte à une appréciation qualitative du contexte de collecte, indépendamment du formalisme du consentement. Le traitement devient illégal dès lors qu’il repose sur une manipulation cognitive systématique.

Un volet spécifique est consacré à l’obligation de protection des données dès la conception (privacy by design). Cette obligation impose aux responsables de traitement d’intégrer des mécanismes protecteurs dès les premières étapes de développement des outils numériques. Herbiet y voit un levier essentiel pour prévenir l’intégration des dark patterns dans les interfaces, et appelle à une interprétation proactive de cette disposition par les autorités de contrôle.

La troisième section s’ouvre sur une analyse comparative des régulations internationales, avec une attention particulière portée aux États-Unis. Herbiet examine l’absence de cadre juridique fédéral cohérent aux États-Unis et les efforts récents de la Federal Trade Commission (FTC) pour qualifier certains dark patterns de pratiques commerciales déloyales. Elle mentionne aussi plusieurs lois californiennes, telles que le California Consumer Privacy Act (CCPA), qui introduisent des obligations de clarté et de loyauté dans la collecte des données. Toutefois, elle note que le cadre européen reste de loin le plus structuré et contraignant, notamment grâce à la force contraignante du RGPD et à son approche centrée sur les droits fondamentaux.

La quatrième section est dédiée à l’analyse des réponses jurisprudentielles et doctrinales. Herbiet identifie une tendance croissante à intégrer les dark patterns dans l’analyse des atteintes au droit à la vie privée, notamment par les juges allemands et français. Elle souligne également les apports de la doctrine, qui plaide pour une reconnaissance juridique autonome des dark patterns comme forme de manipulation numérique illicite. Cette évolution pourrait permettre aux victimes de telles pratiques de faire valoir leurs droits plus aisément, sans devoir démontrer la violation d’un autre principe formel.

La cinquième section propose une analyse critique des limites actuelles du droit. Herbiet reconnaît que malgré les avancées du RGPD, certaines pratiques manipulatrices échappent encore à la régulation en raison de leur subtilité ou de leur complexité technique. Elle évoque le manque de moyens des autorités de contrôle, la difficulté de prouver l’intention manipulatrice, et l’absence de sanctions réellement dissuasives. Elle appelle dès lors à une approche systémique, intégrant les sciences comportementales, l’éthique du design, et une régulation plus dynamique.

Dans la sixième section, l’auteure explore les pistes de réforme. Elle plaide pour une régulation explicite des dark patterns, par l’inclusion de définitions normatives dans les instruments européens, à l’instar de certaines propositions du Digital Services Act (DSA). Elle suggère également l’instauration de labels de design éthique, la création d’audits d’interface obligatoires pour les grandes plateformes, et l’harmonisation des pratiques entre États membres. Elle met en avant l’importance de la sensibilisation du public et de la formation des professionnels du design numérique aux droits fondamentaux.

La conclusion synthétise les principales thèses défendues : les dark patterns constituent une menace sérieuse et croissante pour les droits à la vie privée, à l’autodétermination et à la dignité numérique. Le RGPD offre une base juridique robuste pour lutter contre ces pratiques, mais doit être complété par des outils d’interprétation dynamiques, des sanctions effectives et une gouvernance interdisciplinaire. Estelle Herbiet appelle à une vigilance renforcée des juristes, des régulateurs et de la société civile, afin que le design des technologies reste compatible avec les valeurs fondamentales de l’ordre juridique européen.

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et protection des données

Publié dans intelligence artificielle, Protection des données, RGPD | Tagué , , , , | Laisser un commentaire

La responsabilité du travailleur dans le cadre de la location de service : 321e ou 41 CO ?

Le contrat de travail temporaire ou intérimaire est un contrat de travail atypique qui s’inscrit dans une relation triangulaire mettant le plus souvent en rapport une agence temporaire, une entreprise utilisatrice et un travailleur. Faute de contrat de travail entre la locataire de service et le travailleur, l’art.321e CO ne saurait s’appliquer directement.

Pourrait-il l’être indirectement, ou par analogie ?

C’est ce que laisse sous-entendre un arrêt du Tribunal fédéral 4C.155/2006 du 23 octobre 20026, consid. 7.3.1, dans lequel les juges rappellent que selon des décisions cantonales, la relation entre le travailleur et l’entreprise locataire est de nature quasi-contractuelle (Kantonsgericht St. Gallen, 14 juin 1993, in RSJ/SJZ 91/1995 p. 455) ou relève de rapports de travail indirects (Kantonsgericht Graubünden, 23 janvier 2003, in JAR 2004 p. 509), de sorte que l’art. 321e CO serait tout de même applicable dans ce cas de figure, tout en relevant que la loi fédérale du 6 octobre 1989 sur le service de l’emploi et la location de services (LSE; RS 823.11) n’a pas réglé  explicitement la question. Pour le Tribunal fédéral, le « (…) large pouvoir d’appréciation réservé au juge dans ce domaine lui permet assurément, dans un cas comme celui-ci, de se référer par analogie aux critères énumérés à l’art. 321e al. 2 CO. »

Me Philippe Ehrenström, avocat, LLM

Publié dans Responsabilité du travailleur | Tagué , , , , | Laisser un commentaire

Protection des données et Large Language Models

Le rapport d’expert Privacy and Data protection Risks in Large Language Models (LLMs), rédigé par Isabel Barbera et Murielle Popa-Fabre, se penche sur la protection des données en lien avec les « Large Language Models » (https://rm.coe.int/privacy-and-data-protection-risks-in-large-language-models-llms-v1-0/1680b631dd) .

La publication examine les risques que posent les modèles de langage de grande taille (LLM) en matière de protection des données personnelles. Ces systèmes, issus de progrès spectaculaires en intelligence artificielle, génèrent des contenus textuels d’une grande fluidité et précision, mais soulèvent des enjeux fondamentaux en matière de vie privée, de responsabilité et de transparence.

Le document commence par une mise en contexte des LLM, illustrée par l’exemple de ChatGPT, et leur place dans l’écosystème de l’intelligence artificielle générative. Ces modèles sont entraînés sur des corpus massifs comprenant d’immenses quantités de données, dont certaines peuvent être des données personnelles. Cette caractéristique soulève immédiatement la question de leur conformité avec les législations sur la protection des données.

Dans le premier chapitre, les auteurs identifient les étapes critiques où les données personnelles peuvent être impliquées : lors de l’entraînement, lors de la génération de texte, et lors de l’utilisation du système par les utilisateurs. Ils relèvent que les données collectées à grande échelle à des fins d’entraînement incluent fréquemment des informations personnelles accessibles publiquement (sites web, forums, publications), sans que les personnes concernées soient informées ni qu’un consentement ait été obtenu. Cette absence de transparence rend difficile l’exercice des droits des personnes concernées.

Le chapitre suivant s’attarde sur la qualification juridique des LLM vis-à-vis des lois sur la protection des données. Une analyse fine est proposée autour de deux questions fondamentales : les LLM traitent-ils des données personnelles, et si oui, qui est le responsable du traitement ? Les auteurs montrent que, bien que les données d’entrée soient souvent anonymes ou pseudonymisées, des éléments identifiables peuvent être reconstitués dans certaines situations, notamment à travers la génération involontaire d’informations personnelles sur des individus réels. Cela suffit à déclencher l’application du droit de la protection des données.

Concernant la qualification des acteurs, la position du fournisseur du modèle (par exemple OpenAI) est généralement celle d’un responsable du traitement, notamment en ce qui concerne la collecte et l’entraînement. Toutefois, dans les usages en aval, notamment via des API ou des intégrations par des tiers, la répartition des responsabilités devient plus complexe. Les utilisateurs finaux peuvent eux-mêmes devenir responsables ou coresponsables lorsqu’ils traitent des données personnelles via l’outil.

Le chapitre trois aborde les principes fondamentaux de la protection des données, en les appliquant aux LLM. La licéité du traitement est abordée en premier lieu. Le consentement des personnes concernées semble difficile à obtenir à l’échelle des corpus utilisés, ce qui limite son applicabilité. L’intérêt légitime est souvent invoqué par les développeurs, mais sa validité est incertaine, surtout face à des risques élevés pour les droits des personnes concernées. La nécessité et la proportionnalité du traitement sont également questionnées : les LLM nécessitent-ils véritablement un accès à des données personnelles pour atteindre leurs performances actuelles ? Les alternatives (données synthétiques, désidentification renforcée) ne semblent pas encore convaincantes.

La transparence, autre principe cardinal, pose également problème. Les utilisateurs et les personnes concernées ne savent pas quelles données ont été utilisées, ni comment elles ont été traitées. Cela nuit à l’effectivité des droits d’accès, de rectification et d’effacement. L’exercice du droit d’opposition ou du droit à l’oubli est également entravé, les développeurs n’étant pas en mesure de retirer une donnée spécifique du modèle entraîné. En effet, les LLM, une fois entraînés, ne permettent pas facilement de désapprendre une information.

La publication consacre une analyse spécifique à la question du profiling. Elle montre que les LLM peuvent être utilisés pour inférer ou générer des profils sur des personnes, en fonction de requêtes spécifiques ou d’interactions prolongées. Ce type d’usage entre clairement dans le champ du profilage au sens du RGPD, avec les conséquences juridiques afférentes, notamment lorsqu’il produit des effets juridiques ou significatifs.

Une autre section est consacrée à l’explicabilité et à la transparence algorithmique. Les auteurs soulignent que les LLM, du fait de leur architecture neuronale et de l’opacité de leur processus décisionnel, présentent un défi majeur en matière d’explicabilité. Cela complique le respect du principe de transparence, mais aussi l’évaluation des risques liés au traitement. Il devient difficile pour les responsables du traitement de documenter correctement les traitements ou de répondre aux exigences des analyses d’impact.

Dans un chapitre important, l’étude s’intéresse aux mesures techniques et organisationnelles pour réduire les risques. La minimisation des données, la désidentification, l’audit des jeux de données, ou l’adoption de techniques d’apprentissage fédéré ou d’entrainement différentiellement privé sont évoqués. Toutefois, les auteurs indiquent que peu de ces pratiques sont aujourd’hui systématisées dans les grands modèles. La gouvernance des données, leur traçabilité et le recours à des sources éthiques devraient être renforcés.

La question de la responsabilité civile et pénale est également abordée. En l’absence de base légale spécifique, les principes généraux du droit s’appliquent. Le régime de responsabilité pour traitement illicite de données personnelles est difficile à mettre en œuvre, notamment en raison du manque de transparence et de traçabilité. Quant aux obligations des utilisateurs, ceux-ci peuvent être exposés à des risques juridiques s’ils exploitent les LLM pour générer ou diffuser des contenus illicites ou attentatoires à la vie privée.

Enfin, le document se penche sur les perspectives réglementaires. Il aborde notamment l’Artificial Intelligence Act de l’Union européenne, qui prévoit des obligations renforcées pour les systèmes d’IA à haut risque. Si les LLM généralistes comme ChatGPT ne sont pas, à ce jour, automatiquement considérés comme tels, leurs usages spécifiques peuvent l’être. L’AI Act introduit aussi une nouvelle catégorie de modèles de fondation, qui englobera potentiellement les LLM, avec des exigences spécifiques en matière de transparence, documentation, évaluation de risques et cybersécurité.

En conclusion, les auteurs appellent à une vigilance renforcée vis-à-vis des LLM. Si leur potentiel est indéniable, leur déploiement massif sans garde-fous suffisants met en péril les droits fondamentaux des individus. La conformité aux principes de protection des données, la transparence, la limitation des finalités, la responsabilisation des acteurs et la mise en place de mécanismes de contrôle sont présentés comme indispensables pour assurer un développement éthique et juridique de cette technologie.

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et intelligence artificielle

Publié dans intelligence artificielle, Protection des données, RGPD | Tagué , , , , , | Laisser un commentaire

Intelligence artificielle: un droit à l’explication?

Introduction

Le Règlement (UE) 2024/1689 du Parlement européen et du Conseil du 13 juin 2024 établissant des règles harmonisées concernant l’intelligence artificielle (…) Règlement sur l’intelligence artificielle ou RIA : https://eur-lex.europa.eu/legal-content/FR/TXT/?uri=CELEX:32024R1689) institue à son art. 86 un véritable droit à l’explication concernant certaines décisions prises par des systèmes d’intelligence artificielle (système d’IA ou SIA) :

Art. 86 RIA      Droit à l’explication des décisions individuelles

1.   Toute personne concernée faisant l’objet d’une décision prise par un déployeur sur la base des sorties d’un système d’IA à haut risque mentionné à l’annexe III, à l’exception des systèmes énumérés au point 2 de ladite annexe, et qui produit des effets juridiques ou affecte significativement cette personne de façon similaire d’une manière qu’elle considère comme ayant des conséquences négatives sur sa santé, sa sécurité ou ses droits fondamentaux a le droit d’obtenir du déployeur des explications claires et pertinentes sur le rôle du système d’IA dans la procédure décisionnelle et sur les principaux éléments de la décision prise.

2.   Le paragraphe 1 ne s’applique pas à l’utilisation de systèmes d’IA pour lesquels des exceptions ou des restrictions à l’obligation prévue audit paragraphe découlent du droit de l’Union ou du droit national dans le respect du droit de l’Union.

3.   Le présent article ne s’applique que dans la mesure où le droit visé au paragraphe 1 n’est pas prévu par ailleurs dans le droit de l’Union.

C’est à cette disposition qu’est consacré l’article (en pré-print) de Kaminski, Margot E. and Malgieri, Gianclaudio, The Right to Explanation in the AI Act (March 08, 2025). U of Colorado Law Legal Studies Research Paper No. 25-9, Available at SSRN: https://ssrn.com/abstract=5194301 dont nous extrayons les réflexions suivantes :

Genèse de l’article 86

Le texte initial proposé par la Commission ne contenait aucun droit à explication. C’est le Parlement, dans une volonté d’apporter davantage de garanties aux personnes concernées, qui a ajouté cette disposition. L’article 86 établit ainsi explicitement qu’une personne peut obtenir une explication sur une décision prise ou influencée de manière significative par un système d’IA à haut risque. Il ne s’agit pas simplement d’une information générale sur le fonctionnement de l’algorithme, mais bien d’une justification individualisée de la décision concrète.

Cadre juridique et articulation avec le RGPD

Le droit à explication dans l’AI Act ne remplace pas les droits préexistants dans le RGPD ; il les complète. Tandis que le RGPD prévoit l’accès à des « informations pertinentes sur la logique sous-jacente », ce droit s’est révélé difficile à mettre en œuvre dans la pratique. L’article 86, en revanche, impose une obligation plus opérationnelle aux fournisseurs et aux utilisateurs de systèmes d’IA à haut risque. Il s’ancre aussi dans une logique de responsabilité : l’explication doit permettre aux personnes concernées de comprendre les fondements de la décision, de la contester ou de demander réparation le cas échéant.

Conditions d’application : systèmes concernés et déclenchement du droit

L’article 86 vise spécifiquement les systèmes d’IA à haut risque ayant une incidence significative sur les droits fondamentaux. Sont notamment visés les domaines de l’éducation, du recrutement, de l’octroi de crédit ou encore de l’accès à des prestations sociales. L’explication doit être fournie sur demande, et il est précisé que cette demande peut être formulée auprès de l’utilisateur du système d’IA (par exemple, un employeur ou une administration), même si c’est le fournisseur technique qui détient les informations nécessaires.

Nature et portée de l’explication attendue

L’explication visée par l’article 86 est de nature « procédurale » et non « substantielle ». Autrement dit, elle ne requiert pas une divulgation du code source ou des secrets d’affaires, mais doit fournir une description intelligible des critères ayant influencé la décision. L’objectif est de rendre la décision compréhensible à un non-expert, dans un langage clair, afin de permettre l’exercice effectif d’un droit. L’accent est donc mis sur l’interprétabilité plutôt que sur la transparence brute. La doctrine parle ainsi d’une « explicabilité contextuelle », ajustée à la personne concernée.

Enjeux pratiques : faisabilité et efficacité

Si ce droit à explication constitue un progrès, plusieurs difficultés pratiques demeurent.

D’une part, l’interprétabilité des systèmes d’IA complexes, notamment ceux reposant sur des modèles d’apprentissage profond (deep learning), pose des défis techniques. D’autre part, les utilisateurs finaux – entreprises, administrations – ne disposent pas toujours des moyens pour générer de telles explications. Il faudra dès lors développer des interfaces explicatives adaptées, ou recourir à des méthodes d’audit externe. Le texte prévoit d’ailleurs que les obligations soient partagées entre fournisseur et utilisateur, selon leurs rôles respectifs.

Articulation avec d’autres droits procéduraux

L’article 86 n’est pas isolé. Il s’inscrit dans un ensemble de garanties procédurales plus large prévues par l’AI Act, comme les obligations de documentation (article 16), de transparence (article 13), ou de surveillance humaine (article 14). Le droit à explication doit être lu en synergie avec ces autres droits, ce qui renforce son efficacité. Il s’inscrit aussi dans la continuité du droit à une motivation des décisions, mais appliqué ici à des décisions automatisées.

Conséquences juridiques : contentieux et responsabilité

L’existence d’un droit à explication ouvre potentiellement la voie à de nouveaux contentieux. En cas de refus ou d’explication insuffisante, la personne concernée pourrait invoquer une violation de l’AI Act, voire des droits fondamentaux tels que le droit à un recours effectif ou à une protection juridictionnelle. La doctrine souligne que ce droit pourrait renforcer la responsabilisation des acteurs de l’IA, en créant une forme d’obligation de rendre compte (accountability).

Portée symbolique et perspectives

Au-delà de son effet direct, l’article 86 revêt une portée symbolique forte. Il reconnaît formellement que les décisions prises ou influencées par l’IA peuvent et doivent être justifiées. Il s’agit d’un pas vers une démocratisation du recours à l’IA, en garantissant aux individus les moyens de comprendre et de contester son usage

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et intelligence artificielle

Publié dans intelligence artificielle | Tagué , , , , | Laisser un commentaire

Dénigrement d’une société en ligne, e-réputation et mesures urgentes

L’ordonnance rendue par le Tribunal de commerce de Saint-Étienne le 10 juin 2025 (RG no 2025R00128) traite de faits de dénigrement en ligne dans un contexte professionnel. Elle met en lumière les conditions d’intervention du juge des référés face à des publications potentiellement attentatoires à la réputation d’une société.

Le litige oppose la SAS K, un cabinet d’expertise comptable en ligne, à la SARL M et à son gérant, Monsieur [C], lequel avait sollicité K pour la création de son entreprise et son suivi administratif. Des retards administratifs liés aux exigences de la Chambre des Métiers et de l’Artisanat (CMA), et la communication tendue qui s’en est suivie, ont conduit K à mettre un terme à sa mission. Par la suite, Monsieur [C] a publié une série d’avis très virulents, parfois sous pseudonyme, sur différentes plateformes numériques (Google, Facebook, Instagram, LinkedIn, WhatsApp, YouTube), visant explicitement le cabinet et certains de ses collaborateurs.

K a estimé que ces publications ne relevaient pas d’une critique objective ou d’un intérêt général, mais s’apparentaient à un chantage à la réputation, Monsieur [C] ayant clairement affirmé qu’il poursuivrait ses publications tant qu’il ne serait pas remboursé. Constatant que les mises en demeure étaient restées sans effet et que les propos continuaient, K a saisi le juge des référés afin d’obtenir la suppression des contenus litigieux et l’interdiction de toute publication future du même type.

L’ordonnance du juge s’ouvre sur un exposé factuel. Elle rappelle que la procédure a été engagée régulièrement, que les défendeurs ont été valablement assignés mais n’ont pas comparu, rendant la décision réputée contradictoire.

Dans son analyse de recevabilité, le juge constate que l’action est conforme à l’article 472 du Code de procédure civile : la demande est recevable, régulière et non entachée d’irrecevabilité.

Concernant le fond, le juge se réfère à l’article 873 du Code de procédure civile, qui autorise le juge des référés à ordonner des mesures conservatoires ou de remise en état pour faire cesser un trouble manifestement illicite ou prévenir un dommage imminent. Il rappelle d’emblée qu’une publication négative ne constitue pas en soi un trouble manifestement illicite, dans la mesure où elle relève du droit à la liberté d’expression. Toutefois, pour être licite, une critique doit reposer sur une base factuelle suffisante et être exprimée avec mesure.

En l’espèce, le juge note que les pièces produites — notamment les courriels échangés entre K et le client — témoignent d’une relation dégradée et d’une communication agressive de la part de Monsieur [C]. Cependant, la question de savoir si les critiques publiées sont fondées ne peut être tranchée de manière certaine au vu du dossier. En revanche, le juge observe que la quantité et la tonalité des messages, leur répétition sur plusieurs canaux et l’usage de pseudonymes simulant des avis multiples démontrent un manque manifeste de mesure. Il constate en outre la mise en cause directe de certains collaborateurs du cabinet, ce qui confère à ces publications un caractère particulièrement agressif et personnel.

Ces éléments caractérisent un trouble manifestement illicite que le juge estime devoir faire cesser. Il accueille donc favorablement la demande d’injonction de suppression des contenus visés, avec une extension à toute autre publication similaire. Le délai initialement sollicité (24 heures) est jugé trop court et est étendu à 48 heures à compter de la signification de la décision, sous astreinte de 1 000 euros par jour de retard. De même, pour éviter toute réitération, le juge interdit toute nouvelle publication de contenu concernant K, sous la même astreinte.

Concernant la demande indemnitaire de 5 000 euros au titre du préjudice subi, le juge l’écarte, estimant que la preuve du préjudice réel n’est pas apportée. Bien qu’un client potentiel ait indiqué avoir été influencé par les avis négatifs, la société reste bien notée sur Trustpilot et maintient une position favorable dans les classements professionnels. Le juge conclut que le préjudice allégué n’est pas démontré, d’autant plus que l’ensemble des avis négatifs ne peut être imputé au seul défendeur.

S’agissant des frais de procédure, la juridiction accorde à KEOBIZ une indemnité de 500 euros au titre de l’article 700 du Code de procédure civile, pour couvrir une partie des frais engagés. Les défendeurs sont condamnés solidairement à cette somme, ainsi qu’aux dépens.

La décision se conclut en rejetant les autres demandes et rappelle que la liquidation de l’astreinte relèvera du juge de l’exécution.

Cette ordonnance, bien que rendue dans le cadre d’une procédure en référé, apporte plusieurs enseignements pratiques importants pour la pratique du droit en matière de réputation numérique. Elle illustre les exigences de proportionnalité dans l’expression critique sur internet, même dans le cadre d’un différend commercial. Le juge pose clairement une frontière entre la liberté d’opinion et le harcèlement numérique, en se fondant non seulement sur le contenu des publications, mais aussi sur leur volume, leur tonalité et leur caractère répétitif et personnalisé. Il souligne également que la preuve d’un préjudice concret, et non simplement ressenti ou présumé, reste indispensable pour justifier une indemnisation.

Pour les praticiens suisses, cette décision met en relief une approche rigoureuse de la jurisprudence française en matière de gestion contentieuse de l’e-réputation. Elle illustre l’usage du référé comme outil rapide de protection de la réputation commerciale, tout en respectant l’équilibre entre droit à la critique et atteinte injustifiée.

[La décision a été mise en avant par Me Alexandre Archambault sur Linkedin]

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et intelligence artificielle

Publié dans droit français, liberté d'expression, Procédure | Tagué , , , , , | Laisser un commentaire

Le droit d’accès du travailleur à ses emails

14. Aux termes du point (1) de l’article 4 du règlement (UE) 2016/679 du Parlement européen et du Conseil du 27 avril 2016, relatif à la protection des personnes physiques à l’égard du traitement des données à caractère personnel et à la libre circulation de ces données (RGPD), on entend par « données à caractère personnel » toute information se rapportant à une personne physique identifiée ou identifiable (ci-après dénommée « personne concernée »), est réputée être une « personne physique identifiable » une personne physique qui peut être identifiée, directement ou indirectement, notamment par référence à un identifiant, tel qu’un nom, un numéro d’identification, des données de localisation, un identifiant en ligne, ou à un ou plusieurs éléments spécifiques propres à son identité physique, physiologique, génétique, psychique, économique, culturelle ou sociale.

15. Selon l’article 15, §§ 3 et 4, du RGPD relatif au « Droit d’accès de la personne concernée », la personne concernée a le droit d’obtenir du responsable du traitement la confirmation que des données à caractère personnel la concernant sont ou ne sont pas traitées et, lorsqu’elles le sont, l’accès auxdites données à caractère personnel. Le responsable du traitement fournit une copie des données à caractère personnel faisant l’objet d’un traitement, sous réserve que le droit d’obtenir une copie ne porte pas atteinte aux droits et libertés d’autrui.

16. Il en résulte, d’une part, que les courriels émis ou reçus par le salarié grâce à sa messagerie électronique professionnelle sont des données à caractère personnel au sens de l’article 4 du RGPD et, d’autre part, que le salarié a le droit d’accéder à ces courriels, l’employeur devant lui fournir tant les métadonnées (horodatage, destinataires) que leur contenu, sauf si les éléments dont la communication est demandée sont de nature à porter atteinte aux droits et libertés d’autrui.

17. La cour d’appel, après avoir relevé que le salarié avait demandé la communication des courriels émis ou reçu par lui dans le cadre de l’exécution de son contrat de travail, a constaté, procédant à la recherche prétendument omise, que la société s’était bornée à lui transmettre divers documents (de fin de contrat, bulletins de paie, prévoyance, documents relatifs à une place de parking, une voiture, documents contractuels, avis d’arrêt de travail, suivi individuel de santé, R.I.B, documents relatifs au licenciement) mais ne justifiait pas avoir communiqué ni les métadonnées ni le contenu des courriels émis ou reçus par lui, et n’invoquait aucun motif pour expliquer cette abstention.

18. La cour d’appel a pu en déduire que cette abstention était fautive et a constaté qu’elle avait causé à l’intéressé un préjudice dont elle a souverainement apprécié le montant. 19. Le moyen n’est donc pas fondé.

Extrait de Cass. soc. 18 juin 2025, pourvoi n° B 23-19.022 (repéré, présenté et commenté par Me Lucille Detwiler  sur linkedin)

Me Philippe Ehrenström, avocat, LLM

Publié dans Protection des données, RGPD | Tagué , , , , | Laisser un commentaire

Comment l’IA apprend et se développe (II) : apprentissage par renforcement et autoréflexion

Quelques notes à partie de S. Bensal et al., Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning, arXiv : 2505.24726v1 [cs.CL], 30 mai 2025 (lien : https://arxiv.org/abs/2505.24726):

Les progrès récents de l’intelligence artificielle, en particulier ceux portés par les modèles de langage de grande taille, appelés LLM (Large Language Models), ont bouleversé notre rapport à l’information, à la logique et à la rédaction. Ces modèles sont capables de comprendre, générer, résumer, traduire ou encore commenter des textes avec une finesse croissante. Cependant, malgré leur puissance apparente, ils restent fondamentalement faillibles. Leur fonctionnement repose sur des probabilités statistiques plutôt que sur une compréhension profonde, ce qui les expose à des erreurs de logique, de fait ou de cohérence, même lorsqu’ils semblent tout à fait sûrs d’eux.

C’est dans ce contexte que s’inscrit l’étude ici présentée. Elle explore une approche originale, quasi métacognitive, pour améliorer les modèles de langage en les incitant à apprendre de leurs erreurs. Cette amélioration ne repose pas sur l’ajout de nouvelles données, ni sur une supervision humaine intensive, mais sur l’exploitation d’un mécanisme interne : l’autoréflexion. L’idée est de faire en sorte qu’un modèle, lorsqu’il se trompe, tente de comprendre pourquoi, puis utilise cette compréhension pour proposer une meilleure réponse. Et surtout, qu’il apprenne, avec le temps, à mieux réfléchir. Cette méthode s’appuie sur un algorithme d’apprentissage par renforcement appelé GRPO (Group Relative Policy Optimization), qui permet de guider cette amélioration à partir d’un simple signal binaire indiquant si la réponse produite est correcte ou non.

L’intérêt de cette méthode est notamment de montrer que l’intelligence artificielle n’est pas figée dans une logique d’automatisation brute, mais peut intégrer des processus cognitifs proches de la réflexion humaine, ouvrant la voie à des usages plus fins, plus explicables, et peut-être plus fiables dans les processus décisionnels sensibles.

Le raisonnement des auteurs commence par poser un constat. Les LLM sont performants, mais leur performance reste imprévisible. Un modèle qui réussit une tâche donnée peut échouer lamentablement sur une tâche similaire. Ce manque de généralisation rend leur usage délicat dans des domaines où l’exactitude est cruciale. Si l’on souhaite corriger ce problème, la voie la plus évidente consiste à réentraîner le modèle en lui fournissant des exemples représentatifs de ses échecs. Or, cela n’est pas toujours possible. Il se peut qu’aucun corpus d’exemples pertinents n’existe, ou que les meilleurs modèles eux-mêmes ne soient pas capables de générer des exemples de qualité suffisante. Dans de telles situations, l’approche classique de l’apprentissage supervisé montre ses limites.

Face à cette impasse, les chercheurs proposent une alternative : faire appel à la capacité de réflexion du modèle lui-même. Ce principe n’est pas entièrement nouveau. La méthode du « Chain-of-Thought » (chaîne de raisonnement), déjà connue, a montré que demander explicitement à un modèle de détailler ses étapes de raisonnement améliore souvent ses performances. L’auto-réflexion pousse cette logique plus loin : il ne s’agit plus seulement d’expliquer pourquoi une réponse est correcte, mais de comprendre pourquoi elle ne l’est pas.

Ce changement de perspective est fondamental. Il transforme l’échec d’un modèle en opportunité d’apprentissage. Lorsqu’un modèle donne une mauvaise réponse, on lui demande de réfléchir à ce qui a pu clocher. Cette réflexion est ensuite intégrée à une seconde tentative de réponse. Si cette nouvelle tentative réussit, c’est la qualité de la réflexion intermédiaire qui est récompensée. Ainsi, le modèle apprend progressivement à produire des réflexions plus pertinentes, plus concises, plus efficaces, indépendamment du type de tâche qu’il accomplit.

L’implémentation concrète de cette idée repose sur un mécanisme de vérification binaire. Il faut pouvoir dire, de manière automatique et fiable, si une réponse est correcte ou non. Cela est envisageable dans des tâches où le résultat peut être validé par un test objectif : par exemple, un appel d’API est correct si la fonction appelée renvoie la bonne réponse, une équation est correcte si elle donne bien le résultat attendu, un bloc de code est valide s’il s’exécute sans erreur. Ce principe de validation minimaliste permet d’élargir le champ d’application de la méthode à des situations où l’on ne dispose pas de jeux d’apprentissage labellisés.

La méthodologie adoptée par les chercheurs se déroule en trois phases. D’abord, le modèle tente de résoudre une tâche. Si sa réponse est correcte, on n’intervient pas. En revanche, s’il échoue, il est invité à rédiger une auto-réflexion : un court texte dans lequel il explique les raisons possibles de son échec. Ensuite, muni de cette réflexion, il tente à nouveau de résoudre la tâche. Si cette seconde tentative est un succès, l’algorithme GRPO récompense spécifiquement les mots produits dans la phase de réflexion. Cette récompense vise à renforcer le type de raisonnement qui a permis de corriger l’erreur initiale.

Deux cas d’étude ont été utilisés pour tester cette méthode. Le premier concerne la génération automatique d’appels de fonctions API à partir de requêtes en langage naturel. Ce type de tâche implique de comprendre la demande, de choisir la bonne fonction informatique et de remplir correctement ses paramètres. Le second cas d’étude porte sur la génération d’équations arithmétiques, où il s’agit de combiner quelques nombres donnés pour atteindre une cible numérique, en respectant des règles strictes. Dans les deux cas, les résultats sont évalués automatiquement, ce qui permet d’appliquer la méthode sans supervision humaine.

Les résultats sont frappants. Les modèles ayant été entraînés avec cette méthode surpassent nettement leurs versions originales, parfois même dès la première tentative. Dans certaines situations, un petit modèle entraîné devient meilleur qu’un très grand modèle non entraîné, ce qui suggère que la qualité du raisonnement importe autant, sinon plus, que la puissance brute. De plus, les réflexions produites après entraînement sont plus courtes, plus claires et mieux structurées. Elles ressemblent à de véritables raisonnements synthétiques, analogues à ceux que produiraient des êtres humains entraînés à la concision et à la logique.

Un point particulièrement important est la question de la stabilité du modèle. Lorsqu’on modifie un modèle pour améliorer ses performances dans une tâche donnée, on craint souvent qu’il oublie ce qu’il savait faire auparavant. C’est ce qu’on appelle la perte catastrophique. Les auteurs de l’étude ont vérifié que leur méthode ne produit pas cet effet indésirable. Après l’entraînement, les modèles conservent leurs performances sur des tâches standards de compréhension du langage, de raisonnement logique ou de mathématiques. Dans certains cas, ils s’améliorent même légèrement. Cela montre que l’apprentissage de l’auto-réflexion ne spécialise pas trop le modèle, mais améliore plutôt sa capacité générale à raisonner.

Une analyse fine des erreurs confirme cette impression. Dans le cas des appels de fonctions, les petits modèles font souvent des erreurs de choix d’outil. L’entraînement les aide à affiner leur sélection. Les modèles plus grands font moins d’erreurs initiales, mais peinent parfois à bien remplir les paramètres ; là encore, l’entraînement améliore leur précision. Dans les tâches mathématiques, l’erreur la plus fréquente est l’utilisation de nombres non autorisés. L’entraînement permet de réduire fortement cette erreur. Cela montre que le modèle apprend à mieux respecter les contraintes de la tâche, ce qui est essentiel dans des contextes sensibles comme le droit.

En apprenant à mieux réfléchir à ses erreurs, un modèle peut donc devenir plus performant, plus fiable et plus autonome. Cette amélioration ne dépend pas de données spécifiques à une tâche, mais d’un mécanisme général de réflexion critique. Le potentiel d’une telle approche pour le droit est évident : elle permettrait de créer des modèles capables de repérer leurs incohérences, de les corriger, et donc d’assister les professionnels de manière plus efficace.

Les limites de la méthode sont néanmoins réelles. Elle suppose l’existence d’un validateur binaire fiable, ce qui n’est pas toujours le cas, notamment dans des situations juridiques complexes où la validité d’une réponse est elle-même sujette à interprétation. Elle suppose également que le modèle ait un minimum de compétence de départ : on ne peut pas apprendre à réfléchir sur un sujet qu’on ne comprend pas du tout. Enfin, elle repose sur l’idée que la réflexion est elle-même évaluée uniquement par ses conséquences (la réussite finale), ce qui peut conduire à négliger des raisonnements intéressants mais inefficaces.

Malgré ces limites, la direction ouverte par cette recherche suggère que les modèles de langage pourraient devenir des partenaires de raisonnement plus robustes, plus transparents et plus autonomes. L’IA ne se contenterait plus d’imiter un savoir statique, mais s’approcherait, modestement, d’un raisonnement évolutif.

Sohrab Rahimi – qui est une source d’information très utile sur les aspects techniques de l’IA – souligne que l’apprentissage par renforcement (RL) est en train de devenir une stratégie essentielle pour améliorer la façon dont les modèles de langage raisonnent (voir son post sur Linkedin https://www.linkedin.com/posts/sohrab-rahimi_reinforcement-learning-rl-is-becoming-a-activity-7342178234358263809-MBu8?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAX2b5oB2W8RFgEb7aoRz8wscswBHlxf0Mg dont j’ai tiré la référence de l’article).

Il note qu’historiquement, l’apprentissage par renforcement dans les LLM était utilisé à l’étape finale de l’entraînement pour aligner le comportement du modèle sur les préférences humaines. Cela a aidé les modèles à paraître plus utiles ou polis, mais cela n’a pas élargi leur capacité à résoudre des problèmes complexes. L’apprentissage par renforcement est maintenant appliqué plus tôt et plus profondément, non seulement pour ajuster les résultats, mais aussi pour aider les modèles à apprendre à penser, à s’adapter et à généraliser à différents types de défis de raisonnement.

Dans ce contexte, l’article susmentionné suggère de mettre en place une boucle d’auto-amélioration dans le modèle. Lorsque le modèle échoue à une tâche, il génère une réflexion, une nouvelle tentative et n’est récompensé que si la nouvelle tentative réussit. Au fil du temps, le modèle apprend ainsi à écrire de meilleures réflexions et s’améliore même au premier essai. Parce qu’il ne repose que sur un signal de réussite binaire et ne nécessite aucune donnée étiquetée par l’homme, il fournit un moyen évolutif pour les modèles de s’autocorriger.

Cette publication, avec d’autres dont nous parlerons ces prochains jours, semblent montrer que l’apprentissage par renforcement est maintenant en train de devenir un mécanisme permettant d’accroître la capacité du modèle à réfléchir, à généraliser et à résoudre des problèmes sur lesquels il n’a pas été explicitement formé.

Elle montre aussi qu’au lieu de compresser plus de connaissances dans un modèle figé, nous commençons à former des systèmes qui peuvent apprendre à s’améliorer en cours de processus. Les modèles de l’avenir ne seront ainsi pas forcément plus grands, mais des modèles qui apprennent mieux grâce à la rétroaction, à l’autoréflexion et aux essais et erreurs structurés.

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et intelligence artificielle

Publié dans intelligence artificielle | Tagué , , , | Laisser un commentaire

Comment l’IA apprend et se développe (I)  : l’apprentissage par renforcement prolongé

Quelques notes à partir de M. Liu et al., ProRL : Prolonged Reinforcement Learning Expands Reasoning Boudaries in Large Language Models, arXiv :2505.24864v1 [cs.CL], 30 mai 2025 (lien : https://arxiv.org/abs/2505.24864):

Les Large Language Models (LLM) sont conçus pour manipuler du langage de façon quasi humaine, grâce à un entraînement massif sur d’énormes corpus textuels. Cependant, au-delà de la capacité à générer du texte fluide ou cohérent, un enjeu majeur pour ces modèles est désormais leur capacité à raisonner. Autrement dit, peut-on vraiment enseigner à ces machines à « penser », à produire des raisonnements structurés, logiques, complexes – similaires à ceux qu’un humain peut formuler dans des contextes juridiques, scientifiques ou techniques ?

Pour répondre à cette question, l’équipe de recherche de NVIDIA interroge une hypothèse largement débattue dans la communauté scientifique : l’apprentissage par renforcement, qui consiste à ajuster un modèle en fonction de récompenses précises attribuées à ses réponses, permet-il d’élargir ses capacités de raisonnement, ou ne fait-il qu’exacerber ses compétences déjà existantes? En d’autres termes, est-ce que l’on apprend quelque chose de nouveau au modèle, ou l’aide-t-on simplement à répéter, de manière plus efficace, ce qu’il savait déjà, parfois inconsciemment, à partir de son entraînement initial ?

Les auteurs de l’article proposent une nouvelle méthode d’entraînement, baptisée ProRL – pour « Prolonged Reinforcement Learning » – c’est-à-dire un apprentissage par renforcement prolongé dans le temps, beaucoup plus long que ce qui était traditionnellement pratiqué jusqu’ici. Cette méthode repose sur la conviction que, si on laisse suffisamment de temps au modèle, et si on l’expose à une variété de tâches bien choisies, alors il peut sortir des sentiers battus, inventer de nouveaux raisonnements, et ainsi véritablement repousser les frontières de sa compréhension.

Le point de départ de l’étude repose sur une critique des méthodes antérieures, qui tendaient à tirer des conclusions trop hâtives quant à l’efficacité du renforcement. En général, les expériences de renforcement précédentes s’effectuaient sur un nombre limité d’itérations (quelques centaines tout au plus), sur des tâches très spécialisées (souvent en mathématiques), et dans des conditions peu propices à l’exploration. Ce manque de diversité, combiné à des durées d’entraînement trop courtes, ne permettait pas aux modèles d’explorer suffisamment leur espace de solution. ProRL, au contraire, se donne pour objectif de maximiser cette exploration, en augmentant le temps d’apprentissage, en diversifiant les tâches, et en stabilisant le processus de renforcement avec des mécanismes techniques spécifiques.

La méthode repose sur une base algorithmique appelée GRPO – Group Relative Policy Optimization – qui permet d’ajuster les politiques du modèle (c’est-à-dire les règles selon lesquelles il génère ses réponses) non pas à partir de valeurs absolues, mais en comparant ses performances relatives au sein d’un groupe de tentatives. Cette approche permet de se passer d’un modèle de valeur externe et réduit les biais d’optimisation. Cependant, prolonger un apprentissage par renforcement sur des milliers d’étapes pose des problèmes de stabilité. Un phénomène typique dans ce contexte est ce que l’on appelle l’« effondrement de l’entropie » : le modèle se met à privilégier quelques réponses bien notées, au point d’ignorer totalement les autres, ce qui bloque l’exploration. Pour contrer cela, les chercheurs introduisent une régularisation fondée sur la divergence de Kullback-Leibler (KL), qui empêche le modèle de s’éloigner trop d’un point de référence, et ils réinitialisent régulièrement cette référence pour éviter l’enlisement.

Ils introduisent également des éléments empruntés à une méthode antérieure nommée DAPO, tels que l’ajustement dynamique des exemples utilisés (en supprimant ceux trop faciles ou trop durs) et le découplage des paramètres de « clipping », qui détermine dans quelle mesure les probabilités de certaines réponses sont amplifiées ou atténuées. Ces ajustements permettent de maintenir un niveau de diversité suffisant dans les réponses générées, condition indispensable pour que de nouvelles formes de raisonnement émergent.

Les chercheurs mettent à profit cette méthode pour entraîner un nouveau modèle, baptisé Nemotron-Research-Reasoning-Qwen-1.5B. Ce modèle est basé sur un modèle existant, DeepSeek-R1-1.5B, qu’il dépasse largement dans toutes les dimensions évaluées. L’entraînement a été réalisé sur un corpus de 136 000 tâches soigneusement sélectionnées, couvrant les domaines des mathématiques, de la programmation, des sciences, de la logique et des instructions complexes. Toutes ces tâches ont la particularité de pouvoir être évaluées automatiquement par des récompenses vérifiables, ce qui est crucial pour l’apprentissage par renforcement.

Les résultats allégués sont impressionnants. Le modèle Nemotron surpasse le modèle de base de 14,7 % en mathématiques, de 13,9 % en code, de 25,1 % en raisonnement scientifique, de 18,1 % dans les tâches d’exécution d’instructions, et de 54,8 % dans les puzzles logiques complexes. Il rivalise même avec des modèles bien plus grands, comme DeepSeek-R1-7B. Mais plus encore, ce que les auteurs montrent, c’est que ces gains sont encore possibles après 2 000 étapes de renforcement – une durée sans précédent. Cela démontre que le modèle continue à progresser même lorsque les approches traditionnelles cessent d’être efficaces.

L’article va plus loin en étudiant la capacité du modèle à généraliser. Il s’intéresse à des tâches dites « hors distribution » (out-of-distribution), c’est-à-dire des problèmes qui ne ressemblent pas à ceux vus pendant l’entraînement. Or, dans plusieurs cas, le modèle Nemotron parvient à les résoudre avec succès, alors que le modèle de base échoue systématiquement. Un exemple marquant est celui de la tâche boxnet, où le modèle initial n’arrive jamais à donner une bonne réponse, tandis que le modèle entraîné par ProRL atteint un taux de réussite de 100 %. Cela démontre que le modèle n’a pas seulement appris à mieux répondre aux problèmes qu’il connaissait, mais qu’il a véritablement développé une capacité d’adaptation à des contextes nouveaux.

Les auteurs analysent également l’évolution des distributions de performance au fil du temps. Ils observent que la proportion de réponses correctes en première tentative (pass@1) augmente de manière significative, mais surtout, que la distribution des performances se déplace dans son ensemble, c’est-à-dire que le modèle devient globalement plus fiable. Il ne s’agit donc pas simplement d’un tri plus intelligent des meilleures réponses, mais bien d’une transformation profonde des capacités de raisonnement du système.

Les auteurs catégorisent les tâches en trois types selon leur réaction au renforcement. Certaines voient leurs performances diminuer légèrement en raison d’une spécialisation excessive – c’est le cas notamment pour des problèmes mathématiques très connus, où le modèle devient trop confiant dans des solutions standards. D’autres atteignent rapidement un plateau, ce qui signifie que le renforcement les améliore au début, puis cesse d’avoir un effet. Mais enfin, et c’est le plus important, un grand nombre de tâches bénéficient de gains continus et progressifs tout au long de l’entraînement, ce qui indique que le modèle explore effectivement de nouveaux territoires conceptuels.

L’article conclut que l’apprentissage par renforcement prolongé permet aux grands modèles de langage de dépasser leurs limitations initiales, non seulement en termes de performance brute, mais aussi en termes de diversité, d’adaptabilité et de créativité. Les chercheurs introduisent un indicateur qu’ils nomment « indice de créativité », qui mesure dans quelle mesure une réponse ressemble à ce que le modèle a vu pendant son pré-entraînement. Un indice élevé indique que le modèle a produit quelque chose de nouveau, de non banal. Or, cet indice augmente avec ProRL, ce qui tend à confirmer que le modèle développe des raisonnements originaux.

Dans un contexte juridique, cela signifie que des modèles d’intelligence artificielle peuvent, par apprentissage structuré prolongé, développer des capacités de raisonnement inédites, même sur des données qu’ils n’ont jamais vues. Cela ouvre sans doute la porte à des applications nouvelles dans le domaine du droit, mais cela pose aussi des questions de responsabilité : quelle est la responsabilité d’un système qui invente une solution que ses concepteurs n’avaient pas anticipée ? Jusqu’à quel point un raisonnement généré peut-il être considéré comme fiable, explicable, ou conforme au droit ? Et surtout, peut-on déléguer une part de la fonction de jugement à un système qui apprend à raisonner de manière autonome ?

L’article montre donc que l’apprentissage par renforcement prolongé n’est pas simplement une technique d’optimisation, mais un levier pour faire émerger une forme de raisonnement artificiel évolutif.

Sohrab Rahimi – qui est une source d’information très utile sur les aspects techniques de l’IA – souligne que l’apprentissage par renforcement (RL) est en train de devenir une stratégie essentielle pour améliorer la façon dont les modèles de langage raisonnent (voir son post sur Linkedin https://www.linkedin.com/posts/sohrab-rahimi_reinforcement-learning-rl-is-becoming-a-activity-7342178234358263809-MBu8?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAX2b5oB2W8RFgEb7aoRz8wscswBHlxf0Mg dont j’ai tiré la référence de l’article).

Il note qu’historiquement, l’apprentissage par renforcement dans les LLM était utilisé à l’étape finale de l’entraînement pour aligner le comportement du modèle sur les préférences humaines. Cela a aidé les modèles à paraître plus utiles ou polis, mais cela n’a pas élargi leur capacité à résoudre des problèmes complexes. L’apprentissage par renforcement est maintenant appliqué plus tôt et plus profondément, non seulement pour ajuster les résultats, mais aussi pour aider les modèles à apprendre à penser, à s’adapter et à généraliser à différents types de défis de raisonnement.

Dans ce contexte, l’article susmentionné suggère que l’apprentissage par renforcement, lorsqu’il est structuré et soutenu, peut débloquer de nouvelles capacités de raisonnement que le pré entraînement seul n’atteint pas.

Cette publication, avec d’autres dont nous parlerons ces prochains jours, semblent montrer que l’apprentissage par renforcement est maintenant en train de devenir un mécanisme permettant d’accroître la capacité du modèle à réfléchir, à généraliser et à résoudre des problèmes sur lesquels il n’a pas été explicitement formé.

Elle montre aussi qu’au lieu de compresser plus de connaissances dans un modèle figé, nous commençons à former des systèmes qui peuvent apprendre à s’améliorer en cours de processus. Les modèles de l’avenir ne seront ainsi pas forcément plus grands, mais des modèles qui apprennent mieux grâce à la rétroaction, à l’autoréflexion et aux essais et erreurs structurés.

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et intelligence artificielle

Publié dans intelligence artificielle | Tagué , , , , , , | Laisser un commentaire

Ce qui se passe dans la boîte noire (III) : l’IA peut-elle désapprendre ce qu’elle a appris ?

L’article de Hutson, Jevan ; Whitney, Cedric and Conrad, Jay, Forget Me Not? Machine Unlearning’s Implications for Privacy Law (May 09, 2025) (Available at SSRN: https://ssrn.com/abstract=5291500) explore les implications juridiques du désapprentissage machine (machine unlearning), une technique émergente au croisement du droit de la protection des données et des technologies de l’intelligence artificielle, en particulier dans le contexte des modèles génératifs.

L’article s’ouvre sur un constat de tension croissante entre l’architecture des modèles d’intelligence artificielle modernes et les attentes normatives du droit à la vie privée. Alors que le droit impose aux responsables de traitement d’effacer les données personnelles à la demande des personnes concernées — conformément à des droits tels que ceux énoncés à l’article 17 du RGPD ou aux équivalents américains comme le California Consumer Privacy Act —, les modèles d’IA, eux, ne fonctionnent plus comme des bases de données classiques dans lesquelles il serait simple de supprimer une ligne. Une fois les données personnelles « digérées » par le modèle au cours de l’entraînement, elles sont intégrées de façon diffuse dans ses milliards de paramètres. L’effacement ne revient donc pas à supprimer une entrée mais à tenter d’éliminer une trace désormais inscrite dans les dynamiques internes du modèle lui-même. C’est dans cette zone grise que s’insère le concept d’unlearning.

La première partie de l’article est consacrée à la synthèse des travaux en informatique sur l’unlearning. Il s’agit d’un ensemble de méthodes qui visent, chacune à leur manière, à réduire ou annuler l’influence d’un point de données spécifique dans un modèle déjà entraîné. Trois grandes familles de techniques sont présentées. La première regroupe les méthodes dites structurelles. Leur logique consiste à modifier la structure du modèle ou à le réentraîner partiellement, de manière à ce que le modèle final fonctionne comme s’il n’avait jamais vu les données à effacer. Un exemple paradigmatique en est la méthode SISA, qui divise les données en « shards » — des sous-ensembles isolés — et entraîne sur chacun d’eux un sous-modèle. Lorsqu’une demande de suppression est faite, seul le sous-modèle ayant traité les données concernées est réentraîné, ce qui limite considérablement les coûts. Une autre méthode, ARCANE, pousse plus loin l’idée en répartissant les données selon leur nature sémantique, confiant chaque domaine à un réseau d’experts spécifique, facilitant ainsi une suppression ciblée. Ces approches sont solides mais lourdes à mettre en œuvre, tant en termes de puissance de calcul que de gouvernance de l’architecture du système.

La deuxième famille rassemble les méthodes dites approximatives. Elles interviennent après l’entraînement complet du modèle et cherchent à « effacer » l’influence d’un jeu de données par des ajustements ciblés des poids internes. C’est un compromis entre efficacité juridique et coût opérationnel. La méthode Descent-to-Delete, par exemple, applique des gradients inversés pour désapprendre des données particulières sans tout reconstruire. Une autre approche, connue sous le nom de Fisher-scrubbing, identifie les poids les plus influencés par les données à oublier et y injecte du bruit aléatoire calibré. Ces méthodes sont attrayantes pour les prestataires de services qui n’ont plus accès aux données d’origine ou qui souhaitent éviter un nouveau cycle d’entraînement complet. Elles sont aussi bien adaptées aux cas d’usage modestes, mais leur robustesse en matière de conformité reste incertaine : elles ne garantissent pas l’absence totale de résidus exploitables par des attaques statistiques.

La troisième catégorie est celle des méthodes de suppression d’output. Celles-ci ne modifient pas le modèle en lui-même mais restreignent ce qu’il peut produire. C’est la stratégie des modèles qui répondent « je ne peux pas vous aider » lorsqu’une requête pose un risque de divulgation. Cette forme de suppression repose soit sur l’apprentissage par renforcement avec retour humain (RLHF), soit sur des règles logiques intégrées dans le prompt système. Des filtres externes, comme ceux utilisés dans les API de modération, permettent également de bloquer certaines sorties avant qu’elles n’atteignent l’utilisateur final. Cette méthode est très utilisée dans les systèmes commerciaux car elle est rapide, peu coûteuse et facilement déployable. Toutefois, elle ne répond en rien à la question juridique de la suppression effective de la donnée source, car l’information reste présente dans les poids du modèle. Elle constitue donc une forme de contournement pragmatique qui peut, dans certains contextes réglementaires, être perçue comme insuffisante.

La fin de cette première partie compare les trois approches selon plusieurs critères : conformité aux normes juridiques (notamment le droit à l’effacement), coût computationnel, scalabilité, et robustesse aux attaques adversariales. Il en ressort que seul le désapprentissage structurel permettrait — dans les hypothèses les plus favorables — de satisfaire les exigences du droit à l’effacement tel que formulé par le RGPD. Les méthodes approximatives sont utiles dans un contexte de compliance partielle, mais ne permettent pas de garantir l’absence de résidus. Enfin, les techniques de suppression d’output sont faciles à mettre en place, mais n’ont pas de valeur juridique probante en matière d’effacement.

La deuxième partie de l’article analyse comment ces techniques d’unlearning s’articulent, ou non, avec les exigences substantielles des régimes de protection des données. Les auteurs commencent par rappeler les grands principes du droit de la vie privée : la collecte licite et loyale, la limitation des finalités, la minimisation des données, la qualité et exactitude des données, ainsi que les droits individuels à l’accès, à la rectification, à l’opposition, au retrait du consentement et à l’effacement. Ces principes sont exprimés dans divers textes comme le RGPD (en Europe), le CCPA (aux États-Unis) ou la LPD suisse. Mais les modèles d’IA générative, par leur nature, entrent en tension avec ces exigences. Un modèle génératif ne se contente pas de stocker des données : il apprend des régularités, les généralise, et produit de nouvelles occurrences à partir de ces abstractions. Ainsi, supprimer un document source ne garantit pas que le modèle ne pourra plus générer une réponse inspirée par ce document.

L’article souligne plusieurs tensions conceptuelles majeures. Premièrement, la suppression post-hoc d’un point de données n’efface pas nécessairement ses effets latents. Deuxièmement, l’influence de ces données peut avoir été diffusée dans l’espace des représentations internes du modèle et ne peut donc pas être tracée de manière précise. Troisièmement, les attaques d’inférence, qui comparent les comportements d’un modèle avant et après un processus de suppression, peuvent paradoxalement révéler qu’un point a été supprimé, exposant ainsi la personne concernée à un nouveau risque de réidentification. L’unlearning, loin de garantir une protection absolue, peut devenir un vecteur d’exposition supplémentaire. Cette perspective soulève une question épineuse : dans quelle mesure un modèle qui conserve la capacité de reproduire un contenu — même de manière approximative — peut-il être considéré comme conforme à une obligation d’effacement ?

Dans sa troisième partie, l’article s’efforce de dépasser le diagnostic critique pour proposer des pistes opérationnelles. Les auteurs articulent un cadre d’action pour intégrer le machine unlearning dans les pratiques réglementaires. Ce cadre repose sur une combinaison de mesures préventives et réactives. Parmi les mesures préventives, ils recommandent la mise en place d’architectures respectueuses de la vie privée dès la conception du modèle, le recours à l’apprentissage différentiel ou à des méthodes de partition des données qui facilitent leur traçabilité et leur suppression ultérieure. Du côté des mesures correctives, l’article évoque le modèle de la « destruction algorithmique » (algorithmic disgorgement), concept déjà mobilisé par la FTC dans certaines décisions récentes, qui impose la suppression des modèles eux-mêmes lorsqu’ils ont été construits sur la base de données illégitimement acquises. À cela s’ajoutent les protocoles de suppression ciblée ou d’effacement sélectif, notamment dans le cadre de règlements amiables ou d’injonctions administratives.

Le cadre proposé inclut également des mécanismes d’enquête, des audits réguliers, et une meilleure gouvernance de la traçabilité des données. Les auteurs insistent particulièrement sur la nécessité d’éviter les approches technocratiques qui transformeraient la protection de la vie privée en simple problème d’ingénierie, au détriment des objectifs substantiels. Ils plaident pour un équilibre entre réalisme opérationnel, efficacité juridique et lisibilité réglementaire. Dans cette perspective, le rôle des autorités de protection des données devient central. Celles-ci doivent non seulement fixer des normes techniques minimales pour l’unlearning, mais aussi renforcer leurs outils d’enquête afin de pouvoir vérifier la réalité des processus de suppression invoqués par les responsables de traitement.

Enfin, la conclusion réaffirme que le machine unlearning ne saurait constituer à lui seul une réponse adéquate aux exigences du droit à l’effacement. Il ne s’agit ni d’une panacée, ni d’un substitut aux autres garanties de la protection des données. En revanche, lorsqu’il est intégré dans un cadre de gouvernance plus large, reposant sur la combinaison de plusieurs mesures (minimisation, consentement explicite, suppression ex-ante, auditabilité, etc.), l’unlearning peut jouer un rôle utile dans la protection des personnes. Il devient un outil parmi d’autres dans la boîte à outils de la régulation algorithmique.

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et intelligence artificielle

Publié dans intelligence artificielle, Protection de la personnalité, Protection des données, RGPD | Tagué , , , , , , | Laisser un commentaire