A propos

Ce que vous devez savoir de ce site :

Ce que vous pouvez connaître de son auteur :

Ce qu’il faut faire si vous avez des questions sur le droit du travail ou de la protection des données :

Lisez également notre Déclaration de protection des données:

https://wordpress.com/page/droitdutravailensuisse.com/8103

Bonne lecture !

Me Philippe Ehrenström, avocat, LLM, CAS, Yverdon-les-Bains

Publié dans Non classé | Tagué , , , , , | Laisser un commentaire

Le recrutement automatisé discriminatoire assisté par l’intelligence artificielle

Quels sont les risques de discrimination liés au recours à des systèmes d’intelligence artificielle dans le recrutement ? Quels sont les instruments que le droit suisse, complété par le droit européen de l’IA et de la protection des données, offrirait aux candidats discriminés ?

De nombreux employeurs automatisent déjà le tri de CV ou l’évaluation de candidatures en s’appuyant sur des modèles qui apprennent à partir de données historiques, modèles qui peuvent donc reproduire, voire amplifier, des discriminations existantes, par exemple en fonction du sexe, de l’origine, de l’âge ou du handicap.

Il convient de rappeler d’abord que le cadre suisse de la lutte contre les discriminations à l’embauche est marqué par une ’absence d’interdiction générale d’application directe dans le secteur privé. La protection découle donc principalement du respect des droits de la personnalité, d’une part, et de diverses normes spéciales d’autre part.

Dans ce contexte, le management algorithmique du personnel a été qualifié de « système d’IA à haut risque » en droit européen, en particulier lorsque l’outil est utilisé pour décider de l’accès à un emploi. Il résulte de son usage un risque important pour les droits de la personnalité du candidat.

La décision de rejeter un candidat sur la seule base d’un score généré par un système d’IA constitue par ailleurs une décision individuelle automatisée. La personne concernée dispose en principe du droit de ne pas être soumise exclusivement à une telle décision, de demander l’intervention d’une personne physique et d’obtenir des informations sur la logique sous-jacente au traitement.

Ces droits ouvrent la possibilité d’utiliser les informations obtenues comme moyens de preuve dans un procès pour contester un refus d’engagement discriminatoire, ce qui pose toutefois certaines difficultés de fond et de procédure.

Le droit suisse de la protection des données offre donc un levier important contre les décisions de recrutement automatisées discriminatoires assistées par l’IA, mais une réflexion plus large sur un droit de la non-discrimination adapté aux systèmes d’IA dans les rapports de travail devrait avoir lieu.

(Source: Philippe Ehrenström, La décision individuelle automatisée discriminatoire dans le recrutement assisté par l’intelligence artificielle, in : Florence Guillaume/ Jonathan Bory (éd.), Droit et intelligence artificielle, Berne 2025, p. 171-184 (https://staempflirecht.ch/fr/droit-et-intelligence-artificielle/ean-9783727225093)

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et Intelligence Artificielle, CAS en Protection des données

Publié dans discrimination, intelligence artificielle, Protection des données, recrutement | Tagué , , , , , , , , | Laisser un commentaire

Protection des données, IA et silent updates

Les « silent updates » (mises à jour silencieuses) sont des mises à jour logicielles téléchargées et installées automatiquement, en arrière-plan, sans solliciter l’intervention de l’utilisateur et parfois même sans information immédiate. Elles se distinguent des mises à jour « classiques » qui demandent une validation, affichent une progression et peuvent imposer un redémarrage.

Le procédé est utilisé dans des environnements très variés, des systèmes d’exploitation et navigateurs aux applications mobiles, solutions d’entreprise, objets connectés et services cloud.

La motivation principale est la cybersécurité. Une vulnérabilité connue mais non corrigée crée une fenêtre pendant laquelle un attaquant peut l’exploiter ; les silent updates réduisent le délai entre la disponibilité d’un correctif et son application effective.

Cela explique leur importance dans les antivirus et logiciels de sécurité, qui doivent actualiser fréquemment signatures et mécanismes de détection afin de rester efficaces contre des menaces qui évoluent en continu.

Les « silent updates » présentent certains avantages.

D’abord, un gain de sécurité par réduction du temps d’exposition et une capacité de réaction rapide, y compris pour des correctifs urgents. Ensuite, une meilleure continuité d’usage : l’absence de sollicitations réduit les interruptions et la probabilité que l’utilisateur reporte l’opération, ce qui diminue la part d’erreur humaine.  Pour les organisations, cela facilite la standardisation des versions, simplifie l’administration et peut réduire les coûts de support liés à des logiciels non mis à jour.

Ces bénéfices s’accompagnent toutefois de risques qui doivent être anticipés, au premier rang desquels la transparence envers l’utilisateur et la maîtrise par celui-ci. Il ne sait pas exactement ce qui change, quand, ni avec quels effets, ce qui peut alimenter un sentiment de perte de contrôle, des inquiétudes sur la confidentialité et des lacunes quant aux obligations légales ou prudentielles. Par ailleurs, avec les services d’IA, la « mise à jour » peut être un changement de comportement du système (ton, règles de sûreté, réglages par défaut, traitement de sujets sensibles, etc.), déployé progressivement et sans notification uniforme. Cela a un effet sur la compréhension du service par l’utilisateur et, dans un contexte d’entreprise, sur l’aptitude à exercer une surveillance et une traçabilité satisfaisantes. C’est ce qui s’est passé par exemple avec l’arrivée de GPT-5.1 d’OpenAI en novembre 2025, dont les modifications, substantielles, n’ont fait l’objet que de communications sur des blogs et des réseaux sociaux. (OpenAI, GPT-5.1 : Un ChatGPT plus intelligent et plus naturel dans ses réponses, 12 novembre 2025, https://openai.com/fr-FR/index/gpt-5-1/, consulté le 12.12.2025).

Pour la pratique suisse, l’enjeu est de gouverner ces mises à jour plutôt que de les exclure. Sur le plan contractuel, il est utile de préciser le périmètre des silent updates, la distinction entre mises à jour critiques et non critiques, l’information a posteriori (notes de version), les fenêtres de maintenance, la préservation des configurations, et les modalités de retour arrière, en veillant à la cohérence avec les engagements de disponibilité et de support.

Sur le plan de la protection des données (LPD et, le cas échéant, RGPD), l’attention porte sur la transparence du traitement, la sécurité technique et organisationnelle et la gestion du changement : une mise à jour qui modifie la collecte, l’usage ou le transfert de données doit être documentée, communiquée selon les bases applicables et, dans les environnements sensibles, intégrée à un dispositif de contrôle interne (journalisation, validation, tests, et procédure d’incident). Enfin, pour les outils d’IA utilisés en production, la question n’est pas seulement « le système est-il à jour ? », mais « quelle version ou quel comportement est en service à telle date ? », afin de pouvoir expliquer une décision, reconstituer un dossier et vérifier la conformité continue.

En pratique, il est recommandé d’équilibrer automatisation et information : même si la mise à jour est silencieuse, des notes de version accessibles, des notifications non intrusives ou des options de préférence (par exemple différer les mises à jour non critiques) contribuent à préserver la confiance.

(Fabrizio Degni, How many of you were aware of the release of the new version of GPT-5.1? linkedin, 13 novembre 2025 (https://www.linkedin.com/posts/fdegni_openai-gpt-51-instant-and-gpt-51-thinking-activity-7394614674102587394-StNk?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAX2b5oB2W8RFgEb7aoRz8wscswBHlxf0Mg, consulté le 13.12. 2025 ; Reason Labs, What are Silent Updates? 2023, https://cyberpedia.reasonlabs.com/EN/silent%20updates.html, consulté le 15.12.2025 ; Xeox, Demystifying Silent Updates, 8 juillet 2024, https://xeox.com/blog/demystifying-silent-updates/, consulté le 15.12.2025)

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et Intelligence Artificielle

Publié dans intelligence artificielle, Protection des données | Tagué , , , | Laisser un commentaire

Dépasser l’équité algorithmique

A propos de : Narayanan, A. (2026). What if algorithmic fairness is a category error? In S. Nyholm, A. Kasirzadeh, & J. Zerilli (Eds.), Contemporary debates in the ethics of artificial intelligence (pp. 77–96). Wiley-Blackwell. ISBN 9781394258819. (https://www.cs.princeton.edu/~arvindn/publications/algorithmic_fairness_category_error.pdf):

Arvind Narayanan part du constat suivant : on ne peut pas évaluer sérieusement les effets d’un système de décision automatisée en ne regardant que l’algorithme, car les dommages (ou les bénéfices) proviennent surtout de la façon dont l’outil est intégré dans une organisation, avec ses objectifs, ses contraintes, ses incitations et ses rapports de pouvoir. Il soutient que le débat « peut-on rendre les algorithmes équitables ? » se trompe souvent d’objet : les propriétés statistiques mises en avant par la littérature sur la “fairness” ont, en pratique, un lien faible et parfois flou avec ce qui arrive réellement aux personnes. Surtout, réduire la question de la justice à la seule discrimination (différences de traitement ou de résultats entre groupes) est trop étroit pour couvrir l’ensemble des atteintes possibles : perte de protections procédurales, impossibilité de contester une décision, effets de stigmatisation, transfert de coûts vers les plus vulnérables, consolidation de systèmes institutionnels dysfonctionnels, ou encore décisions “préventives” qui changent la nature même de l’intervention publique.

L’auteur illustre cette critique à partir du cas emblématique des outils de prédiction du risque en matière pénale (par ex. COMPAS). Le débat public et académique s’est largement cristallisé sur les écarts d’erreurs entre groupes raciaux, au point d’éclipser d’autres objections morales et juridiques pourtant fondamentales : l’idée de détenir quelqu’un sur la base d’un risque futur (logique de “précrime”), les difficultés de compréhension et de contestation des scores, les effets indirects sur les communautés, ou le risque que ces outils servent de “rustine” empêchant des réformes plus profondes. Pour Narayanan, cette focalisation sur la discrimination est devenue un rituel (notamment via les “audits de biais”) et a structuré tout un écosystème. Il explique ensuite pourquoi ce cadrage a été si attractif pour des acteurs très différents : pour les ingénieurs, il transforme un problème social complexe en problème technique “propre” ; pour les juristes, il offre des points d’accroche dans des cadres existants (droit antidiscrimination, responsabilité) et donc des débats doctrinaux immédiatement activables ; pour les médias et le public, la discrimination déclenche une intuition morale forte et facile à raconter ; pour certains défenseurs de l’intérêt public, il permet de remettre à l’agenda des injustices anciennes via des mesures chiffrées ; et, paradoxalement, pour les entreprises, il peut être moins menaçant qu’une remise en cause structurelle, ce qui facilite la récupération du mouvement sous l’étiquette “éthique de l’IA” ou “IA responsable”, parfois au prix d’ajustements techniques superficiels et de procédures de conformité déconnectées des problèmes de fond.

L’exemple de l’automatisation du recrutement sert à montrer comment l’obsession du biais peut devenir un “pansement sur un pansement”. Narayanan observe que l’industrie met en avant des audits de biais comme argument commercial, alors qu’une question préalable est souvent laissée dans l’ombre : ces outils fonctionnent-ils réellement, c’est-à-dire prédisent-ils quelque chose de pertinent (validité) ? Il décrit des produits fondés sur des signaux très discutables (analyse vidéo, “jeux” comportementaux) et note que, même si l’on supposait l’absence de disparités classiques entre groupes, il subsisterait des torts importants : dégradation de la dignité des candidats, procédures humiliantes, concentration des effets sur des métiers moins qualifiés et moins protégés, et substitution d’une apparence de rationalité à des processus de sélection déjà peu fiables. Il propose une hypothèse générale : des organisations adoptent ces outils non seulement pour des raisons de coût, mais aussi parce qu’ils évitent d’affronter le fait que certaines décisions sont intrinsèquement difficiles et que les procédures existantes sont défaillantes.

À partir d’un retour d’expérience sur dix ans de controverses, l’auteur identifie trois grandes raisons pour lesquelles la “fairness” n’a, selon lui, que marginalement réduit les dommages. Premièrement, les disparités mesurées sont souvent le symptôme de dysfonctionnements institutionnels plus profonds ; corriger un indicateur de biais ne répare pas une politique publique ou une pratique organisationnelle mal conçue. Deuxièmement, beaucoup d’échecs tiennent au manque de garanties procédurales pendant l’usage concret du système : explications compréhensibles, possibilité d’appel, contrôle humain réel, voies de rectification des données, et, plus largement, “contestabilité” des décisions. Il souligne que ces protections coûtent cher parce qu’elles exigent du temps humain, ce qui entre en tension avec l’objectif même de l’automatisation, et que l’on observe fréquemment un décalage entre la promesse commerciale (“tout est automatisé”) et la clause de sauvegarde (“un humain reste responsable”), sans mécanisme robuste pour que cet humain puisse effectivement corriger. Troisièmement, certains cas relèvent de choix de société irréductiblement politiques, notamment lorsqu’il s’agit de redistribution ou de compensation d’injustices historiques : décider quel niveau d’écart est acceptable, ou jusqu’où une entreprise doit corriger des inégalités structurelles, ne peut pas être “résolu” par une définition mathématique d’équité. Le débat approprié est alors celui de la légitimité démocratique et de l’acceptabilité sociale, et une solution techniquement élégante mais politiquement intenable suscitera une résistance frontale.

Face à ces limites, Narayanan propose de déplacer la question : plutôt que d’optimiser “l’équité d’un modèle”, il faut se demander comment concevoir des “bureaucraties algorithmiques”, c’est-à-dire des systèmes de décision où règles, modèles, agents humains, procédures et contexte social forment un tout. Il critique le modèle naïf selon lequel des décideurs fixeraient d’abord des objectifs clairs, puis des techniciens apprendraient automatiquement la “meilleure” politique, ensuite appliquée mécaniquement. En s’appuyant sur des travaux classiques en science de l’administration (notamment l’idée que les administrations “bricolent” des compromis plutôt qu’elles n’exécutent un objectif parfaitement défini), il insiste sur le problème suivant : l’automatisation exige d’expliciter des objectifs et des valeurs, alors que, dans la pratique, ces valeurs sont souvent implicites, situées et négociées au fil des cas. Le risque est que la définition des objectifs soit capturée soit par l’acteur le plus insistant, soit, plus grave, par les contraintes techniques et les choix des équipes de modélisation, sans mandat légitime. Il plaide donc pour des processus permettant d’expliciter des objectifs programmables, issus de compromis entre parties prenantes et lisibles pour le public, tout en reconnaissant que cette explicitation devra probablement se faire en interaction avec la construction, l’évaluation et l’explication des modèles, plutôt que “une fois pour toutes” en amont.

L’auteur identifie aussi des pistes de recherche plus concrètes que la seule optimisation de métriques d’équité. Il propose d’utiliser davantage des analyses coûts-bénéfices, avec prudence, pour éclairer des arbitrages souvent laissés implicites : par exemple, où placer un seuil de risque en matière de détention provisoire, en mettant en regard sécurité publique et atteintes à la liberté, ou encore choisir entre améliorer la précision d’un ciblage et élargir l’accès à une prestation (quitte à accepter une précision moindre). Il souligne que la modélisation devrait passer plus souvent de la “prédiction” à “l’intervention” : deux personnes classées “à risque” peuvent nécessiter des réponses très différentes, et c’est l’efficacité de l’aide proposée, pas seulement la qualité d’un score, qui importe. Il insiste également sur les effets indirects (spillovers) d’une décision sur d’autres personnes ou sur des communautés, dimension souvent absente des évaluations classiques, et sur la nécessité de quantifier des coûts aujourd’hui peu mesurés, comme le coût de l’implication humaine (contrôle, recours, médiation) ou le coût de conformité, sans que ces chiffres servent d’alibi pour affaiblir la régulation.

Enfin, Narayanan consacre une partie importante au rôle des agents de terrain (juges, travailleurs sociaux, modérateurs, etc.). L’idée qu’un algorithme peut simplement remplacer leur jugement est, selon lui, largement fausse, car la discrétion humaine sert précisément à gérer les cas atypiques, à tenir compte de considérations morales non codées, et à éviter la cruauté mécanique. Les recherches montrent que l’effet réel d’un score dépend fortement de la façon dont les agents l’utilisent, l’ignorent, le contournent ou modifient ses entrées. D’où un programme ambitieux : concevoir des “algorithmes de terrain” capables d’interagir avec les personnes, de fournir des explications et des informations sur les droits et les recours, de détecter les cas limites, de s’adapter ou d’escalader vers un humain, et de gérer une partie des contestations. Il reconnaît toutefois qu’en 2025 ces capacités sont hors de portée dans leur forme complète, et que les grands modèles de langage posent des risques spécifiques (réponses trompeuses, vulnérabilité à des entrées adversariales, apparence de compréhension, possibilités de manipulation). Dans l’intervalle, il recommande de privilégier des outils d’aide à la décision plutôt que des systèmes de remplacement, et de traiter l’équité comme un phénomène issu d’un couplage humain-outil (interface, explications, biais d’automatisation, capacité de l’utilisateur à contester), pas comme une propriété interne d’un modèle.

La conclusion est un appel à dépasser l’opposition entre, d’un côté, une “fairness” très mathématisée mais souvent trop étroite, et, de l’autre, des critiques structurelles nécessaires mais parfois peu connectées aux détails techniques. Narayanan esquisse l’idée d’une “troisième vague” : une approche qui accepte le caractère politique de ces choix, tout en restant suffisamment précise et empirique pour guider des réformes institutionnelles réelles, en élargissant fortement la boîte à outils au-delà des seules métriques de biais.

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et intelligence Artificielle

Publié dans discrimination, intelligence artificielle, recrutement | Tagué , , , | Laisser un commentaire

Discriminatory automated recruitment assisted by artificial intelligence (AI)

About: Philippe Ehrenström, La décision individuelle automatisée discriminatoire dans le recrutement assisté par l’intelligence artificielle, in: Florence Guillaume/Jonathan Bory (eds.), Droit et intelligence artificielle, Bern 2025, pp. 171-184 (https://staempflirecht.ch/fr/droit-et-intelligence-artificielle/ean-9783727225093):

The article analyses the risks of discrimination associated with the use of artificial intelligence systems in recruitment and examines the instruments that Swiss law, supplemented by European AI and data protection law, offers to candidates.

The author starts from the observation that many employers already automate the sorting of CVs or the evaluation of applications using models that learn from historical data and can therefore reproduce or even amplify existing discrimination, for example based on gender, origin, age or disability.

He first recalls the Swiss framework for combating discrimination in recruitment, which is characterised by the absence of a general ban in the private sector. Protection derives mainly from respect for personality rights and various special standards.

The article then recalls that algorithmic recruitment has been classified as a ‘high-risk AI system’, particularly when the tool is used to decide on access to employment. This results in a significant risk to the candidate’s personal rights.

The decision to reject a candidate solely on the basis of a score generated by an AI system constitutes an automated individual decision. The data subject has, in principle, the right not to be subject exclusively to such a decision, to request the intervention of a natural person and to obtain information on the logic underlying the processing, its significance and its intended effects.

These rights open up the possibility of using the information obtained as evidence in a lawsuit to challenge a discriminatory refusal to hire. The article discusses the procedural avenues and the particular difficulties they may present in Swiss law.

In conclusion, the author considers that Swiss data protection law offers an important lever against discriminatory automated recruitment decisions, but that practical obstacles remain and that broader reflection on a right to non-discrimination adapted to AI systems remains necessary in Swiss labour law.

Me Philippe Ehrenström, attorney, LLM, CAS in Data Protection, CAS in Law and Artificial Intelligence

Publié dans intelligence artificielle, nouvelle LPD, recrutement, RGPD | Tagué , , | Laisser un commentaire

Diskriminierende automatisierte Personalbeschaffung mit KI-Unterstützung

Über: Philippe Ehrenström, La décision individuelle automatisée discriminatoire dans le recrutement assisté par l’intelligence artificielle, in : Florence Guillaume/ Jonathan Bory (éd.), Droit et intelligence artificielle, Bern 2025, S. 171–184 (https://staempflirecht.ch/fr/droit-et-intelligence-artificielle/ean-9783727225093)

Der Artikel analysiert die Diskriminierungsrisiken im Zusammenhang mit dem Einsatz künstlicher Intelligenz bei der Personalbeschaffung und untersucht die Instrumente, die das Schweizer Recht, ergänzt durch das europäische Recht zur KI und zum Datenschutz, den Bewerbern bietet.

Der Autor geht von der Feststellung aus, dass viele Arbeitgeber die Sortierung von Lebensläufen oder die Bewertung von Bewerbungen bereits automatisieren, indem sie sich auf Modelle stützen, die aus historischen Daten lernen und somit bestehende Diskriminierungen, beispielsweise aufgrund von Geschlecht, Herkunft, Alter oder Behinderung, reproduzieren oder sogar verstärken können.

Er erinnert zunächst an den Schweizer Rahmen für die Bekämpfung von Diskriminierung bei der Einstellung, der durch das Fehlen eines generellen Verbots im privaten Sektor gekennzeichnet ist. Der Schutz ergibt sich hauptsächlich aus der Achtung der Persönlichkeitsrechte und verschiedenen Sonderbestimmungen.

Der Artikel erinnert dann daran, dass die algorithmische Rekrutierung als „risikoreiches KI-System” eingestuft wurde, insbesondere wenn das Tool zur Entscheidung über den Zugang zu einer Stelle eingesetzt wird. Daraus ergibt sich ein erhebliches Risiko für die Persönlichkeitsrechte des Bewerbers.

Die Entscheidung, einen Bewerber allein auf der Grundlage einer von einem KI-System generierten Punktzahl abzulehnen, stellt eine automatisierte Einzelentscheidung dar. Die betroffene Person hat grundsätzlich das Recht, sich nicht ausschließlich einer solchen Entscheidung zu unterwerfen, die Intervention einer natürlichen Person zu verlangen und Informationen über die der Verarbeitung zugrunde liegende Logik, ihre Bedeutung und ihre voraussichtlichen Auswirkungen zu erhalten.

Diese Rechte eröffnen die Möglichkeit, die erhaltenen Informationen als Beweismittel in einem Gerichtsverfahren zu verwenden, um eine diskriminierende Ablehnung anzufechten. Der Artikel erörtert die Verfahrenswege und die besonderen Schwierigkeiten, die sich daraus im Schweizer Recht ergeben können.

Abschließend kommt der Autor zu dem Schluss, dass das Schweizer Datenschutzrecht einen wichtigen Hebel gegen diskriminierende automatisierte Einstellungsentscheidungen bietet, dass jedoch praktische Hindernisse bestehen bleiben und dass im Arbeitsrecht weiterhin umfassendere Überlegungen zu einem auf KI-Systeme zugeschnittenen Recht auf Nichtdiskriminierung erforderlich sind.

Me Philippe Ehrenström, Rechtsanwalt, LLM, CAS in Recht und Künstlicher Intelligenz

Publié dans discrimination, intelligence artificielle, Protection de la personnalité | Tagué , , , | Laisser un commentaire

Quand la protection des données se perd dans le droit du travail

Quelques réflexions tirées de : Molè, Michele (2025) « Lost in Translation: Is Data Protection Labour Law Protection?, » Comparative Labor Law & Policy Journal: Vol. 45: Iss. 3, Article 6 (DOI: https://doi.org/10.60082/2819-2567.1067; disponible sur  https://digitalcommons.osgoode.yorku.ca/cllpj/vol45/iss3/6):

L’article analyse de manière systématique la manière dont le RGPD transpose ses deux catégories centrales – « personne concernée » et « responsable du traitement » – dans la relation de travail, où elles deviennent respectivement « salarié » et « employeur ».

L’auteur soutient que cette transposition n’est pas neutre : les droits et obligations pensés pour un contexte de marché numérique et de protection des consommateurs ne correspondent pas entièrement aux besoins de protection en droit du travail, ce qui crée un effet de « perte en traduction » lorsque le RGPD est appliqué au traitement des données des salariés.

Dans l’introduction, l’auteur rappelle que la surveillance au travail est un thème ancien en Europe, mais profondément transformé par les technologies numériques. Les outils de monitoring sont plus fréquents, plus continus et plus intrusifs, ce qui renforce le pouvoir de l’employeur. Depuis la directive de 1995 et désormais avec le RGPD, l’employeur qui traite des données est qualifié de responsable du traitement et le salarié de « personne concernée ». Le RGPD prévoit des marges de manœuvre nationales, notamment à l’article 88, ainsi que des lignes directrices du G29, mais plusieurs travaux récents estiment qu’il manque toujours un cadre véritablement adapté à la relation de travail. L’article ne propose pas de réforme détaillée ; il se concentre sur un « contrôle de subjectivité »: les figures de « personne concernée » et de « responsable du traitement », telles que construites par le RGPD, correspondent-elles réellement à la position du salarié et de l’employeur dans la relation de travail, compte tenu de la subordination, de la dépendance économique et du rôle des fournisseurs technologiques?

Dans un premier temps, l’auteur examine le salarié comme « personne concernée ». Il rappelle la définition large de la personne concernée (toute personne identifiable par des données) puis montre que le cœur de la protection repose sur les droits des articles 12 à 22 RGPD: droits d’accès, de rectification, d’effacement, de limitation, d’opposition et de ne pas faire l’objet d’une décision entièrement automatisée. L’idée générale est de permettre à l’individu, informé de manière claire par le responsable du traitement, de comprendre ce qui est fait de ses données, d’exercer un contrôle et, le cas échéant, de s’y opposer. En toile de fond, le RGPD présuppose un sujet actif, informé et autonome, que certains auteurs décrivent comme un « sujet libéral » : quelqu’un qui lit les notices d’information, évalue les risques, et exerce ses droits pour défendre ses propres intérêts.

L’article montre que cette figure de « personne concernée moyenne » est largement héritée du droit de la consommation de l’UE. Dans ce dernier, la référence constante est celle du « consommateur moyen, normalement informé et raisonnablement attentif et avisé ». Le RGPD et le droit de la consommation partagent le même objectif de base : créer la confiance dans le marché intérieur par la transparence et des droits individuels, afin de favoriser la croissance de l’économie numérique. La personne concernée moyenne est, comme le consommateur moyen, supposée capable de comprendre l’information fournie et de faire des choix raisonnés une fois informée. Les droits sont conçus sur ce postulat, et l’article 80 RGPD confirme ce caractère individualiste : la représentation collective (par exemple par un syndicat) ne peut pas, sauf droit national contraire, exercer à la place des individus leurs droits d’accès, de rectification, d’effacement, etc., mais uniquement les soutenir dans des recours devant l’autorité de contrôle ou les tribunaux.

Or, souligne l’auteur, cette construction ne se transpose pas aisément dans l’univers du travail. Le salarié n’est pas un consommateur libre de changer de vendeur ; il est lié par un contrat de travail marqué par la subordination juridique et la dépendance économique. En droit du travail, l’employeur dispose d’un pouvoir d’organisation, de contrôle et de sanction ; le salarié risque des conséquences directes sur son emploi et ses moyens d’existence. La « marge d’autonomie » du salarié est donc limitée, et son « agency » réelle varie fortement selon le contexte, les alternatives sur le marché du travail ou sa situation personnelle. Pour cette raison, le droit du travail ne se contente pas d’informer et de laisser l’individu décider : il impose des normes impératives (durée du travail, salaire minimum, santé et sécurité, etc.) et interdit en principe la renonciation à certaines protections.

Transposé au champ des données, cela signifie que le salarié-personne concernée est structurellement vulnérable. Même correctement informé, il peut hésiter à exercer ses droits d’accès, de rectification ou d’opposition par crainte d’être perçu comme « difficile » ou non coopératif. Il peut aussi accepter des pratiques de surveillance intrusives faute d’alternative professionnelle. Certes, le RGPD prévoit des garde-fous plus forts pour les données sensibles et permet aux États membres d’adopter des règles spécifiques pour le travail, et le G29 considère que le consentement du salarié est en principe invalide à cause du déséquilibre de pouvoir. Mais la structure de base des droits reste celle d’un individu autonome qui doit « activer » lui-même la protection par des démarches individuelles. Dans un contexte de subordination, ce modèle protège imparfaitement les salariés, même si, formellement, ils restent des personnes concernées au sens plein du RGPD. C’est le premier « effet de perte en traduction »: un dispositif pensé comme prolongement de la protection du consommateur est appliqué à des travailleurs qui ont besoin d’un niveau de protection plus proche de celui du droit du travail que du droit de la consommation.

Dans un second temps, l’article se concentre sur l’employeur comme « responsable du traitement ». Le RGPD définit le responsable comme l’entité qui détermine les finalités et les moyens du traitement. En droit du travail, il est admis que l’employeur entre naturellement dans cette catégorie : il fixe l’organisation du travail, décide des objectifs de productivité, du contrôle des performances, des outils de surveillance, etc. Sur cette base, les articles 24, 25 et 35 lui imposent des obligations d’accountability : responsabilité générale de conformité, mise en œuvre de la protection des données dès la conception et par défaut, réalisation de DPIA en cas de risques élevés, ce qui inclut souvent les traitements de données des salariés. Le RGPD suppose ainsi que le responsable du traitement a la capacité de concevoir ou paramétrer les systèmes de traitement, de comprendre leurs risques pour les droits des personnes et de les ajuster pour respecter les principes de licéité, minimisation, proportionnalité, sécurité, etc.

L’auteur montre cependant que ce schéma ne correspond pas toujours à la réalité des entreprises. De nombreuses grandes plateformes (Amazon et d’autres) développent effectivement en interne des systèmes sophistiqués qui organisent le travail en s’appuyant sur une collecte massive de données. Mais beaucoup d’employeurs achètent sur le marché des produits de gestion et de surveillance de la main-d’œuvre conçus et opérés par des fournisseurs spécialisés : logiciels d’analyse de la voix dans les call centers, dispositifs de suivi vidéo des chauffeurs, outils d’« analytique RH » capables de calculer des indices de « risque syndical », etc. Dans ces situations, le fournisseur agit comme sous-traitant au sens de l’article 28 RGPD, tandis que l’employeur reste, en droit, responsable du traitement.

Le RGPD organise alors une répartition des rôles: le responsable doit choisir des sous-traitants offrant des garanties suffisantes, conclure un contrat de traitement, contrôler le respect des instructions, s’assurer que le sous-traitant l’aide à répondre aux demandes des personnes concernées et à réaliser les DPIA. Mais, en pratique, les obligations du sous-traitant demeurent relativement limitées et largement dépendantes de ce que le responsable lui demande. L’adhésion à des codes de conduite ou des mécanismes de certification est facultative. Le sous-traitant n’a qu’une obligation générale d’assistance, à la demande du responsable, pour évaluer les risques ou documenter la conformité. Le texte part du principe que le contrôleur conserve, en dernier ressort, la compréhension et la maîtrise du traitement.

L’article souligne ici une seconde asymétrie : sur le marché des technologies de surveillance et de gestion du personnel, ce sont souvent les fournisseurs qui maîtrisent l’architecture technique, les algorithmes et les risques concrets, tandis que l’employeur se comporte davantage comme un client non spécialiste qui achète une « solution clé en main ». Il est pourtant juridiquement censé vérifier les garanties, paramétrer le système pour respecter le RGPD et évaluer les risques, alors même qu’il dépend fortement des informations que veut bien lui fournir le prestataire. On aboutit à une situation paradoxale où l’employeur est tenu à de fortes obligations de conception et de contrôle, mais sans que le sous-traitant soit véritablement obligé de lui donner tous les moyens d’y parvenir. C’est le second « effet de perte en traduction »: le RGPD traite l’employeur comme un « créateur » du traitement, alors que, dans bien des cas, il est un utilisateur relativement dépendant d’un prestataire qui, lui, n’est que faiblement régulé sur le plan de la conception des systèmes.

Sur cette base, l’auteur propose une lecture d’ensemble: le RGPD repose sur deux présupposés d’autonomie qui ne tiennent pas pleinement dans la relation de travail. Côté salarié, il suppose une personne concernée moyenne, proche du consommateur moyen, capable d’exercer ses droits individuellement, ce qui sous-estime la subordination et la dépendance économique. Côté employeur, il suppose un responsable du traitement maître d’œuvre du système de traitement, alors que la réalité de plus en plus fréquente est celle d’un employeur client d’un écosystème de prestataires technologiques qui conservent l’essentiel de la compétence technique et du pouvoir d’innovation. Dans les deux cas, il existe un « décalage d’agence » entre les rôles que le RGPD attribue aux acteurs et leurs capacités effectives dans la relation de travail.

L’article conclut que cette double divergence montre les limites d’une régulation du traitement des données au travail fondée uniquement sur un instrument général comme le RGPD. D’autres instruments récents de l’UE, comme le règlement sur l’IA ou la directive sur le travail via plateforme, vont déjà plus loin dans la prise en compte du contexte de travail: ils interdisent certaines pratiques (par exemple certaines formes d’analyse des émotions au travail), reconnaissent des droits spécifiques aux travailleurs de plateformes et imposent des obligations plus détaillées aux fournisseurs de systèmes d’IA et aux plateformes. L’auteur ne les analyse pas en détail, mais y voit un signe que le législateur commence à raisonner en termes de conditions de travail, et pas seulement de protection des données. Sa thèse centrale est qu’il faut poursuivre dans cette voie: dépasser l’idée que la protection des données des salariés peut être assurée par simple application du RGPD et développer des cadres spécifiquement pensés pour la relation de travail, qui prennent au sérieux la subordination des salariés, la dépendance technique des employeurs vis-à-vis des fournisseurs de technologies et, plus largement, les valeurs propres du droit du travail (dignité, sécurité économique, inclusion sociale) dans un environnement de travail de plus en plus structuré par les données et l’IA.

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et Intelligence Artificielle

Publié dans droit européen, intelligence artificielle, Protection de la personnalité, Protection des données, RGPD | Tagué , , , , | Laisser un commentaire

Congé représailles: trois exemples

L’art. 336 al. 1 let. d CO prévoit que le congé est abusif lorsqu’il est donné parce que l’autre partie fait valoir de bonne foi des prétentions résultant du contrat de travail (congé représailles).

La notion de « prétention résultant du contrat de travail » s’entend au sens large et comprend la loi, les conventions collectives de travail, les règlements d’entreprise, voire la pratique. Outre les salaires et les vacances, le fait que l’employé se plaigne d’une atteinte à sa personnalité ou à sa santé et sollicite la protection de l’employeur peut aussi constituer une telle prétention.

Pour que le congé soit considéré comme abusif, il faut que les prétentions aient été formulées de bonne foi. Cette dernière protège autant l’employeur que le travailleur. D’une part, la réclamation ne doit pas permettre à un travailleur de bloquer un congé en soi admissible ou de faire valoir des prétentions totalement injustifiées ; d’autre part, il importe peu que les prétentions invoquées de bonne foi soient réellement fondées : il suffit que le travailleur soit légitimé, de bonne foi, à penser qu’elles l’étaient. En principe, la bonne foi du travailleur est présumée.

Les prétentions émises par l’employé doivent encore avoir joué un rôle causal dans la décision de l’employeur de le licencier. Ainsi, le fait que l’employé émette de bonne foi une prétention résultant de son contrat de travail n’a pas nécessairement pour conséquence de rendre abusif le congé donné ultérieurement par l’employeur. Encore faut-il que la formulation de la prétention en soit à l’origine et qu’elle soit à tout le moins le motif déterminant du licenciement.

Dans un cas d’espèce, il a ainsi été retenu que le licenciement de l’employée n’était pas abusif. Un important conflit personnel opposait certes celle-ci à sa supérieure hiérarchique, sans que des actes de harcèlement moral ne soient établis. Ladite supérieure avait une manière inadéquate de s’adresser à l’ensemble des collaborateurs, mais elle ne s’en prenait pas personnellement à l’employée et n’était pas animée par une volonté de lui nuire directement. De plus, l’employeuse avait pris diverses mesures concrètes pour remédier au conflit opposant les précitées, qui était, au demeurant, temporellement éloigné du licenciement litigieux. A cela s’ajoutait que le motif invoqué à l’appui de celui-ci, soit une réorganisation du service, était avéré. (CAPH/107/2024 du 20.12.2024, consid 3)

Dans un autre arrêt (CAPH/173/2022 du 3 novembre 2022, consid. 2.2.1-2.2.2), la Chambre des prud’hommes a retenu qu’il semblait peu vraisemblable que l’employeur, après avoir accepté de verser à l’employé un salaire sensiblement supérieur au salaire minimum prévu par la CCT, ait décidé de le licencier pour une prétention en remboursement de CHF 285.–, montant qu’il avait d’ailleurs payé quand même à bien plaire et à première réquisition. En soi, le bref laps de temps qui s’est écoulé entre la demande et le licenciement ne suffit pas à établir un lien de causalité. Au contraire, les différents éléments du dossier tendaient à confirmer qu’il s’agit d’un simple concours de circonstances.

Dans une autre affaire enfin, (CAPH/111/2021 du 7 juin 2021 consid. 4) l’employeuse avait, de manière constante, indiqué avoir licencié l’employé pour des motifs économiques. Elle se trouvait dans une situation financière délicate qui l’obligeait à se séparer d’une partie de son personnel. Les allégations de l’employeuse s’agissant des difficultés économiques rencontrées avaient été corroborées par les déclarations des témoins. Le travailleur conteste l’exigence de motifs économiques en faisant valoir qu’après son départ, la société avait engagé du personnel d’exploitation, mais également administratif, supplémentaire. Toutefois, s’il ressort en effet des enquêtes que du personnel d’exploitation a été engagé afin de développer l’activité de l’employeuse, il est en revanche aussi établi que le poste de l’employé n’avait pas été repourvu. Par ailleurs, la quasi-totalité des témoins ont confirmé la diminution de l’effectif global de l’entreprise. En outre, des anciens employés ont confirmé au Tribunal avoir aussi été licencié pour des motifs économiques au même moment. Il s’ensuit que la réalité du motif de congé invoquée par l’employeuse, à savoir l’existence de difficultés économiques, a été établie. Enfin, si l’employé a démontré avoir, avant son licenciement, réclamé le paiement de son salaire durant son incapacité de travail, il ne prouve en revanche pas que ses revendications seraient à l’origine du congé, respectivement qu’elles auraient joué un rôle déterminant dans celui-ci. Le simple fait d’émettre de bonne foi et de manière répétée des prétentions résultant du contrat de travail avant le licenciement ne suffit en effet pas pour conclure à l’existence d’un congé-représailles.

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et Intelligence Artificielle

Publié dans Non classé | Tagué , , , | Laisser un commentaire

Résiliation des rapports de service et droit d’être entendu

La recourante, avocate indépendante jusqu’en 2018, enseigne dès 2016 comme suppléante puis vacataire dans une école de culture générale. Victime en mars 2018 d’une rupture d’anévrisme avec graves séquelles, elle obtient le 22 avril 2020 une rente AI entière dès le 1er février 2019, avec incapacité de travail de 100 % dans toute activité. Malgré l’obligation de signaler toute modification, elle ne transmet pas cette décision à sa hiérarchie, tout en poursuivant son activité d’enseignante, puis en étant engagée dès le 1er août 2024 comme maîtresse d’enseignement professionnelle. En juin 2025, dans le cadre de la détection précoce, le Département découvre l’existence de la rente entière AI et, sans avoir auparavant averti l’intéressée ni recueilli ses explications, met fin à aux rapports de service. L’enseignante recourt en invoquant notamment la violation de son droit d’être entendue.

La Cour rappelle d’abord que le droit d’être entendu, garanti par l’art. 29 al. 2 Cst., comprend notamment le droit de prendre position avant qu’une décision ne soit rendue, d’offrir des moyens de preuve pertinents et d’obtenir qu’il y soit donné suite lorsque cela peut influer sur l’issue du litige. Ce droit a aussi une dimension personnelle : il permet à l’administré de participer à une décision qui affecte sa situation juridique.

En matière de rapports de travail de droit public, la jurisprudence admet que ce droit peut être satisfait par un échange informel, à condition que l’employé ait compris qu’une résiliation était envisagée à son encontre et qu’il connaisse les faits qui lui sont reprochés. Le statut du corps enseignant prévoit en outre expressément que la décision de résiliation est notifiée après audition de l’intéressé.

En l’espèce, le Département a résilié les rapports de service de l’enseignante peu après avoir appris l’octroi à son profit d’une rente AI entière, et ce sans l’avertir de son intention de la licencier, sans l’entendre, même de manière informelle, et sans lui permettre de proposer des preuves. Aucune situation d’urgence ne justifiait de passer outre cette étape. Le droit d’être entendu a donc été violé. La Cour examine ensuite si ce vice peut être « guéri » en instance de recours, compte tenu de son plein pouvoir d’examen en fait et en droit (effet dévolutif complet du recours). La réparation n’est admise que pour des atteintes non graves, ou lorsque le renvoi ne serait qu’une formalité inutile, ce qui suppose que le justiciable ait pu faire valoir ses arguments aussi efficacement devant l’instance de recours que devant l’autorité de première instance.

En l’espèce, le Département n’a procédé à aucune instruction sur des éléments déterminants: il n’a ni sollicité l’avis du médecin-conseil de l’État, ni interrogé l’AI, ni entendu la directrice de l’Ecole sur les informations reçues. Il a ainsi méconnu la maxime inquisitoire et son obligation d’établir les faits pertinents avant de licencier. Ce n’est par ailleurs qu’en réponse au recours que le Département invoque une rupture du lien de confiance due à la dissimulation de la rente AI, grief absent de la décision de licenciement. L’enseignante ne découvre donc ce reproche que devant la Cour, où elle apporte des éléments) qu’elle n’a jamais pu soumettre préalablement au Département.

Dans ces conditions, la Cour ne peut pas, sans se substituer au pouvoir d’appréciation de l’employeur et sans pouvoir examiner l’opportunité de la décision, trancher elle-même la question de la rupture du lien de confiance ni celle de l’aptitude au travail. Un renvoi n’est pas une formalité vide de sens : une instruction complémentaire (notamment audition de la directrice, avis médicaux pertinents, clarification des connaissances respectives de l’AI et du Département) est de nature à modifier substantiellement l’appréciation du comportement de l’enseignante et, partant, la mesure à prendre. La conséquence juridique de la violation grave du droit d’être entendu est donc l’annulation de la décision de résiliation et le renvoi du dossier au Département pour compléter l’instruction et rendre une nouvelle décision, après avoir régulièrement entendu l’intéressée.

(Arrêt de la Chambre administrative de la Cour de justice du canton de Genève ATA/1222/2025 du 4 novembre 2025)

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et Intelligence Artificielle

Publié dans Fin des rapports de travail, Fonction publique | Tagué , , , , | Laisser un commentaire

Les hallucinations de l’IA générative : dérèglement des sens ou logique de l’idée ? (II)

« Bien que l’avocat du défendeur ne l’ait pas reconnu directement, nous reconnaissons que la loi inventée dans le mémoire du défendeur résulte probablement de l’utilisation de l’intelligence artificielle. Nous reconnaissons également qu’il est devenu courant de qualifier les cas et les principes inventés par l’intelligence artificielle d’« hallucinations ». Nous rejetons cette terminologie, car elle occulte à la fois la nature et la gravité de la situation à laquelle nous sommes confrontés. Le mot « hallucination » signifie généralement « perception d’objets qui n’existent pas, résultant généralement d’un trouble du système nerveux ou d’une réaction à des drogues (comme le LSD) ». Merriam-Webster’s Collegiate Dictionary 524 (10e éd. 1993). Ici, cependant, d’après ce que nous comprenons, l’intelligence artificielle générative ne perçoit pas une loi inexistante comme le résultat d’un trouble. Elle génère plutôt des lois inexistantes conformément à sa conception. Et ces lois inexistantes sont, depuis plusieurs années, soumises à plusieurs reprises aux tribunaux. »

Ringo c. Colquhoun Design Studio, LLC 345 Or App 301 (2025) p. 303-304 (https://cases.justia.com/oregon/court-of-appeals/2025-a186670.pdf?ts=1764780757)

Merci à Alice Hewitt qui a mis en avant cette décision !

J’avais parlé de l’inadéquation du terme ici : https://droitdutravailensuisse.com/2025/05/04/les-hallucinations-de-lia-generative-dereglement-des-sens-ou-logique-de-lidee/

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et Intelligence Artificielle

Publié dans intelligence artificielle, Techno-labrador | Tagué , , | Laisser un commentaire

Et si l’IA corrigeait les examens en droit ?

A propos de : Cope, Kevin L. and Frankenreiter, Jens and Hirst, Scott and Posner, Eric A. and Schwarcz, Daniel and Thorley, Dane, Grading Machines: Can AI Exam-Grading Replace Law Professors? (December 03, 2025). Virginia Public Law and Legal Theory Research Paper No. 2025-80, Virginia Law and Economics Research Paper No. 2025-24, Available at SSRN: https://ssrn.com/abstract=

Des modèles d’IA de type « large language models » peuvent-ils corriger des examens de droit à la place des professeurs, ou au moins à côté d’eux ? Les auteurs partent du constat que ces modèles sont déjà utilisés pour analyser des contrats, rédiger des mémoires ou résumer des décisions, mais qu’on ne sait presque rien de leur capacité à évaluer un raisonnement juridique écrit, comme dans les examens classiques de droit.

Ils rappellent d’abord que l’idée de correction automatique n’est pas nouvelle. Dès les années 1960, des systèmes d’« automated essay scoring » ont tenté de noter des dissertations en se basant sur des caractéristiques superficielles des textes. Ces systèmes ont suscité beaucoup de critiques, notamment parce qu’ils étaient incapables de juger la qualité de l’argumentation. L’arrivée des modèles de langage modernes change la donne : les transformers permettent désormais de traiter de longs textes, de repérer des relations entre les mots et, en pratique, de produire ou d’analyser des réponses juridiques assez sophistiquées. Parallèlement, ces modèles ont commencé à être testés sur des tâches juridiques variées et sur les examens de droit eux-mêmes, y compris le barreau américain. Jusqu’ici, toutefois, la recherche s’est concentrée sur la capacité de l’IA à « passer » l’examen comme un étudiant, pas à le corriger comme un professeur.

Les auteurs expliquent ensuite pourquoi la correction d’examens de droit est un cas de test particulièrement exigeant. Les questions sont des « cas pratiques » longs, à réponse rédigée, pour lesquels il n’existe pas une seule bonne réponse formatée. Les étudiants doivent repérer des problèmes, appliquer des règles, discuter de plusieurs solutions possibles. Cela rend impossible un barème purement algorithmique de type « clé de correction » et complique aussi la mesure de la qualité de la correction humaine. Ils soulignent d’ailleurs que la correction humaine est loin d’être parfaite : les notes sont des signaux bruités du « vrai » niveau de l’étudiant, affectés par la fatigue, l’humeur, les biais implicites ou de simples erreurs d’attention.

À partir de là, les auteurs formulent leur objectif de recherche. Il ne s’agit pas de construire un modèle d’IA sur-mesure pour minimiser l’erreur à tout prix, mais de voir si des modèles commerciaux, utilisés avec des instructions simples, peuvent produire des notes suffisamment proches de celles du professeur pour être utiles en pratique. Comme on ne connaît pas le « vrai » niveau des étudiants, ils prennent comme référence le professeur lui-même : dans la plupart des usages envisagés (vérifier une correction, fournir un retour à l’étudiant, créer des benchmarks), le but est que l’IA imite la manière dont le professeur corrige, non qu’elle invente un autre standard.

Pour tester cela, ils rassemblent un ensemble de données provenant de quatre examens finaux dans quatre grandes facultés de droit américaines, dans des matières de base (procédure civile, contrats, responsabilité civile) et en droit des sociétés. Chaque examen comporte plusieurs questions de cas pratiques, et chaque professeur avait établi un barème plus ou moins détaillé pour corriger. Les copies ont été anonymisées.

Sur cette base, les auteurs définissent quatre manières différentes de demander à l’IA de corriger. La première, dite « ouverte », consiste à lui fournir la question, la réponse de l’étudiant et le nombre maximum de points, en lui demandant simplement de proposer une note. L’IA s’appuie alors uniquement sur sa compréhension générale du droit et de la logique juridique. La deuxième méthode ajoute au prompt le barème du professeur : les éléments à traiter et la pondération de chacun. L’IA reste libre dans la façon de combiner ces informations, mais on l’oriente vers les critères réellement utilisés par le correcteur humain. La troisième méthode pousse plus loin cette logique : on exige que l’IA attribue une sous-note pour chaque élément du barème, qui est ensuite additionnée pour obtenir la note de la question, un peu comme le ferait un professeur dans un tableau Excel. Cette méthode est plus lourde à mettre en place, car elle nécessite d’adapter le prompt à la structure précise de chaque barème. Enfin, la quatrième méthode abandonne l’idée de noter directement sur une échelle de points : on montre à l’IA deux réponses d’étudiants à la même question et on lui demande laquelle est meilleure. À partir de la totalité de ces comparaisons par paires, les auteurs reconstruisent un classement et des notes relatives à l’aide d’un modèle statistique de type « compétition sportive ». Cette dernière approche est théoriquement intéressante, mais très coûteuse en calcul, puisque le nombre de comparaisons croît très vite avec le nombre d’étudiants.

Les résultats sont ensuite présentés de manière systématique. Même avec la méthode la plus simple, sans barème, l’IA produit des notes qui suivent assez bien celles des professeurs : la corrélation statistique est déjà élevée, ce qui signifie que l’IA distingue globalement les bonnes et les mauvaises copies. Quand on ajoute le barème du professeur au prompt, la concordance devient très forte : pour certains examens, la corrélation dépasse 0,9, ce qui, en termes simples, veut dire que l’ordre des étudiants et les écarts entre leurs notes sont très proches de ceux de la correction humaine. Les auteurs observent aussi que les désaccords portent surtout sur certains points isolés, mais qu’ils se compensent lorsqu’on regarde la note totale de l’examen.

Les méthodes plus sophistiquées ne font pas vraiment mieux. La variante qui force l’IA à donner des sous-notes par critère produit des résultats presque identiques à la méthode avec barème simple, mais au prix d’une mise en œuvre nettement plus lourde. Les comparaisons par paires aboutissent, elles aussi, à des notes globales très corrélées aux notes du professeur, mais la distribution des notes est un peu différente et l’effort informatique est considérable. Les auteurs en concluent que, pour un usage pratique par des enseignants, la méthode la plus intéressante est tout simplement celle qui combine IA et barème détaillé : elle est relativement simple à paramétrer et atteint déjà un niveau de concordance difficile à améliorer.

Un point important de leur raisonnement consiste à comparer ce niveau de concordance à la variabilité de la correction humaine elle-même. Pour l’un des examens, l’un des professeurs a accepté de « re-corriger » une question sans se référer à sa première notation. Les auteurs comparent alors trois choses : la première correction humaine, la deuxième correction humaine, et la correction par l’IA utilisant le barème. Ils constatent que les deux séries de notes du professeur sont très proches l’une de l’autre, comme on pouvait l’espérer, mais pas identiques. La correction de l’IA s’en écarte un peu plus, mais reste dans le même ordre de grandeur de divergence. Pour d’autres examens, la corrélation entre l’IA et la correction humaine est même comparable à celle observée entre deux séries de notes humaines. Cela suggère que les écarts IA–professeur ne sont pas fondamentalement différents des écarts qu’on peut déjà observer entre corrections humaines effectuées à des moments distincts.

Les auteurs examinent ensuite les facteurs qui semblent améliorer ou dégrader les performances de l’IA. L’un des plus visibles est le degré de précision du barème. L’examen dont le barème était le plus fin, avec une liste d’éléments binaires (présent / absent) pour chaque question, est aussi celui pour lequel la concordance IA–professeur est la plus élevée. À l’inverse, l’examen où le barème se limitait à des indications très générales aboutit aux résultats les moins bons, quoique toujours élevés. Cela conduit les auteurs à l’hypothèse – qui demanderait d’autres études – qu’un barème structuré et précis est une condition importante pour tirer pleinement parti de l’IA comme correcteur.

Dans la discussion, les auteurs abordent ensuite les limites et les enjeux éthiques. Même si l’IA imite très bien la correction des professeurs, elle peut commettre des erreurs « différentes », potentiellement perçues comme plus choquantes. On peut craindre, par exemple, que le modèle soit sensible à certains styles linguistiques ou structures de phrase corrélés à l’origine ou au profil socio-culturel des étudiants. Ils notent aussi que les étudiants, les employeurs et les institutions peuvent avoir moins confiance dans une note attribuée par une machine, même si elle est en pratique très proche de celle d’un humain. De plus, certaines règles internes de facultés ou d’accréditation exigent que ce soit le professeur qui attribue les notes, ce qui pose un obstacle juridique et politique à une automatisation complète.

Cependant, ils insistent sur le fait qu’il serait trompeur de comparer l’IA à un correcteur humain idéal. La correction humaine souffre de problèmes bien documentés : incohérences entre copies similaires, influence de la fatigue, effet de halo (une bonne impression générale entraîne une sur-évaluation de tous les aspects), et parfois biais liés au genre, à l’origine ou au niveau de langue présumé. Dans les copies où la divergence IA–professeur était la plus forte, les auteurs ont d’ailleurs identifié des cas où le professeur avait manifestement mal appliqué son propre barème, en accordant trop de points. Les machines ne sont pas nécessairement plus justes, mais elles ne se fatiguent pas, et il est au moins théoriquement possible de tester et d’ajuster leurs biais sur la base de données.

Partant de ce constat, les auteurs proposent une approche prudente. À court terme, ils ne préconisent pas de remplacer purement et simplement la correction humaine par l’IA. En revanche, ils voient plusieurs usages complémentaires. L’IA peut servir de « second lecteur » pour signaler les copies où sa note diverge fortement de celle du professeur, invitant ce dernier à vérifier s’il n’a pas commis une erreur ou s’il souhaite maintenir sa note pour des raisons qu’il peut expliciter. Elle peut aussi fournir aux étudiants des retours rapides sur des examens blancs ou des devoirs non notés, en particulier si le professeur partage son barème. Cela pourrait aider les écoles de droit américaines à satisfaire les nouvelles exigences de l’ABA en matière d’évaluations formatives, sans multiplier la charge de travail des enseignants.

Les auteurs évoquent enfin des prolongements possibles hors du cadre universitaire. Des cabinets pourraient développer des barèmes internes pour certains types de travaux (notes de recherche, projets de mémoires, projets de contrats) et utiliser l’IA pour offrir aux jeunes avocats un retour structuré, plus fréquent que celui que les associés peuvent matériellement fournir. De même, les techniques de correction automatique pourraient servir à évaluer de manière standardisée les performances des systèmes d’IA juridiques eux-mêmes, en utilisant l’IA corrigeant des réponses d’IA, dès lors que des rubriques claires sont établies.

En conclusion, l’article soutient que, dans l’état actuel de la technologie, un modèle de langage général moderne, utilisé avec un barème détaillé, est déjà capable de reproduire très largement la correction d’un professeur de droit. Les obstacles à une substitution complète sont surtout institutionnels, politiques et psychologiques. En revanche, pour des usages de contrôle de qualité, de retour formatif aux étudiants et de construction de benchmarks juridiques, l’IA correctrice apparaît d’ores et déjà comme un outil prometteur, dont la précision devrait encore augmenter avec l’évolution rapide des modèles.

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et Intelligence Artificielle

Publié dans Droit US, intelligence artificielle | Tagué , , , , | Laisser un commentaire