Abandon d’emploi : droit de l’employeur à une indemnité ?

Le recourant [= l’employeur] soutient ensuite que la cour cantonale a violé le droit en rejetant sa prétention au titre de dommage-intérêts pour les conséquences du congé immédiat injustifié donné par la travailleuse. Il invoque une violation de l’art. 337d CO.

Le recourant se prévaut de l’art. 337d al. 1 CO et de l’ATF 118 II 277 qui, selon lui, lui donneraient droit à une indemnité forfaitaire sans devoir apporter la preuve d’un dommage.

 Il y a abandon d’emploi selon l’art. 337d CO lorsque le travailleur quitte son poste abruptement sans justes motifs. L’application de cette disposition présuppose un refus du travailleur de poursuivre l’exécution du travail confié. Dans ce cas, le contrat de travail prend fin immédiatement, sans que l’employeur doive adresser au salarié une résiliation immédiate de son contrat.

L’employeur a droit, aux conditions fixées par l’art. 337d CO, à une indemnité et, le cas échéant, à la réparation du dommage supplémentaire (arrêt 4A_35/2017 du 31 mai 2017 consid. 4.2; ATF 121 V 277 consid. 3a).

Lorsque l’abandon d’emploi ne résulte pas d’une déclaration expresse du salarié, il faut examiner s’il découle du comportement adopté par l’intéressé, c’est-à-dire d’actes concluants. Dans cette hypothèse, on se demandera si, compte tenu de toutes les circonstances, l’employeur pouvait, objectivement et de bonne foi, comprendre que le salarié entendait quitter son emploi (arrêts 4A_454/2022 du 17 novembre 2022 consid. 4.1; 4C.303/2005 du 1er décembre 2005 consid. 2.2; 4C.370/2001 du 14 mars 2002 consid. 2a). 

Le juge peut réduire l’indemnité selon sa libre appréciation si l’employeur ne subit aucun dommage ou si le dommage est inférieur à l’indemnité prévue à l’art. 337d al. 1 CO (art. 337d al. 2 CO).

 Il n’est plus contesté à ce stade que la travailleuse a abandonné son emploi en signifiant son congé immédiat de façon injustifiée, dans la mesure où les faits de harcèlement subis par elle ne suffisaient pas à justifier une résiliation immédiate. 

La cour cantonale a retenu que l’employeur n’avait subi aucun dommage du fait de l’abandon de poste de la travailleuse. En effet, lorsque la travailleuse a abandonné son poste le 28 juin 2021, elle était en incapacité de travail depuis le 7 juin 2021. L’employeur devait déjà avoir pris des mesures organisationnelles dès cette date. De plus, la travailleuse étant toujours en incapacité de travail le 28 juin 2021, l’employeur aurait de toute façon dû trouver une solution de repli, de sorte qu’il n’avait pas démontré avoir subi un quelconque dommage au titre de congé immédiat injustifié.

Faisant application de l’art. 337d al. 2 CO, la cour cantonale a considéré que l’employeur n’avait pas démontré avoir subi un quelconque dommage et a ainsi rejeté l’indemnisation forfaitaire de l’art. 337d al. 1 CO.

Le recourant, qui soutient que la faculté de réduire le montant alloué en vertu de l’art. 337d al. 2 CO ne permet pas pour autant au juge de supprimer toute indemnité forfaitaire, ne saurait être suivi. 

Par la fixation d’une indemnité forfaitaire prévue à l’art. 337d al. 1 CO, le législateur a pris en compte le fait qu’en cas de départ injustifié de l’employé, la preuve du dommage est souvent difficile à établir pour l’employeur (ATF 118 II 312 consid. 2a). Néanmoins, l’art. 337d al. 2 CO dispose que le juge peut réduire l’indemnité au-dessous de ce qui est prévu à l’al. 1 si le travailleur prouve que l’employeur ne subit aucun dommage ou qu’un dommage plus faible. La preuve en est fournie notamment s’il est démontré que l’employeur a omis de prendre immédiatement les dispositions nécessaires pour empêcher ou réduire le dommage (Message du Conseil fédéral concernant la révision des titres dixième et dixième bis du code des obligations [Du contrat de travail], du 25 août 1967, FF 1967 II, p. 401).

Or, en l’espèce, la cour cantonale a retenu, au stade de la constatation des faits, que l’employeur aurait dû prendre immédiatement les dispositions nécessaires pour empêcher le dommage, dès le 7 juin 2021, ou en tout cas avant le 28 juin 2021. En conséquence, elle a réduit à néant l’indemnité à l’employeur, en application de l’art. 337d al. 2 CO. Le recourant, qui soutient que l’art. 337d al. 2 CO n’accorde pas au juge la marge de manœuvre permettant de supprimer toute indemnité, se trompe. Le Message mentionne expressément le cas où l’employeur ne subit aucun dommage. Or la loi ne prévoit pas le paiement d’une indemnité en l’absence de tout dommage. Tout au plus, l’art. 337d al. 1 CO prévoit-il un allègement de la preuve pour l’employeur, mais pas une indemnité forfaitaire indépendante de l’existence d’un dommage. Lorsque le travailleur prouve que l’employeur ne subit aucun dommage du fait de son abandon de poste, le juge peut supprimer toute indemnité en vertu de l’art. 337d al. 2 CO.

Le caractère impératif de l’art. 337d CO (dans son ensemble, selon l’art. 361 al. 1 CO) invoqué par le recourant n’y change rien dans la mesure où les parties n’y ont pas dérogé.

Quant à sa dernière remarque concernant le fardeau de la preuve de l’absence de dommage, le recourant perd de vue que lorsque l’appréciation des preuves convainc le juge que le fait litigieux est établi, la répartition du fardeau de la preuve (art. 8 CC) n’a plus d’objet (ATF 141 III 241 consid. 3.2 et les références).

 Par conséquent, le grief de violation de l’art. 337d al. 1 et 2 CO et de l’art. 8 CC doit être rejeté. 

(TF 4A_533/2024 du 24 juin 2025, consid. 4)

Me Philippe Ehrenström, avocat, LLM

Publié dans Fin des rapports de travail, Responsabilité du travailleur | Tagué , , , , , , | Laisser un commentaire

L’avocat et le risque de l’intelligence artificielle cachée

A propos d’un « Order » du Juge Alison S. Bachus du 14 août 2025 dans Argelia Esther Mavy v. Commissioner of Social Security Administration, United States District Court for the District of Arizona (No. CV-25-00689-PHX-KML (ASB)) :

L’affaire naît d’un litige de sécurité sociale aux États-Unis. La demanderesse, représentée par une avocate admise dans le district fédéral d’Arizona, avait introduit une action en février 2025. Comme c’est l’usage, un mémoire introductif fut déposé pour défendre la position de la cliente. L’administration de la sécurité sociale a répondu, mais aucune réplique n’a été déposée.

C’est lors de l’examen du premier mémoire de la demanderesse que la cour a constaté un problème d’une ampleur inhabituelle. En effet, la grande majorité des références jurisprudentielles citées dans ce mémoire étaient soit inexistantes, soit erronées, soit tronquées ou présentées de manière trompeuse. Certaines semblaient avoir toutes les caractéristiques de ce que l’on appelle des « hallucinations » générées par des outils d’intelligence artificielle, c’est-à-dire des décisions inventées de toutes pièces mais rédigées avec l’apparence du réel : noms de parties plausibles, juridictions valables, dates crédibles.

Face à ce constat, la cour a ordonné à l’avocate de s’expliquer. Celle-ci a répondu qu’elle prenait l’entière responsabilité du mémoire, tout en expliquant le fonctionnement interne de son cabinet. Elle a décrit une chaîne de préparation des écritures en quatre étapes : une sélection préalable des affaires, une délégation de la rédaction à un avocat externe, une révision par un avocat superviseur au sein du cabinet, puis enfin une relecture personnelle avant signature. Elle a ajouté qu’elle s’était fiée au professionnalisme de la rédactrice externe, qu’elle avait en outre transmis à cette dernière une note officielle émanant d’un tribunal fédéral rappelant la vigilance requise face à l’usage de l’IA et la nécessité de vérifier les citations, et que la rédactrice avait accusé réception de cet avertissement. Malgré cela, le mémoire déposé contenait de très nombreux passages problématiques.

Dans sa réponse, l’avocate a insisté sur le fait qu’elle n’avait jamais eu l’intention de tromper le tribunal et qu’elle avait depuis lors rompu toute relation contractuelle avec la rédactrice externe. Elle a proposé de corriger le mémoire, de déposer une version amendée et de mettre en place de nouvelles procédures internes. Mais elle a aussi demandé à la cour de ne pas la sanctionner, ni de révoquer son admission, en invoquant l’importance de son cabinet pour l’accès à la justice des assurés sociaux à travers le pays.

Le tribunal a replacé l’affaire dans le cadre de la règle 11 des Federal Rules of Civil Procedure.

Cette règle impose à tout avocat signataire d’un acte de procédure de certifier qu’à sa connaissance, après enquête raisonnable, les arguments avancés sont fondés en droit. La jurisprudence américaine a souligné que cette obligation est personnelle et non délégable : l’avocat qui signe doit avoir vérifié lui-même que ce qu’il avance est juridiquement défendable. Il ne peut s’abriter derrière le travail d’un subordonné, d’un associé ou d’un prestataire externe. Ce point est fondamental, car il met en lumière le risque caché d’un usage incontrôlé de l’IA : l’avocat qui signe un document généré, même partiellement, par une machine, reste entièrement responsable de son contenu.

Le juge a procédé à une analyse minutieuse du mémoire en question. Dix-neuf citations y figuraient. À peine cinq à sept pouvaient être considérées comme exactes et pertinentes. Les autres étaient inexactes, sorties de leur contexte, attribuées à la mauvaise juridiction, voire totalement inventées. Trois décisions citées n’existaient tout simplement pas, alors même qu’elles étaient attribuées à des juges fédéraux bien réels. Ce procédé est grave, car il associe faussement le nom d’un magistrat à une opinion fictive, ce qui risque de nuire à la réputation de la justice et de semer la confusion.

L’avocate n’a pas reconnu expressément avoir eu recours à un outil d’intelligence artificielle, mais son propre tableau correctif qualifie certaines références de « probablement fabriquées par l’IA ». La cour a estimé que peu importait, au fond, de savoir si le recours à l’IA était avéré. Le problème réside dans le fait que des décisions inexistantes ou mal citées ont été présentées comme vraies au tribunal. C’est là une fausse déclaration de droit, peu importe que l’origine de l’erreur soit humaine ou algorithmique.

Le juge a rappelé que plusieurs cours fédérales avaient déjà été confrontées à ce type de problème et avaient dégagé une ligne claire : citer un arrêt inexistant ou déformer son contenu constitue une violation de la règle 11, indépendamment de la bonne ou mauvaise foi de l’avocat. L’obligation est objective et repose sur une vérification raisonnable. Or, en l’espèce, la vérification n’avait pas eu lieu. L’avocate avait délégué et signé sans contrôler. Cette omission équivaut à une violation manifeste de son devoir procédural.

S’agissant des sanctions, le juge a noté que la règle 11 permet une grande latitude, à condition que la mesure soit proportionnée et vise à prévenir la répétition du comportement. La jurisprudence montre une gradation : amendes, obligations de suivre des formations, interdiction temporaire, transmission au barreau, voire radiation. Dans certains cas récents, la sévérité a été renforcée parce que les sanctions plus légères ne suffisaient pas à endiguer le phénomène. La cour d’appel fédérale a même déjà frappé d’irrecevabilité un mémoire truffé de références fictives, en considérant que le reliquat valide n’était d’aucune utilité.

Dans cette affaire, le juge a retenu plusieurs éléments aggravants. D’abord, l’ampleur du problème : ce n’était pas une citation isolée, mais la majorité des références. Ensuite, la conscience préalable du risque : l’avocate avait elle-même diffusé à ses collaborateurs l’avertissement d’un autre tribunal sur l’usage de l’IA. Malgré cela, elle n’avait pris aucune mesure pour vérifier elle-même la conformité du mémoire. De plus, le dépôt de ce mémoire a désorganisé le cours normal de la procédure et obligé le tribunal à consacrer un temps précieux à une enquête disciplinaire au lieu d’examiner le fond du litige. Enfin, le fait d’avoir attribué des arrêts fictifs à des juges réels est particulièrement grave pour l’intégrité du système judiciaire.

Certes, l’avocate avait exprimé des regrets et proposé de corriger ses pratiques. Mais le juge a estimé que de simples excuses ne suffisaient pas, et que le dépôt d’un mémoire corrigé ne pouvait effacer le tort causé, ni restaurer le temps perdu, ni compenser le risque d’atteinte à la confiance du public. Laisser passer un tel incident reviendrait à encourager un usage laxiste de l’IA : les avocats pourraient se dire que, s’ils tombent, il leur suffira de corriger ensuite. Or, la leçon doit être claire : signer un écrit sans l’avoir vérifié engage personnellement et immédiatement la responsabilité de l’avocat.

En conséquence, la cour a prononcé un ensemble de sanctions. Le statut pro hac vice (admission pour la procédure dans ce ressort) de l’avocate a été révoqué et elle a été retirée du dossier. Le mémoire introductif a été écarté du dossier comme frappé de nullité. La demanderesse a été informée de la situation et a reçu un délai pour désigner un nouvel avocat ou se défendre seule. L’avocate sanctionnée a été obligée d’écrire personnellement aux trois juges auxquels elle avait faussement attribué des arrêts inexistants, pour les en informer et leur présenter la décision. Elle a été tenue également de notifier la présente ordonnance à tous les juges devant lesquels elle plaide dans d’autres affaires à travers le pays, afin de prévenir d’éventuelles irrégularités similaires. Enfin, le tribunal a décidé de transmettre le dossier au barreau de l’État de Washington, où l’avocate est inscrite, afin que l’autorité disciplinaire statue sur d’éventuelles conséquences supplémentaires.

En guise de note finale, le juge a souligné que l’affaire illustre de manière criante les risques cachés que recèle l’usage de l’IA par les avocats. L’outil peut générer du contenu apparemment crédible mais juridiquement faux, et si l’avocat signe sans vérifier, il se rend coupable de présenter de fausses affirmations de droit au tribunal. Ce danger est d’autant plus grand que l’IA est désormais banalisée et facilement accessible. La tentation est réelle de gagner du temps, mais elle ne dispense en rien du devoir de contrôle. Le juge a insisté : l’utilisation responsable de l’IA n’est pas interdite, mais elle impose un double devoir de vigilance et de vérification. Ne pas s’assurer de la fiabilité des citations, c’est abdiquer sa fonction d’avocat et contribuer à la perte de confiance dans la justice.

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et Intelligence Artificielle

Publié dans Avocats (règles professionnelles), Droit US, intelligence artificielle | Tagué , , , , | Laisser un commentaire

L’introduction de l’intelligence artificielle générative dans l’économie et ses effets

Quelques réflexions du MIT tirées de A. CHALLAPALLY et al., The Great GenAI Divide. State of AI in Business 2025, MIT Nanda Group, juillet 2025 (https://mlq.ai/media/quarterly_decks/v0.1_State_of_AI_in_Business_2025_Report.pdf):

Introduction

Le rapport dresse un constat étonnant : malgré 30 à 40 milliards de dollars d’investissements cumulés dans la GenAI (intelligence artificielle générative) par les entreprises, environ 95 % des organisations n’en tirent aucun rendement mesurable. Seule une minorité — environ 5 %— génère des gains de plusieurs millions, tandis que la vaste majorité reste bloquée sans impact sur le compte d’exploitation. Selon les auteurs, l’explication n’est ni la qualité des modèles ni la régulation, mais l’« approche » suivie par acheteurs et fournisseurs.

Autrement dit, l’écart de performance — la « GenAI Divide » — procède d’un différentiel de méthode et d’exécution. Les outils grand public type ChatGPT ou Copilot sont massivement testés et partiellement déployés, mais ils élèvent surtout la productivité individuelle sans transformer les comptes de pertes et profits (P&L).

À l’inverse, les systèmes « entreprise », qu’ils soient sur mesure ou fournis par des éditeurs, sont largement rejetés : beaucoup sont évalués, peu passent en pilote, et une infime fraction atteint la production. Les causes récurrentes sont des flux de travail fragiles, un déficit d’apprentissage contextuel et un faible alignement avec l’opérationnel. Le véritable obstacle n’est pas l’infrastructure, la pénurie de talents ou la conformité ; c’est l’absence de « learning » continu : la plupart des systèmes ne retiennent pas le feedback, ne s’adaptent pas au contexte, ne s’améliorent pas au fil du temps.

À l’opposé, un petit groupe d’acheteurs et de vendeurs obtient des résultats en exigeant des solutions centrées sur les processus, capables d’intégration profonde et d’apprentissage persistant. Là où des impacts RH existent, ils demeurent sélectifs (support client, ingénierie logicielle, fonctions administratives) et s’accompagnent d’économies claires sur les BPO (Business Practice Outsourcing)  et agences externes, ainsi que d’améliorations de rétention et de conversion commerciale, autant d’indices que des systèmes apprenants et ciblés peuvent délivrer de la valeur sans bouleversement organisationnel majeur.

Le « mauvais côté » de la GenAI Divide : adoption élevée, transformation faible

Les auteurs objectivent la fracture au niveau sectoriel via un indice composite de disruption (volatilité des parts de marché, croissance d’acteurs nés après 2020, nouveaux modèles IA, changements d’usage attribuables à la GenAI, réorganisations exécutives liées aux outils IA). Verdict : seule la technologie et, dans une moindre mesure, les médias & télécoms montrent des signes probants de mutation structurelle ; sept autres secteurs restent dominés par des pilotes sans transformation. Cette hiérarchie résiste aux variations de pondération des critères. De nombreuses entreprises pilotent, très peu industrialisent ; les outils génériques plaisent pour des tâches ponctuelles, les solutions sur mesure se heurtent à l’intégration, au manque de mémoire et à l’inadéquation aux usages. Notamment, les grands groupes multiplient les pilotes mais « scalent » moins que les entreprises de taille intermédiaire plus agiles, lesquelles réussissent parfois à passer du pilote au déploiement en 90 jours, quand les grandes entreprises dépassent fréquemment neuf mois. Les auteurs réfutent cinq idées reçues : pas de remplacements massifs de postes à court terme ; l’adoption ne vaut pas transformation ; les grandes entreprises sont en réalité très actives en exploration ; le principal frein n’est pas la qualité de modèle ou le juridique mais l’absence d’apprentissage et l’intégration déficiente ; enfin, les « meilleurs » ne sont pas forcément ceux qui construisent en interne, car ces projets échouent deux fois plus souvent que les partenariats externes.

Pourquoi les pilotes s’enlisent : le « learning gap »

Le chapitre centralise les causes d’échec de montée en charge. Un sondage auprès de sponsors exécutifs et d’utilisateurs place la résistance au changement au premier rang, mais juste derrière apparaissent des facteurs liés à la qualité perçue des modèles, au manque d’UX (User Experience) et surtout à l’absence d’apprentissage contextuel. Paradoxe : les mêmes professionnels qui utilisent avec enthousiasme des interfaces grand public comme ChatGPT se montrent circonspects face aux outils internes qui, bien que basés sur des modèles analogues, ne s’adaptent pas, ne mémorisent pas et ne s’améliorent pas. Les outils génériques gagnent pour la rédaction et l’idéation car ils sont flexibles, rapides et familiers ; ils perdent pour les activités critiques, où 90 % des répondants préfèrent l’humain en raison d’un besoin de mémoire des préférences, de persistance du contexte et de personnalisation des workflows. Le « gap » est donc structurel : sans mémoire, sans apprentissage et sans adaptation, l’IA reste cantonnée aux tâches simples. Les auteurs introduisent ici la notion d’« Agentic AI » : des systèmes conçus avec mémoire persistante, apprentissage itératif et orchestration autonome, capables de prendre en charge des processus de bout en bout (support, finance transactionnelle, pipeline commercial) et de combler précisément les lacunes mises au jour.

Une dynamique éclairante complète ce diagnostic : l’« économie de l’ombre » de l’IA.

Bien que peu d’organisations achètent des abonnements officiels, l’usage personnel des LLM par les employés est massif et quotidien, avec des gains visibles — souvent supérieurs aux initiatives officielles —, tout en restant non intégré, non gouverné et non cumulatif pour l’entreprise. Les organisations qui savent capitaliser sur ces usages en les cartographiant puis en achetant des équivalents entreprise dotés de mémoire et d’intégrations, se donnent les moyens de franchir la Divide.

Franchir la Divide côté « builders » : ce que font les meilleurs fournisseurs

Les éditeurs et startups qui réussissent se différencient par trois traits : focalisation sur des cas étroits mais à forte valeur, enracinement profond dans les workflows, et apprentissage continu pour « scaler » par l’amélioration et non par l’empilement de fonctionnalités. Les acheteurs plébiscitent les solutions qui retiennent le contexte, apprennent des feedbacks et se personnalisent au processus — des capacités explicitement demandées par près des deux tiers des dirigeants interrogés. Les critères d’achat réels, tels que décrits par les décideurs, sont la confiance dans le fournisseur, l’intimité avec le métier, le minimum de perturbation des outils en place, des frontières de données claires et la capacité démontrée à s’améliorer dans le temps. Dans les marchés de confiance (juridique, santé, finance), la défiance envers les jeunes pousses reste élevée : les partenariats via des intégrateurs, les recommandations de pairs, de conseils d’administration ou d’écosystèmes jouent un rôle décisif dans l’accès et la conversion. Les segments gagnants aujourd’hui sont pragmatiques : voix/centre d’appels (synthèse et routage), automatisation documentaire (contrats, formulaires), génération de code répétitif. À l’inverse, les offres qui prétendent piloter des logiques internes complexes ou de l’optimisation « boîte noire » se heurtent aux frictions d’adoption.

Franchir la Divide côté « buyers » : ce que font les meilleurs acheteurs

Les organisations efficaces achètent et co-développent davantage qu’elles ne construisent seules, et traitent les fournisseurs IA comme des prestataires de services opérationnels plutôt que comme des éditeurs SaaS génériques. Elles exigent des personnalisations profondes alignées sur leurs données et procédures, évaluent sur des résultats « métier » et pas des benchmarks de modèles, acceptent des itérations de mise au point, et décentralisent l’initiative vers les responsables de proximité — souvent des « power users » qui ont déjà rodé les cas d’usage via des outils grand public. Sur l’échantillon étudié, les partenariats externes aboutissent environ deux fois plus souvent que les constructions internes ; ils procurent un time-to-value plus court, un coût total plus faible et une meilleure adoption utilisateur, sous réserve des limites méthodologiques admises par les auteurs. Le design d’organisation est crucial : la délégation d’autorité pour expérimenter, combinée à une responsabilisation claire sur les résultats, explique davantage la réussite que la taille du budget ou du dispositif central.

Les auteurs renversent aussi un biais d’allocation. Bien que la moitié des budgets GenAI se dirige vers les ventes et le marketing — en partie parce que les indicateurs y sont plus immédiats et « board-friendly » —, les retours tangibles les plus nets apparaissent souvent au « back-office » : élimination partielle de BPO, réduction de 30 % des dépenses d’agence, économies substantielles en contrôle de risques, accélération des clôtures comptables et de la conformité documentaire. Ces gains surviennent généralement sans plans de licenciements internes massifs : l’IA accélère et relocalise, elle substitue des dépenses externes et libère des capacités.

Impact sur l’emploi : une réalité nuancée, des trajectoires divergentes

Les effets sur l’emploi, observés chez les adopteurs avancés et dans les secteurs réellement disruptés, se concentrent là où les activités sont déjà standardisées et souvent externalisées : support client, traitement administratif, développement logiciel répétitif. Les réductions évoquées dans ces périmètres oscillent entre 5 % et 20 % chez les entreprises concernées, mais il n’existe pas de tendance de licenciements généralisés. À l’horizon 24 mois, technologie et médias pourraient réduire les volumes de recrutement, alors que santé, énergie et industries de base ne projettent pas de contraction, même si certains dirigeants anticipent une modération des embauches lorsque les systèmes deviendront pleinement apprenants. En recrutement, l’« IA literacy » devient un critère déterminant, parfois plus répandu chez les jeunes diplômés que chez des profils expérimentés. En toile de fond, l’analyse « Project Iceberg » du MIT estime l’automatisation actuelle possible à environ 2,27 % de la valeur du travail américain, pour une exposition latente de 2,3 trillions de dollars et 39 millions de postes potentiellement affectés si — et seulement si — les systèmes gagnent en mémoire, apprentissage et autonomie d’outillage. Pour l’instant, la transformation passe davantage par l’optimisation des coûts externes que par des restructurations internes.

Au-delà des agents : vers un « Agentic Web »

Les auteurs esquissent la prochaine étape : un « agentic web » où des systèmes autonomes découvrent, négocient et coordonnent à l’échelle d’Internet. Grâce à des protocoles comme MCP, A2A et NANDA, des agents spécialisés coopèrent sans architecture monolithique, composent des intégrations dynamiques sans connecteurs préconstruits, déclenchent des transactions de manière fiable (jusqu’à des smart contracts) et optimisent des chaînes de valeur qui traversent les frontières organisationnelles. Des expérimentations laissent entrevoir des agents d’achats capables d’identifier de nouveaux fournisseurs et de négocier des termes, des services client qui orchestrent plusieurs plateformes, et des chaînes de création de contenu dotées d’assurance qualité et de paiements automatisés. La thèse est que le passage de « prompts » isolés à une coordination protocolisée décentralisée transformera la façon dont les entreprises découvrent, intègrent et transigent, et qu’il creusera l’écart entre ceux qui auront ancré des capacités apprenantes et les autres.

Conclusion : comment combler la GenAI Divide

Pour « passer de l’autre côté », trois décisions semblent s’imposer.

Premièrement, privilégier l’achat-partenariat au « tout construire » afin d’accéder plus vite à des briques qui apprennent dans le contexte propre à l’entreprise.

Deuxièmement, responsabiliser les managers de terrain — souvent à l’origine des cas utiles — plutôt que d’attendre une validation centralisée exhaustive.

Troisièmement, sélectionner des systèmes qui s’intègrent profondément aux flux existants, retiennent le contexte, se bonifient avec l’usage et rendent des comptes sur des métriques business.

Les organisations qui persisteront à investir dans des outils statiques et « prompt-dépendants » resteront piégées dans la phase pilote. Celles qui co-développent des agents dotés de mémoire et d’orchestration, adossés à des protocoles d’interopérabilité, verrouilleront des avantages cumulatifs difficiles à rattraper.

Méthodologie et limites

Le rapport s’appuie sur une recherche multi-méthodes conduite entre janvier et juin 2025 : analyse systématique de plus de 300 initiatives publiques, 52 entretiens structurés auprès d’organisations variées et 153 réponses de dirigeants collectées sur quatre conférences sectorielles. La « réussite » est définie comme un déploiement au-delà du pilote avec des KPI mesurables, l’impact ROI étant évalué six mois après le pilote et ajusté à la taille des départements. Les auteurs précisent les limites : échantillonnage non exhaustif, auto-sélection des répondants, hétérogénéité des métriques de succès, observation parfois trop courte pour juger des projets complexes. Les scores de disruption, fondés sur des signaux publics et des appréciations d’entretiens, peuvent ignorer des développements privés. Les pourcentages « build vs buy » et les distributions d’investissements fonctionnels doivent être lus comme directionnels. Pour autant, les tendances — écart pilote-production, avantage des partenariats, ROI back-office, centralité du « learning » — sont robustes sur l’échantillon et convergentes avec les témoignages recueillis.

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et Intelligence Artificielle

Publié dans intelligence artificielle | Tagué , , , , | Laisser un commentaire

Les références fournies par l’employeur à propos d’un ancien employé

Quelques réflexions tirées de TF 4A_493/2024 du 17 juin 2025 consid. 3 et 4 :

L’art. 330a CO prévoit expressément le droit du travailleur à un certificat de travail complet ou à une simple attestation. En revanche, aucune disposition ne mentionne les références fournies par l’employeur à propos d’un ancien employé.

Toutefois, la doctrine et la pratique admettent que les références relèvent de la post-contractual duty of care de l’employeur, dérivée de la protection de la personnalité du travailleur (art. 328b CO) et de l’obligation d’assurer son avenir économique.

En effet l’art. 330a CO n’épuise pas la question. Certes, seule la remise du certificat est expressément prévue, mais la jurisprudence et la doctrine reconnaissent que l’employeur doit, en vertu de son devoir de protection postcontractuel, donner des références lorsqu’elles sont demandées et que cela ne lui occasionne pas de difficultés insurmontables. Ce devoir n’est pas absolu mais il existe en principe, et il est renforcé par l’idée que le certificat et la référence poursuivent le même but : faciliter la réinsertion du travailleur et protéger sa réputation.

Les références sont un traitement de données personnelles. Elles tombent donc sous le coup de l’art. 328b CO et de la LPD. Cela signifie que l’employeur ne peut délivrer de références qu’avec le consentement du travailleur, ou si un motif justificatif existe (art. 31 LPD). En pratique, l’usage veut que l’ancien employeur n’agisse que sur demande expresse du travailleur ou avec son accord, ce qui était le cas ici, puisque l’employé avait expressément sollicité la référence pour son nouvel engagement.

Le Tribunal fédéral insiste sur le fait que la référence doit compléter le certificat sans le contredire ni l’élargir de manière abusive. Elle peut préciser des points, donner un éclairage, mais elle ne doit pas miner la confiance placée par le travailleur et les tiers dans le certificat. Si l’employeur sort de ce cadre, en avançant des appréciations qui contredisent ou relativisent le certificat, il porte atteinte à la personnalité du travailleur et engage sa responsabilité. À l’inverse, refuser de donner toute référence sans motif valable peut également constituer une violation du devoir de protection.

L’employeur engage sa responsabilité civile s’il fournit une référence inexacte, mensongère ou dénigrante, ou s’il refuse arbitrairement de répondre à un potentiel employeur. Le dommage consiste notamment dans la perte d’une chance professionnelle ou d’un salaire futur. Cette responsabilité est impérative.

Concernant le délai de délivrance, la loi ne fixe pas de délai précis. Par analogie avec l’art. 75 CO, l’exécution doit être immédiate, mais cela doit s’entendre conformément à la bonne foi, donc en tenant compte de la complexité des informations, de la taille de l’entreprise et de la durée des rapports de travail. La doctrine est partagée : certains estiment qu’un certificat doit être fourni en quelques jours, d’autres admettent un délai de deux à trois semaines. Le Tribunal fédéral se garde de trancher définitivement, mais il souligne que dans le cas d’espèce, un délai de dix jours observé par une grande entreprise internationale confrontée à une demande délicate n’est pas critiquable.

L’arrêt souligne plusieurs points pour la pratique :

Existence du devoir de donner des références : il découle de la protection de la personnalité et de la finalité du certificat de travail, même s’il n’est pas prévu expressément dans le CO.

Qualification en termes de données personnelles : toute référence est un traitement de données personnelles soumis à l’art. 328b CO et à la LPD-

Fonction de la référence : elle complète le certificat, sans le contredire ni l’élargir de manière abusive.

Responsabilité de l’employeur : un refus arbitraire ou une référence trompeuse engage sa responsabilité.

Délai de délivrance : il doit être immédiat au sens de l’art. 75 CO, mais modulé selon les circonstances. Un délai de dix jours peut être admis dans une grande entreprise pour une demande complexe.

Me Philippe Ehrenström, avocat, LLM

Publié dans Certificat de travail, nouvelle LPD, Protection de la personnalité, Protection des données | Tagué , , , , , , | Laisser un commentaire

Mémorisation et droit d’auteur dans les modèles d’IA

Quelques réflexions tirées de James Grimmelmann & A. F. Cooper, The Files are in the Computer: On Copyright, Memorization, and Generative AI, 100 Chi.-Kent L. Rev. 141 (2025)  (Available at: https://scholarship.kentlaw.iit.edu/cklawreview/vol100/iss1/9):

L’article est consacré à la notion de « mémorisation » dans les modèles d’intelligence artificielle générative et à ses implications en droit d’auteur.

À travers un examen approfondi des concepts, des mécanismes techniques et des controverses judiciaires en cours, les auteurs cherchent à donner aux juristes une base technique solide leur permettant de saisir la nature exacte de la mémorisation et de la distinguer d’autres notions proches, afin d’éviter que le droit ne repose sur des approximations.

L’analyse prend comme point de départ l’affaire initiée par le New York Times contre OpenAI et Microsoft à la fin de l’année 2023. Le journal reprochait à ChatGPT et à Bing Copilot d’avoir « mémorisé » des articles publiés dans ses colonnes, de telle sorte qu’en fournissant un extrait d’un article comme amorce, le modèle produisait un texte restituant presque mot pour mot la suite de l’article. Pour le Times, il s’agissait d’une reproduction illicite et donc d’une violation flagrante du droit d’auteur. OpenAI, au contraire, soutenait que de tels résultats étaient obtenus uniquement par des manipulations particulières de l’outil, constitutives d’un usage dit « adversarial », et qu’ils ne représentaient pas le fonctionnement normal du système. Ainsi s’opposaient deux visions : celle d’un modèle qui aurait en lui-même intégré et stocké illégalement des contenus protégés, et celle d’un simple outil statistique neutre dont les sorties dépendent essentiellement de l’usage qu’en font les utilisateurs.

Les auteurs montrent que ce désaccord tient en réalité à une confusion conceptuelle autour de la notion de mémorisation. Ils insistent sur le fait que l’on ne peut se contenter de métaphores vagues telles que « corrélations statistiques » ou « motifs », qui masquent ce qui se passe réellement dans les paramètres du modèle. Une approche juridique sérieuse doit s’appuyer sur une compréhension technique précise. C’est dans ce but que l’essai propose une définition rigoureuse : un modèle a mémorisé une donnée d’entraînement lorsqu’il est possible d’en reconstruire une copie exacte ou quasi exacte d’une portion substantielle.

Cette définition met en évidence plusieurs conséquences importantes.

Premièrement, la mémorisation n’est pas synonyme de l’ensemble des processus d’apprentissage : la plupart des capacités des modèles génératifs relèvent de la généralisation et de la recombinaison créative des données, mais cela n’exclut pas l’existence ponctuelle de mémorisation brute.

Deuxièmement, la mémorisation intervient lors de la phase d’entraînement et non au moment de la génération. Lorsqu’un modèle restitue mot pour mot un passage, il ne crée pas la mémorisation sur le moment : il manifeste simplement un état latent déjà acquis.

Troisièmement, en droit d’auteur, un modèle contenant des données mémorisées peut être considéré comme une copie de ces données, même si elles ne sont pas immédiatement visibles.

Quatrièmement, à la différence d’un magnétoscope ou d’un outil de copie neutre, le modèle ne se contente pas de reproduire mécaniquement : il incorpore certains éléments plus que d’autres, et ces choix tiennent à la manière dont il a été entraîné.

Cinquièmement, la mémorisation existe indépendamment de l’intention des utilisateurs. Ce n’est pas seulement le fruit de sollicitations malveillantes, mais une propriété inhérente du modèle.

Sixièmement, l’ampleur de la mémorisation dépend des choix techniques des développeurs : taille et nature du jeu de données, méthode d’entraînement, ajustements fins.

Septièmement, même une fois la mémorisation intégrée, il est possible d’en limiter l’apparition dans les sorties en ajoutant des garde-fous au niveau du système global, comme des filtres d’entrée et de sortie ou des comparaisons avec des bases de données externes.

Pour illustrer ces mécanismes, l’article consacre une première partie à l’explication technique des modèles génératifs et des chaînes de production dans lesquelles ils s’insèrent. Les auteurs rappellent que, derrière la diversité des applications — chatbots, générateurs d’images, de musique, de vidéos ou d’assistants de programmation — se cache une architecture commune. Les modèles sont entraînés sur des ensembles massifs de données, découpés en unités appelées « tokens », et cherchent à en dégager des distributions statistiques. Contrairement à des modèles discriminatifs qui se contentent de classer, les modèles génératifs produisent de nouvelles données du même type que celles de l’entraînement. Le processus repose sur des réseaux neuronaux qui ajustent des milliards de paramètres, puis génèrent des sorties par une procédure de prédiction itérative des prochains tokens.

Cette approche statistique permet une créativité apparente, en recomposant des corrélations de styles, de concepts ou de structures. Mais elle comporte aussi la possibilité de reproduire textuellement des fragments du corpus.

Les auteurs insistent également sur la complexité de la chaîne de valeur. Le modèle n’est qu’un maillon dans un ensemble plus large comprenant la collecte et la curation des données, la phase de pré-entraînement sur des bases générales, l’éventuel affinement sur des données spécifiques, l’intégration du modèle dans un système logiciel avec interface et filtres, puis l’alignement par renforcement sur des préférences humaines. Chaque étape implique des acteurs différents et des choix techniques ou économiques ayant des incidences juridiques. C’est pourquoi une approche juridique globale doit tenir compte de l’ensemble de la chaîne plutôt que de se focaliser sur un seul moment.

La deuxième partie, cœur de l’article, développe une typologie précise des notions de mémorisation et de ses manifestations. Trois termes doivent être distingués. L’« extraction » désigne le cas où un utilisateur, par un prompt ciblé, obtient volontairement la copie exacte d’un élément d’entraînement. La « régurgitation » correspond à la génération spontanée par le modèle d’une telle copie, indépendamment de l’intention de l’utilisateur. Enfin, la « reconstruction » vise la capacité à obtenir la copie par n’importe quel moyen, pas nécessairement via le processus habituel de génération.

Ces distinctions permettent de mieux comprendre les débats judiciaires : lorsqu’un modèle régurgite un article, c’est la preuve qu’il l’avait mémorisé, et non la cause de la mémorisation. La présence d’une œuvre dans le modèle suffit à caractériser la reproduction, peu importe le degré de difficulté à l’extraire.

Les auteurs s’attardent ensuite sur la manière dont la mémorisation s’inscrit dans les paramètres du modèle. Les « motifs » et « corrélations » abstraits que décrivent les entreprises incluent en réalité aussi des formes de copie quasi textuelle. La mémorisation peut être vue comme une compression extrême, où certains fragments sont conservés tels quels. Le caractère non déterministe de la génération — le fait qu’un même prompt puisse donner des résultats différents — ne change pas cette réalité : même si la reproduction n’apparaît pas systématiquement, la donnée mémorisée demeure stockée dans les poids du modèle.

La question de la quantité mémorisée est plus délicate. Les chercheurs tentent de la mesurer par des expériences d’extraction, mais les résultats varient selon la taille et la nature des modèles. Il est impossible de réduire cela à un chiffre unique, comme « un pour cent du corpus ». Il faut plutôt admettre une variabilité importante. En outre, les modèles ne se limitent pas à mémoriser : ils généralisent aussi, produisant des contenus nouveaux. La coexistence de ces deux capacités brouille les analogies trop simples. Les auteurs critiquent par exemple l’analogie avec les magnétoscopes, avancée pour minimiser la responsabilité des développeurs. Un magnétoscope ne contient pas en lui-même des copies d’œuvres ; un modèle qui a mémorisé des données, si. Cette différence est essentielle pour le droit d’auteur.

L’article aborde aussi la figure de l’« utilisateur adversarial », mise en avant par les défendeurs pour rejeter la faute sur des usagers abusifs. Les auteurs estiment que cette approche est trompeuse : la possibilité d’extraction découle des propriétés intrinsèques du modèle, non de comportements marginaux. Si un utilisateur peut obtenir une copie, c’est que la donnée est présente. La responsabilité ne saurait être évacuée aussi simplement.

Enfin, les auteurs replacent le modèle dans l’écosystème plus large du système d’IA générative. Même si la mémorisation est inévitable, il existe des moyens de réduire le risque de régurgitation publique : limiter les prompts acceptés, filtrer les sorties, comparer avec des bases de données de références, voire réentraîner le modèle. Ces choix techniques montrent que la responsabilité juridique pourrait se distribuer à plusieurs niveaux : la conception du jeu de données, l’entraînement, mais aussi la mise en œuvre des garde-fous.

La conclusion de l’article, formulée dans un style plus réflexif, souligne que le débat autour de la mémorisation est encore jeune et parfois parasité par des incompréhensions conceptuelles. Les auteurs ne prennent pas position sur les solutions juridiques à adopter ni sur l’issue des procès en cours, mais insistent sur la nécessité de bâtir les raisonnements sur une base technique correcte. Ils rappellent que la définition de la copie en droit d’auteur, centrée sur la fixation matérielle d’une œuvre, doit être éclairée par la compréhension du fonctionnement réel des modèles. Les enjeux dépassent le seul copyright et touchent aussi à la vie privée et à l’éthique de l’IA, mais l’urgence actuelle est de clarifier le vocabulaire et de ne pas laisser les tribunaux décider à partir de concepts flous. En définitive, l’article invite les juristes à se détourner des analogies simplistes et des débats rhétoriques pour regarder ce qui se passe « dans l’ordinateur », là où résident les fichiers, c’est-à-dire dans les paramètres des modèles.

La mémorisation est réelle, mesurable, et distincte de la généralisation. Elle est inscrite dans la structure même des modèles. Elle peut être limitée, mais non effacée par une simple dénégation. C’est sur cette réalité que doit se construire toute réflexion juridique sur le droit d’auteur à l’ère de l’intelligence artificielle générative.

(L’article est paru dans les actes du colloque AI Disrupting, sous la direction du Professeur Edward Lee, Chicago – Kent Law Revie, vol.  100, Issue 1 (2025), en libre accès ici : https://scholarship.kentlaw.iit.edu/cklawreview/)

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et Intelligence Artificielle

Publié dans droit d'auteur, Droit US, intelligence artificielle | Tagué , , | Laisser un commentaire

Intelligence artificielle et effondrement du droit

Quelques réflexions tirées de Solow-Niederman, Alicia, AI and Doctrinal Collapse (August 08, 2025). 78 Stanford Law Review __ (forthcoming 2026), Available at SSRN: https://ssrn.com/abstract=5384965):

L’article s’ouvre sur un constat qui déplace la manière habituelle d’analyser le rapport entre intelligence artificielle et droit. Contrairement à l’idée répandue selon laquelle les technologies iraient trop vite et que le droit serait en retard, l’auteure soutient que le véritable problème n’est pas la vitesse mais la structure même des régimes juridiques existants. Ce sont les choix historiques de construction des règles de propriété intellectuelle et de protection de la vie privée qui créent aujourd’hui un terrain propice à ce qu’elle appelle un « effondrement doctrinal  inter-régime». L’expression désigne la situation où deux régimes de droit distincts, chacun avec sa logique propre, en viennent à se chevaucher sur le même objet – en l’occurrence les données – jusqu’à perdre leur lisibilité et leur cohérence. L’intelligence artificielle agit comme un catalyseur de cette instabilité, car elle dépend massivement de l’accès aux données, qui se trouvent régies simultanément par le droit d’auteur et par le droit de la protection des données. Lorsque les frontières se brouillent, les entreprises technologiques peuvent exploiter les contradictions pour justifier des comportements qui échappent au contrôle effectif de la loi.

La problématique est illustrée par l’exemple des grandes entreprises d’IA qui, selon les circonstances, qualifient les données de « publiques » pour se soustraire aux restrictions de copyright ou de vie privée, mais qui dans le même temps les revendiquent comme « propriétaires » et confidentielles pour échapper à la transparence. Cette oscillation entre deux cadres normatifs contradictoires révèle une défaillance plus profonde : l’incapacité du droit à maintenir ses catégories distinctes et à assigner de manière stable des droits et obligations. Pour l’auteure, cette déstabilisation n’est pas seulement un problème technique ou sectoriel. Elle menace le principe de l’État de droit, car elle rend la règle imprévisible et manipulable par les acteurs les mieux dotés en ressources juridiques.

I. Définir l’effondrement doctrinal

Le premier chapitre s’attache à préciser le concept. L’auteure rappelle que l’on a déjà beaucoup étudié les effondrements internes à un régime juridique donné, par exemple l’érosion progressive de certaines doctrines en droit de la responsabilité civile ou en droit constitutionnel. Dans ces cas, un corpus de règles perd sa cohérence interne, soit parce que les juges en confondent les éléments, soit parce qu’ils les appliquent à des situations nouvelles qui en révèlent les limites. Ces évolutions sont parfois décrites comme des dérives doctrinales ou idéologiques. Mais ici, l’objet est différent : il s’agit d’un effondrement inter-régime, c’est-à-dire entre deux domaines du droit qui coexistent et se recouvrent.

Pour qu’il y ait effondrement, il faut d’abord que deux régimes s’appliquent au même objet de régulation. C’est le cas des données, qui peuvent être vues à la fois comme des informations protégées par la vie privée et comme des œuvres ou contenus soumis au droit d’auteur. Ensuite, il faut que les frontières doctrinales s’estompent, de sorte qu’il devienne difficile de déterminer quel régime prévaut et selon quelle logique. Enfin, il faut que les logiques sous-jacentes soient irréconciliables : le droit d’auteur repose sur une logique de propriété et d’incitation à la création, alors que le droit de la vie privée repose sur une logique de contrôle individuel et d’autonomie. Lorsque ces logiques s’entremêlent sans cohérence, la structure juridique s’effondre.

L’auteure insiste pour distinguer cet effondrement d’autres phénomènes. Ce n’est pas une simple lacune, où la loi manquerait. Ce n’est pas non plus de l’arbitrage réglementaire, où une entreprise choisit stratégiquement une juridiction ou une qualification favorable. L’effondrement est plus fondamental : il se situe dans la structure même des catégories juridiques, qui deviennent incohérentes et donc exploitables.

L’effondrement n’est pas toujours négatif en soi. Il peut parfois permettre des innovations, des mélanges de régimes plus adaptés, ou une flexibilité accrue. Mais il devient problématique lorsqu’il ouvre la voie à une exploitation systématique par des acteurs dominants, aux dépens de la clarté et de la légitimité du droit. C’est précisément ce qui se produit aujourd’hui avec l’intelligence artificielle et la collecte de données.

II. L’effondrement doctrinal dans la pratique : l’acquisition de données pour l’IA

La deuxième partie applique cette grille de lecture à la réalité du développement de l’intelligence artificielle. Les modèles actuels, et notamment les modèles génératifs, ont besoin d’immenses quantités de données pour être entraînés. Cette nécessité les place immédiatement dans une zone de chevauchement entre droit d’auteur et droit de la vie privée.

L’auteure rappelle que chacun de ces domaines a une logique distincte. Le droit d’auteur confère des droits exclusifs sur les œuvres afin d’encourager la création et l’investissement, mais il admet des exceptions comme le fair use pour préserver l’accès du public. Le droit de la vie privée (privacy), tel qu’il s’est développé aux États-Unis, repose sur le paradigme du consentement individuel et de l’autonomie, avec des règles sectorielles et le contrôle de la Federal Trade Commission contre les pratiques déloyales. Les deux régimes ne poursuivent donc pas les mêmes objectifs ni ne mobilisent les mêmes tests.

Or, dans la pratique, les entreprises d’IA naviguent entre ces logiques pour justifier leurs comportements. Lorsqu’il s’agit d’utiliser massivement des données disponibles en ligne, elles invoquent leur caractère « public » pour nier à la fois les droits d’auteur et les droits de vie privée. Mais lorsqu’elles sont sommées de révéler quelles données ont effectivement servi à l’entraînement, elles se retranchent derrière la notion de secret commercial ou de propriété intellectuelle pour refuser la divulgation. Cette double posture illustre le brouillage des catégories.

L’auteure montre aussi que ce brouillage ne reste pas théorique mais se traduit dans des litiges en cours. De nombreux procès aux États-Unis opposent auteurs, artistes, éditeurs ou journalistes aux développeurs d’IA, avec des arguments juridiques fluctuants selon les cas. Les juges sont confrontés à des demandes contradictoires et peinent à trancher de manière cohérente, ce qui accentue le sentiment d’effondrement.

L’auteure identifie ensuite deux grandes stratégies d’exploitation, qu’elle appelle le « buy » et le « ask ». La première consiste à acheter des données via des accords commerciaux entre entreprises, ce qui permet de contourner les droits individuels des personnes concernées. Les grandes plateformes concluent des contrats avec des bases de données, des éditeurs ou des réseaux sociaux pour accéder à des contenus massifs, souvent sans que les individus sachent que leurs données sont ainsi transférées. La seconde stratégie consiste à demander directement le consentement des utilisateurs par le biais de conditions générales d’utilisation ou de politiques de confidentialité. Dans ce cas, l’entreprise obtient une autorisation très large, en s’appuyant sur le paradigme du consentement éclairé, même si celui-ci est en pratique illusoire. Ces deux tactiques, acheter ou demander, aboutissent au même résultat : consolider le pouvoir des acteurs disposant des moyens financiers et techniques de mettre en œuvre ces stratégies, au détriment des individus et de la concurrence.

III. Les conséquences de l’effondrement doctrinal

Cette partie analyse les effets politiques et institutionnels de l’effondrement doctrinal.

Le premier effet est une concentration accrue du pouvoir économique. Seules les entreprises riches peuvent acheter des bases de données ou déployer des infrastructures juridiques et techniques pour exploiter le consentement des utilisateurs. Les start-up ou les chercheurs indépendants se retrouvent désavantagés, ce qui freine l’innovation et renforce la domination des géants technologiques.

Le deuxième effet est un coût de gouvernance pour l’État de droit. Lorsque la loi perd sa lisibilité, il devient impossible de savoir quelle règle s’applique. Les tribunaux ne peuvent plus identifier clairement quel régime juridique régit une situation donnée. La conséquence est une perte de prévisibilité et de cohérence. Or, la prévisibilité est une valeur fondamentale du droit, car elle garantit que les citoyens et les entreprises peuvent organiser leurs comportements en fonction de règles stables.

Le troisième effet est un déficit de légitimité. Si les décisions juridiques apparaissent comme le résultat d’un opportunisme des acteurs puissants plutôt que de l’application de principes cohérents, la confiance dans le système diminue. L’auteure met en garde contre une dérive où le droit ne serait plus qu’un instrument manipulable par les plus forts, ce qui minerait sa fonction de régulation et de protection.

IV. Faire face à l’effondrement

L’auteure ne propose pas de résoudre l’effondrement en restaurant artificiellement des frontières étanches entre les régimes. Elle considère plutôt qu’il faut reconnaître la dynamique du collapse et apprendre à la gérer. Elle emprunte deux pistes théoriques : le droit international privé et le pluralisme juridique.

Du droit international privé, elle retient l’idée que lorsque plusieurs régimes s’appliquent à un même objet, il faut élaborer des règles de conflit qui organisent la hiérarchie ou la coordination entre eux. De la même manière, il conviendrait de développer des principes permettant de décider, dans le cas des données utilisées par l’IA, si la logique de la vie privée ou celle du droit d’auteur doit prévaloir, selon des critères prévisibles et stables.

Du pluralisme juridique, elle retient l’idée qu’il peut exister plusieurs systèmes normatifs qui coexistent, sans qu’il soit nécessaire de les réduire à une unité artificielle. L’enjeu est alors de préserver la lisibilité et la cohérence globale, tout en permettant une certaine flexibilité. L’effort doit porter sur la capacité des institutions à reconnaître la pluralité des logiques et à arbitrer sans se laisser enfermer dans les contradictions exploitées par les acteurs privés.

Ces pistes supposent une intervention législative ou réglementaire consciente de la spécificité du problème. Il ne s’agit pas seulement de combler des lacunes ou de renforcer les sanctions, mais de créer un véritable droit de l’effondrement, c’est-à-dire un ensemble de mécanismes institutionnels pour gérer les chevauchements et éviter qu’ils ne deviennent des instruments de domination.

V. Conclusion

En conclusion, l’auteure souligne que le développement de l’intelligence artificielle révèle de manière aiguë les failles structurelles du droit tel qu’il a été construit dans les décennies passées. Le problème ne se réduit pas à une question de vitesse ou de retard. C’est une crise de cohérence doctrinale. Si elle n’est pas prise au sérieux, elle risque de transformer le droit en outil malléable aux mains des entreprises les plus puissantes, au détriment de l’intérêt public. Reconnaître et gérer l’effondrement doctrinal est donc indispensable pour préserver la capacité du droit à encadrer l’innovation technologique dans un cadre démocratique.

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et Intelligence Artificielle

Publié dans droit d'auteur, intelligence artificielle, Protection des données | Tagué , , , , , | Laisser un commentaire

Pollution de la recherche comportementale en ligne par les modèles de langage

Quelques réflexions tirées de R. Rilla et al., Recognising, Anticipating, and Mitigating LLM Pollution of Online Behavioural Research, arXiv :2508.01390v1 [cs.CY] 2 août 2025 (https://arxiv.org/abs/2508.01390):

Introduction

L’article analyse un phénomène émergent qui affecte la recherche comportementale en ligne : la « pollution par les modèles de langage » (LLM Pollution). Ce terme désigne les situations où des participants, censés répondre à des études destinées à évaluer la cognition et le comportement humains, recourent à des modèles d’intelligence artificielle pour traduire, reformuler, générer ou même déléguer entièrement leurs réponses. Dès lors, les données produites ne sont plus exclusivement humaines, ce qui remet en cause la validité scientifique de ces travaux.

Le problème est d’autant plus aigu que les grandes plateformes de recrutement de participants, comme Prolific ou MTurk, fondent leur attrait sur la promesse de réponses authentiquement humaines, contrôlées et vérifiées. Or, des observations récentes montrent qu’une part importante des contributions est en réalité partiellement ou totalement produite par des systèmes automatisés. Les auteurs notent que, dans certains cas, jusqu’à 45 % des réponses collectées dans des expériences pilotes présentaient des indices évidents d’intervention d’un modèle de langage. Ces indices allaient de formulations atypiques et excessivement fluides à des réponses trahissant l’absence d’expérience humaine.

Cette intrusion des modèles de langage dans la recherche n’est pas seulement une extension des anciennes menaces posées par les robots ou les participants frauduleux. Elle est plus difficile à détecter, plus sophistiquée, et produit des effets insidieux sur l’intégrité des échantillons, la qualité des données et les conclusions tirées.

Trois variantes de la pollution par LLM

Les auteurs distinguent trois formes principales, qui interagissent entre elles.

La première est la médiation partielle. Ici, le participant continue à remplir le questionnaire ou la tâche lui-même, mais s’appuie ponctuellement sur un modèle pour traduire, reformuler ou optimiser ses réponses. Les productions finales semblent humaines, mais sont en réalité façonnées par la machine. Cette médiation peut réduire la variabilité naturelle des réponses, introduire des biais culturels propres aux données d’entraînement des modèles et donner l’illusion d’une plus grande homogénéité. Elle fausse ainsi la distribution statistique des réponses et nuit à l’interprétation de phénomènes psychologiques censés refléter la diversité humaine.

La deuxième est la délégation totale. Le participant confie l’ensemble de la tâche à un agent basé sur un modèle de langage, capable de lire les instructions, naviguer sur les pages, cliquer sur les boutons, remplir les champs et produire les réponses. Ces agents, comme certains systèmes propriétaires ou solutions open source, fonctionnent avec peu ou pas de supervision humaine. Ils peuvent même adopter des stratégies de dissimulation, imitant des styles d’écriture différents, ce qui rend leur détection encore plus difficile. La délégation totale rompt le lien essentiel entre le protocole et la cognition humaine : les chercheurs analysent alors des comportements purement artificiels, mais sans le savoir.

La troisième est le débordement comportemental, ou spillover. Même en l’absence d’utilisation directe de modèles, les participants peuvent modifier leur comportement parce qu’ils soupçonnent leur présence. Ainsi, ils peuvent introduire volontairement des fautes de frappe pour se démarquer d’une écriture trop parfaite, ou au contraire réduire leurs efforts en estimant que d’autres trichent avec l’aide de machines. Certains peuvent hésiter à donner des réponses sincères, par crainte d’être observés par un système automatisé. Cette anticipation crée des effets secondaires qui biaisent également les résultats, même sans intervention technique d’un modèle de langage.

Les menaces pour la validité scientifique

Les trois variantes décrites créent des menaces multiples. La médiation partielle brouille la frontière entre humain et machine, tout en introduisant des biais systématiques. La délégation totale supprime toute base humaine à la recherche. Le débordement comportemental engendre des distorsions sociales et psychologiques, impossibles à corriger a posteriori.

Ces phénomènes compromettent à la fois la validité interne des expériences (la capacité à isoler des effets causaux précis) et leur validité externe (la possibilité de généraliser les résultats). Plus largement, ils posent un risque épistémologique : la recherche comportementale en ligne pourrait perdre son objet, c’est-à-dire la compréhension des mécanismes humains, au profit d’un mélange non identifié d’humain et de machine.

Étude de cas et premières mesures de détection

Un cas pratique présenté par les auteurs illustre l’ampleur du problème. Dans une étude pilote, 45 % des participants avaient copié ou collé du texte, suggérant un recours massif aux modèles. Même après l’introduction de protections comme des tests de type reCAPTCHA, des questions pièges invisibles, ou la désactivation du copier-coller, des réponses générées par des modèles continuaient d’apparaître, parfois de manière indétectable par les mécanismes mis en place. L’expérience montre que les mesures existantes ne suffisent pas et que l’arsenal technique doit être diversifié et renforcé.

Stratégies de mitigation : une approche à plusieurs niveaux

Les auteurs soulignent que la lutte contre cette pollution s’apparente déjà à une course aux armements : à chaque nouvelle méthode de détection, correspondent des stratégies d’évitement plus sophistiquées. L’objectif réaliste n’est pas d’éliminer complètement les réponses générées, mais d’en réduire la faisabilité et d’augmenter le coût pour les utilisateurs tentés d’y recourir.

Les mesures envisagées se répartissent sur plusieurs niveaux. Au niveau des chercheurs, il est recommandé de concevoir des protocoles qui rendent le recours aux modèles moins aisé. Cela peut passer par la présentation multimodale des instructions (par exemple en vidéo ou en images), par des restrictions techniques sur l’interface de réponse (blocage du copier-coller, enregistrement vocal), ou par l’introduction de tests spécifiques exploitant les faiblesses connues des modèles, tels que des illusions visuelles ou des scénarios nécessitant une véritable théorie de l’esprit. Ces dispositifs visent à compliquer l’automatisation.

D’autres stratégies relèvent de la détection a posteriori. Il s’agit d’intégrer des questions pièges invisibles, de surveiller les comportements de frappe, de mouvements de souris ou de changements d’onglets, ou encore d’utiliser des détecteurs commerciaux de texte généré. Toutefois, chacun de ces outils présente des limites, que ce soit en termes de précision, de transparence ou de contournement possible par des systèmes de plus en plus performants.

La gestion du débordement comportemental est plus délicate, car elle implique la psychologie des participants. Rappeler explicitement qu’il est interdit d’utiliser des modèles peut décourager certains, mais renforcer la suspicion chez d’autres. Trop insister sur la présence de contrôles peut paradoxalement accentuer les comportements de signalement ou de dissimulation. Pour réduire ces effets pervers, il est nécessaire d’établir des normes partagées de participation équitable et d’authenticité, en réaffirmant la valeur de la contribution humaine.

Enfin, des actions doivent être portées au niveau des plateformes elles-mêmes, qui doivent assumer une responsabilité accrue dans l’intégrité des données. Cela inclut la clarification des conditions d’utilisation, la mise en place de mécanismes de signalement et de remboursement, et le déploiement de protections techniques standardisées. À une échelle plus large, la communauté scientifique doit élaborer des standards communs, partager les meilleures pratiques et, lorsque nécessaire, réinvestir dans des environnements physiques ou supervisés, là où la fiabilité des données est cruciale.

Perspectives et conclusion

Les auteurs insistent sur le fait que la pollution par les modèles n’est pas toujours le fruit d’une intention malveillante. Souvent, les participants cherchent simplement à améliorer leur compréhension des instructions, à gagner du temps ou à s’exprimer plus clairement. Mais même ces usages apparemment bénins introduisent des distorsions invisibles qui affectent la recherche.

La question de savoir ce qui constitue une « pollution » se complexifie : à mesure que l’usage des modèles s’intègre dans la vie quotidienne, il deviendra difficile de considérer ces comportements comme des anomalies. La recherche devra peut-être adapter ses cadres théoriques à un monde où cognition humaine et outils intelligents s’entremêlent en permanence.

À court terme, la priorité reste la préservation de la validité des méthodes actuelles, par des mesures de prévention et de détection adaptées. À long terme, il faudra redéfinir ce que signifie étudier le comportement humain dans un contexte où ce comportement est lui-même façonné par des intelligences artificielles.

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et Intelligence Artificielle

Publié dans intelligence artificielle | Tagué , , , , | Laisser un commentaire

La cave du Conseil fédéral

Les jours ont été difficiles ces temps pour le Conseil fédéral.

Les droits de douane, les drones qui ne volent pas, les avions qui vont coûter un saladier, les contrats d’armement qu’on a pas lus ou compris de travers…

Alors certes une membre éminente de cet auguste aéropage nous a quand même déclaré sa joie que les droits de douane US n’aient pas terni la grande fête du cinéma à Locarno, pendant que, pas très loin, un autre, censé s’occuper des affaires étrangères, finissait ses vacances.

Mais quand même, quelle cagade !

Comme le disait le Conseiller fédéral Parmelin, dans une des fulgurances dont il a le secret, la question, pendant ces temps difficiles, était en fait de comprendre « où la chatte a mal au pied » (voir ses interventions dans la conférence de presse du 7 août 2025 (https://www.rts.ch/info/suisse/2025/minute-par-minute/28962016.html, sous 17 heures 35).

A la lecture d’un arrêt du Tribunal administratif fédéral (A-313/2025 du 7 août 2025) on aura une petite idée de pourquoi minette boite bas à voir le temps, l’énergie et les moyens dépensés par la Chancellerie pour une simple affaire de bouteilles.

Le 4 octobre 2023, un journaliste de la Radio Télévision Suisse (RTS) adresse donc à la Chancellerie fédérale une demande formelle fondée sur la LTrans. Dans son courrier, il sollicite la remise de quatre catégories de documents : premièrement, la liste complète des vins figurant dans la cave à vin du Conseil fédéral ; deuxièmement, le budget de cette cave pour chacune des cinq dernières années ; troisièmement, les directives internes relatives à son utilisation ; quatrièmement, les critères appliqués pour sélectionner les bouteilles.

Dix jours plus tard, la Chancellerie fédérale répond par un refus pur et simple. Dans sa lettre du 13 octobre 2023, elle ne cherche pas à invoquer un motif d’exception lié à la protection d’intérêts publics ou privés (comme le permettrait l’art. 7 LTrans), mais affirme que la demande est tout simplement hors champ : selon elle, la cave à vin relève de la « sphère du Conseil fédéral », c’est-à-dire de l’activité gouvernementale du collège, et non de l’administration fédérale soumise à la transparence.

Le journaliste ne s’en satisfait pas et, le 24 octobre 2023, dépose une demande de réexamen. Il y fait valoir que la cave à vin est entretenue et gérée par des services administratifs ; que son financement provient de fonds publics ; et que la transparence sur son contenu et son coût est légitime. La Chancellerie maintient sa position dans une nouvelle réponse datée du 27 octobre 2023 : les documents demandés concernent, selon elle, des aspects logistiques et représentatifs liés au fonctionnement du Conseil fédéral en tant qu’organe gouvernemental, ce qui justifie l’exclusion.

Conformément à la procédure prévue par la LTrans, le journaliste saisit alors le Préposé fédéral à la protection des données et à la transparence (PFPDT) d’une demande de médiation. Cette instance indépendante cherche à rapprocher les positions, mais les échanges n’aboutissent pas. Dans sa recommandation du 8 novembre 2024, le PFPDT prend clairement parti : il estime que les documents en cause sont bien des documents officiels au sens de la loi et que l’accès doit être accordé, sous réserve de caviarder les données personnelles (noms, coordonnées des fonctionnaires). Il souligne que la gestion de la cave à vin est une activité administrative courante, qu’elle soit assurée directement par la Chancellerie ou par un office fédéral.

La Chancellerie fédérale décide de ne pas suivre cette recommandation. Par décision formelle du 29 novembre 2024, elle confirme son refus, en reprenant ses arguments initiaux.

En janvier 2025, le journaliste saisit le Tribunal administratif fédéral (TAF). Son recours vise à faire constater que les documents sollicités sont des documents officiels soumis à la LTrans, et à obtenir leur communication.

Le TAF rappelle d’abord qu’il est compétent pour connaître de tels recours, que la procédure a été respectée et que la cause est recevable.

Le cœur du litige porte sur l’art. 2 LTrans. Son alinéa 1, lettre a, exclut du champ de la loi « les activités du Conseil fédéral en tant qu’autorité gouvernementale ». Cette exclusion vise les actes de direction politique et les délibérations collégiales, et non les tâches purement administratives.

Le Tribunal commence par souligner que la Chancellerie fédérale a une double nature : elle est à la fois l’état-major du Conseil fédéral (assistance, planification, coordination) et une unité administrative centrale (gestion de ressources, exécution de tâches techniques). Dans le premier rôle, elle agit en dehors de la LTrans ; dans le second, elle est soumise aux obligations de transparence.

Le Tribunal passe ensuite en revue chaque catégorie de documents. Pour ce qui concerne les conditions de commande des vins, il s’agit clairement d’un acte administratif. Il ne porte en effet pas sur une délibération politique, mais sur des modalités techniques d’approvisionnement. La participation de l’OFAG, qui est sans conteste soumis à la LTrans, renforce cette conclusion.

Pour ce qui est de  la liste des vins de la cave, elle est certes tenue par la Chancellerie, mais les achats et budgets sont gérés par l’OFAG. La constitution de cette liste relève donc d’une activité de gestion courante et non d’une mission gouvernementale.

Pour ce qui est des communications relatives aux usages, à la sélection et à la commande des vins, il s’agit là aussi d’actes administratifs ne concernant pas la prise de décision politique.

Pour ce qui est des relevés des budgets annuels de la cave, là encore il s’agit de documents comptables administratifs, que rien  ne permet de qualifier d’actes liés au « fonctionnement collégial » du Conseil fédéral.

Ayant établi que les documents entrent dans le champ d’application de la loi, le Tribunal vérifie ensuite si l’administration pouvait refuser l’accès sur la base des exceptions prévues aux art. 7 et 8 LTrans. Or la Chancellerie n’a invoqué aucun de ces motifs : ni protection d’intérêts publics prépondérants (sécurité, relations extérieures, politique monétaire), ni protection de données personnelles sensibles au sens strict. Rien ne s’oppose donc à la communication.

Le seul point restant est celui des données personnelles. Pour les noms et coordonnées des producteurs de vin figurant dans la liste, le PFPDT avait déjà estimé que ces informations ne sont pas sensibles et que l’intérêt public à leur divulgation est supérieur à l’intérêt privé à la confidentialité. Le TAF partage cette analyse et décide, exceptionnellement, de renoncer à la consultation préalable des producteurs : celle-ci serait disproportionnée au regard de la nature des données.

Pour les employés fédéraux, le recourant a accepté que leurs noms, fonctions, numéros de téléphone et adresses e-mail soient biffés. Le Tribunal ordonne donc ce caviardage, ce qui permet de protéger la sphère privée tout en assurant la transparence sur le reste du contenu.

Le Tribunal admet le recours, annule la décision de la Chancellerie et ordonne la remise des documents.

On tremble à l’idée que la Berne fédérale aurait pu mettre autant de temps, d’énergie et de combativité à la préparation de négociations internationales, à la tenue de séances de crise ou à la préparation de solutions alternatives dans un contexte de crise diplomatique et tarifaire.

Au moins, maintenant, on saura ce qu’ils vont boire pour oublier ce terrible été.

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et Intelligence Artificielle

Publié dans transparence | Tagué , , , , | Laisser un commentaire

Gratification soumise à des objectifs non définis par l’employeur

La gratification, aux termes de l’art. 322d al. 1 CO, est une rétribution spéciale que l’employeur accorde en sus du salaire à certaines occasions telles que Noël ou la fin de l’exercice annuel. Elle peut consister dans une somme d’argent ou dans des prestations en nature, mais aussi dans la remise de titres, d’options, etc.

La gratification se distingue d’abord du salaire en ceci que son versement dépend au moins partiellement du bon vouloir de l’employeur, de son bon plaisir. Il en résulte notamment que la gratification doit conserver un caractère accessoire par rapport au salaire. Elle ne peut avoir qu’une importance secondaire dans la rétribution du travailleur, qui sinon serait soumis à l’arbitraire ou au caprice de l’employeur alors qu’il a besoin de sa rémunération pour vivre.

Le fait que la gratification dépende en tout cas partiellement du bon plaisir de l’employeur n’empêche pas que certaines conditions puissent être mises à son versement, dont la fixation d’objectifs à l’employé par exemple.

Dans un cas d’espèce (TF 4A_378/2017 du 27 novembre 2017, consid. 3.3-3.4), le Tribunal avait relevé que l’autorité cantonale avait correctement qualifié la rémunération de gratification eu égard à son caractère accessoire et au fait que la rétribution dépendait au moins dans une certaine mesure du bon vouloir de l’employeur, nonobstant les objectifs qui devaient être fixés par celui-ci à l’employé. La difficulté résidait bien plutôt dans le fait que l’employeur avait renoncé à fixer des objectifs annuels concrets, ce que l’employé interprétait comme une renonciation (tacite) par l’employeur de la condition fixée au versement de la gratification.

Pour le Tribunal fédéral, cette renonciation devait bien plutôt s’interpréter à la lumière de l’art. 156 CO.

En effet, lorsqu’une condition est convenue et que son accomplissement dépend, dans une certaine mesure, de la volonté d’une des parties auxquelles le contrat impose des obligations, cette partie n’a en principe pas une liberté entière de refuser cet accomplissement et de se dégager ainsi de ses obligations contractuelles. Elle doit au contraire agir de manière loyale et conforme aux règles de la bonne foi ; en cas de violation de ces exigences, la condition est censée être accomplie selon l’art. 156 CO.

Toutefois, dans le cas d’espèce, le fait que l’employeur se soit abstenu de fixer à l’employé chaque année des objectifs particuliers alors que le versement de la gratification était conditionné à de tels objectifs ne signifiait pas encore qu’il aurait renoncé par actes concluants à subordonner le paiement à toute condition, y compris celle, élémentaire, de la bonne et fidèle exécution des tâches correspondant au cahier des charges de l’employé.  Or il découle des constatations de fait que l’employé n’avait pas donné pleine et entière satisfaction dans l’accomplissement de ses tâches contractuelles.

Le paiement de la gratification n’était donc pas dû, quand bien même l’employeur n’aurait pas assigné d’objectifs annuels particuliers comme le requérait le contrat.

Me Philippe Ehrenström, avocat, LLM

Publié dans Salaire | Tagué , , , , , , | Laisser un commentaire

Taxinomie des difficultés rencontrées par les Multi-Agent LLM Systems (MAS)

Quelques réflexions tirées de M. CEMRI et al., Why Do Multi-Agent LLM Systems Fail ?  (arXiv :2503.13657v2 [cs.AI] 22 avril 2025 – https://arxiv.org/pdf/2503.13657):

Le sujet de l’étude peut être délimité comme suit : malgré un engouement marqué pour les systèmes multi-agents reposant sur des modèles de langage de grande taille (« Large Language Models », ou LLM), les gains de performance mesurés restent souvent modestes par rapport à des systèmes plus simples, parfois même inférieurs à des approches mono-agent bien conçues.

Les « Multi-Agent LLM Systems » (MAS) sont pourtant conçus pour répondre à des tâches complexes en multipliant les compétences et points de vue : chaque agent peut se voir assigner un rôle spécifique, dialoguer avec ses pairs, utiliser des outils ou interagir avec des environnements numériques. Les bénéfices attendus sont connus : meilleure décomposition des tâches, parallélisation des traitements, isolement des contextes, spécialisation des raisonnements, voire débat entre agents pour converger vers la bonne solution. Dans les domaines de l’ingénierie logicielle, de la recherche scientifique, de la simulation, de la découverte de médicaments ou de l’assistance généraliste, ces promesses ont suscité un intérêt rapide, tant académique qu’industriel.

Pourtant, lorsque l’on mesure les résultats de ces systèmes sur des jeux d’essai pertinents, le constat est sévère : les gains ne sont pas au rendez-vous, et les taux d’échec sont élevés. Les auteurs citent par exemple le framework ChatDev, qui n’atteint que 33 % de réussite sur un benchmark de développement logiciel pourtant composé de tâches simples pour un ingénieur humain (création d’un jeu de type Wordle, implémentation d’un Sudoku, etc.). Ces difficultés ne sont pas marginales : elles touchent l’ensemble des architectures testées, qu’elles soient hiérarchiques, en étoile ou en ligne d’assemblage, et se retrouvent même lorsque le modèle de base est un LLM de pointe.

De là découle la question centrale : pourquoi ces MAS semblent-ils échouer ? Les auteurs choisissent de répondre non pas en invoquant uniquement les limites connues des modèles (hallucinations, mauvaise interprétation d’instructions), mais en examinant méthodiquement les échecs réels pour en dégager des schémas récurrents. Leur objectif est double : d’une part fournir un cadre conceptuel commun pour décrire et comprendre ces échecs, d’autre part orienter la conception vers des systèmes plus robustes. Ce cadre, ils le baptisent « Multi-Agent System Failure Taxonomy » (MAST).

La méthodologie adoptée se fonde sur la « Grounded Theory » : au lieu de partir d’hypothèses préexistantes, on laisse émerger les catégories d’échec directement des données observées. Les auteurs collectent plus de 200 traces d’exécution issues de sept systèmes multi-agents open source. Chaque trace correspond à une conversation complète entre agents et/ou avec l’environnement, d’une longueur moyenne de 15 000 lignes. Les tâches sont choisies pour représenter les cas d’usage annoncés par chaque système.

Six annotateurs humains, tous expérimentés avec ce type de systèmes, examinent les traces et identifient les problèmes survenus. Le « codage ouvert » consiste à segmenter les dialogues, à attribuer des étiquettes descriptives aux incidents, puis à comparer ces étiquettes pour repérer les similitudes et différences. Ce travail est collaboratif et itératif : les annotateurs discutent des cas ambigus, affinent les définitions, fusionnent ou scindent des catégories selon les besoins. L’objectif est d’aboutir à une taxonomie suffisamment précise pour que deux personnes différentes classent un même échec de la même façon.

Pour valider cette clarté, trois séries d’études d’accord inter-annotateurs sont menées. Lors de la première, le coefficient de Cohen (k) n’atteint que 0,24 : les définitions sont encore trop floues. Après révisions, une deuxième série obtient 0,92, signe d’un accord quasi parfait. La troisième série, sur un nouvel échantillon, confirme la stabilité avec 0,84. À ce stade, MAST est considérée comme suffisamment robuste.

La taxonomie finale comprend quatorze modes d’échec précis, regroupés en trois grandes catégories.

La première catégorie, « Specification Issues », regroupe les défaillances issues de la phase de conception ou d’instructions initiales inadéquates. Cela inclut : le non-respect des exigences de la tâche (par exemple ignorer une contrainte implicite mais standard, le non-respect des rôles assignés à chaque agent, la répétition inutile d’étapes, la perte de l’historique de la conversation, ou l’incapacité à reconnaître que la tâche est achevée. Ces problèmes traduisent parfois des ambiguïtés de l’invite initiale, mais aussi des défauts structurels : incapacité de l’architecture à inférer correctement des détails pourtant raisonnablement déductibles.

La deuxième catégorie, « Inter-Agent Misalignment », regroupe les échecs de coordination entre agents : conversation réinitialisée inopinément, absence de demande de clarification lorsqu’une ambiguïté apparaît, dérive de la tâche vers un autre objectif, rétention d’informations cruciales, ignorance pure et simple des apports d’autres agents, ou encore discordance entre ce qu’un agent exprime comme raisonnement et ce qu’il exécute réellement. Les auteurs montrent que des symptômes similaires (par exemple information manquante) peuvent avoir des causes très différentes, d’où l’importance d’une catégorisation fine.

La troisième catégorie, « Task Verification », concerne les mécanismes de contrôle qualité en fin de processus : arrêt prématuré avant d’avoir produit une solution complète, absence ou insuffisance de vérification (par exemple se contenter de compiler un programme sans tester sa conformité fonctionnelle), ou validation erronée d’un résultat incorrect. L’exemple d’un programme d’échecs est parlant : il passe toutes les étapes de vérification mais accepte des coups illégaux, faute de contrôle approfondi.

Pour appliquer MAST à grande échelle, les auteurs développent un outil automatisé, un « LLM-as-a-judge ». Il s’agit d’un modèle de langage auquel on fournit la liste des modes d’échec avec leurs définitions et exemples, et qui classe les incidents d’une trace donnée. Avec un entraînement en contexte (exemples fournis), cet outil atteint 94 % de précision et un κ de 0,77 par rapport aux humains. Il permet ainsi d’annoter rapidement l’ensemble des 200 traces et de produire des statistiques : environ 42 % des échecs relèvent de la spécification, 37 % du désalignement, 21 % de la vérification. Cette répartition équilibrée indique que la taxonomie n’est pas biaisée vers un type particulier de problème.

Les auteurs testent aussi MAST sur deux systèmes et jeux de données totalement nouveaux :. Les scores d’accord restent élevés (0,79), preuve que les définitions sont généralisables.

Les auteurs insistent sur un enseignement central : beaucoup d’échecs sont imputables à la conception du système, non aux seules limites du LLM. Améliorer le modèle aide, mais ne remplace pas une architecture réfléchie : organisation des agents, gestion du contexte, protocoles de communication et vérification intégrée doivent être conçus avec autant de soin que le choix du modèle. L’analogie avec les organisations humaines à haute fiabilité est explicite : même des individus compétents échouent si la structure collective est mal conçue.

En conclusion, MAST fournit : un vocabulaire structuré pour décrire les échecs de MAS ; un outil d’évaluation automatisé ; et la preuve empirique que des interventions ciblées sur la conception peuvent améliorer les performances. Les auteurs voient dans ce cadre un point de départ pour la recherche : étendre l’analyse à d’autres dimensions (efficacité, coût, robustesse, sécurité), concevoir des stratégies de vérification multi-niveaux, et imaginer des architectures plus résilientes. À terme, ils espèrent que MAST contribuera à faire des MAS non seulement des démonstrateurs prometteurs, mais des systèmes fiables et utilisables dans des contextes réels exigeants.

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et Intelligence Artificielle

Publié dans intelligence artificielle | Tagué , , , , | Laisser un commentaire