L’IA comme agent procédural dans un procès modélisé

L’article de Sanket Badhe, LegalSim : Multi-Agent Simulation of Legal Systems for Dis covering Procedural Exploits (arXiv :2510.03405vl [cs.MA], 3 octobre 2025 ; https://arxiv.org/abs/2510.03405v1) présente LegalSim, un environnement de simulation destiné à étudier comment des systèmes d’IA, placés dans une procédure judiciaire adversariale, peuvent apprendre à exploiter les règles procédurales elles-mêmes.

L’objectif n’est pas la prédiction de décisions judiciaires ou l’assistance à la rédaction, mais l’observation de stratégies procédurales que des agents autonomes peuvent développer lorsqu’ils interagissent directement avec les mécanismes du procès. L’auteur part de l’idée que le droit procédural, très codifié, offre de nombreuses possibilités de séquençage stratégique : demandes de découvertes successives, motions multiples, pressions de calendrier, tentatives de faire monter les coûts pour inciter à une transaction. Ce sont des pratiques que les avocats connaissent, mais que des systèmes d’IA pourraient pousser plus loin, plus vite et à grande échelle.

LegalSim repose sur une modélisation simplifiée du procès civil.

Deux agents, demandeur et défendeur, évoluent dans un environnement où leurs actions sont soumises à des règles sous forme de fichiers JSON, c’est-à-dire un système de « règles comme du code ». L’environnement prend en compte des états tels que le budget de chaque partie, la charge procédurale accumulée, les risques de sanction, et les tendances d’un juge probabiliste (par exemple, plus ou moins sévère dans les sanctions) qui tranche certaines demandes. Les actions disponibles sont limitées mais représentatives des étapes principales d’un litige (requêtes en production de documents, motions diverses, offres de transaction, etc.). Le système inclut également la possibilité de « portes » procédurales, c’est-à-dire des conditions qui empêchent temporairement certains actes, comme le sursis automatique en cas de faillite.

L’enjeu n’est pas de déterminer « qui gagne l’affaire », mais d’évaluer des stratégies d’exploitation procédurale. Les agents reçoivent donc des récompenses selon plusieurs critères combinés : coût imposé à l’adversaire, pression liée au calendrier, pression transactionnelle même en cas de faibles chances au fond, et respect minimal des règles pour éviter les sanctions. Autrement dit, l’environnement encourage certains comportements connus des praticiens : faire durer, épuiser, pousser à régler plutôt qu’à juger. Il devient alors possible d’observer si des agents d’IA apprennent d’eux-mêmes des chaînes de manœuvres qui restent techniquement licites mais créent des déséquilibres importants.

L’étude compare quatre types de politiques de décision. La première est une stratégie heuristique élémentaire, construite manuellement comme point de référence. La seconde demande à un modèle de langage de proposer directement l’action suivante, sans apprentissage complexe. La troisième combine un système de sélection de tactiques générales (un « bandit contextuel ») avec un modèle de langage qui traduit ensuite la tactique en action spécifique. La dernière est un agent entraîné par renforcement (PPO), qui apprend par auto-jeu à maximiser son score. Les expériences sont répétées avec différents profils de juge et dans plusieurs régimes procéduraux.

Les résultats montrent une hiérarchie stable. L’agent entraîné par renforcement obtient en général les meilleurs résultats en termes de « victoire » procédurale globale. Le système hybride tactique + modèle de langage est le plus constant face à divers adversaires. Le modèle de langage utilisé seul est moins performant, et l’heuristique est la plus faible.

Cependant, ce qui importe surtout est l’émergence de « chaînes d’exploitation » procédurale. Le système révèle en effet, sans les programmer explicitement, des séquences réalistes : multiplication de requêtes de découverte pour augmenter les coûts adverses tout en restant dans les limites acceptables, exploitation maîtrisée du calendrier et des délais, utilisation de menaces de motions en sanctions comme levier, etc. Ce phénomène n’est pas entièrement surprenant, mais son aspect autonome et systématique montre comment des agents optimisateurs pourraient amplifier des pratiques déjà existantes.

L’auteur souligne que la question ici n’est pas seulement la précision ou l’équité des modèles, mais la possibilité que des agents efficaces mais non alignés exploitent les failles structurelles de la procédure elle-même. Ils recommandent donc de ne pas se limiter à tester les modèles, mais de « red-teamer » les règles de procédure, c’est-à-dire identifier et renforcer les zones susceptibles d’abus. Ils suggèrent par exemple l’introduction de mécanismes procéduraux attenuants, une modulation des sanctions selon l’intensité cumulative des actes, ou l’ajout de petites doses d’aléa pour empêcher la construction de chaînes d’exploitation trop prévisibles. Ils insistent aussi sur la nécessité de cadres de gouvernance procédurale qui anticipent l’usage d’agents autonomes, plutôt que de réagir une fois les abus observés dans la pratique.

Enfin, l’article reconnaît les limites de l’approche. La modélisation reste simplifiée, la réduction de la procédure à des actions tokenisées ne capture pas la complexité des faits et du raisonnement juridique, et les résultats ne peuvent être directement transposés à des juridictions réelles.

L’intérêt se situe dans la mise en évidence d’un risque structurel : si l’on confie à des IA des capacités procédurales autonomes, même en respectant formellement les règles, elles peuvent rapidement apprendre à en exploiter les interstices.

Pour un lecteur suisse, l’enjeu réside moins dans le droit américain en particulier que dans la question transversale : dans tout système procédural codifié, l’apprentissage automatique peut transformer des marges déjà connues en stratégies répétitives et industrialisées. L’étude invite donc les juristes à considérer non seulement l’IA comme aide à la décision, mais aussi comme acteur capable de modifier les équilibres procéduraux si son autonomie est mal encadrée.

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et Intelligence Artificielle

Avatar de Inconnu

About Me Philippe Ehrenström

Ce blog présente certains thèmes juridiques en Suisse ainsi que des questions d'actualité. Il est rédigé par Me Philippe Ehrenström, avocat indépendant, LL.M., Yverdon-les-Bains
Cet article, publié dans Avocats (règles professionnelles), intelligence artificielle, Procédure, Techno-labrador, est tagué , , , . Ajoutez ce permalien à vos favoris.

Laisser un commentaire