
L’article de S.KAPOOR/P.HENDERSON/A.NARAYANAN, Promises and Pitfalls of Artificial Intelligence for Legal Applications, arXiv :2402.01656v1 [cs.CY], janvier 2024 (https://arxiv.org/abs/2402.01656), aborde les usages actuels et les perspectives de l’intelligence artificielle dans le monde juridique, en soulignant que l’enthousiasme autour de l’IA risque souvent de dépasser ses capacités réelles. Le cœur de l’analyse repose sur trois catégories d’activités juridiques dans lesquelles l’IA est utilisée : le traitement de l’information, les tâches impliquant raisonnement ou jugement, et les prédictions sur l’avenir. Chaque domaine présente des niveaux de difficulté très variables en matière d’évaluation, ce qui conduit à des attentes souvent disproportionnées vis-à-vis de la technologie.
I. Le traitement de l’information : un domaine où l’IA progresse réellement
Les tâches telles que le résumé de décisions de justice, la recherche documentaire, ou encore la traduction automatique sont des exemples typiques de traitement d’information. Ces applications sont relativement faciles à évaluer, car elles comportent des réponses correctes définies et les données nécessaires sont observables et accessibles.
Les outils d’IA, notamment les modèles de langage comme GPT-4, représentent une amélioration incrémentale plutôt qu’une révolution. Ils permettent d’effectuer ces tâches avec davantage de flexibilité, notamment pour les usagers non juristes, mais n’éclipsent pas les outils existants spécialisés dans le traitement automatique du langage juridique. L’enjeu majeur ici est l’apparition de « hallucinations » : l’IA peut produire des réponses fausses, mais convaincantes. Cela limite leur fiabilité dans des contextes critiques, comme les demandes d’asile ou les décisions fondées sur une traduction.
II. Raisonnement, créativité et jugement : des promesses trompeuses
Beaucoup d’annonces récentes vantent les capacités de l’IA à passer des examens comme le barreau américain, insinuant qu’elle pourrait bientôt remplacer les avocats. L’article conteste cette extrapolation.
D’une part, la performance aux examens ne reflète pas les tâches quotidiennes des juristes. Ces tests mesurent surtout la capacité de mémorisation et la reconnaissance de modèles préexistants, deux domaines dans lesquels les IA excellent… mais cela ne prouve pas leur aptitude au raisonnement juridique contextuel. De plus, les résultats obtenus peuvent être biaisés par la « contamination des données » : il se peut que l’IA ait déjà vu ou appris les questions du test dans ses données d’entraînement.
Les modèles sont aussi extrêmement sensibles aux formulations des questions (« prompt sensitivity »), ce qui rend leur comportement instable en pratique. Par ailleurs, très peu d’études portent sur l’usage réel des IA par les professionnels du droit. Il manque donc des évaluations en conditions réelles pour comprendre leur utilité effective.
L’article recommande de développer des évaluations construites avec des juristes, y compris qualitatives, et de mieux documenter les interactions réelles avec ces outils.
III. Prédictions juridiques : une zone à haut risque
La dernière catégorie concerne l’utilisation de l’IA pour prédire les décisions judiciaires ou le comportement humain (ex. : risque de récidive). Ces applications ont suscité de nombreux travaux académiques, mais une analyse rigoureuse révèle que la majorité de ces études ne prédisent pas vraiment les décisions futures : elles identifient des résultats déjà inclus dans les données (par exemple, en analysant le texte d’un jugement qui contient déjà le verdict).
Les rares travaux qui évitent ces erreurs obtiennent des résultats beaucoup plus modestes. En réalité, prévoir une décision judiciaire requiert une compréhension du contexte, des stratégies procédurales et des interprétations jurisprudentielles — autant de facteurs que l’IA peine à intégrer.
Plus grave encore, l’usage de modèles prédictifs en justice pénale (comme COMPAS) a révélé des biais massifs, notamment contre les minorités. La précision globale de ces outils est souvent faible (environ 65 %) et parfois inférieure à des jugements humains non spécialisés. Le problème s’aggrave lorsque ces modèles sont déployés sur des populations différentes de celles utilisées pour l’entraînement, un phénomène appelé « distribution shift ».
Ces systèmes manquent souvent de transparence (les algorithmes sont protégés par des secrets industriels), de contrôlabilité (difficile de les contester juridiquement), et sont vendus comme outils d’aide, tout en étant utilisés de manière automatisée sans véritable supervision.
Recommandations finales
Les auteurs insistent sur la nécessité d’évaluations socio-techniques rigoureuses, ancrées dans les pratiques réelles. Il faut cesser d’extrapoler à partir de benchmarks mal construits et plutôt fonder les jugements sur l’observabilité des données, la clarté des objectifs et l’implication des professionnels du droit. Des applications d’IA peuvent être utiles si elles sont limitées à des contextes bien définis, comme la détection d’erreurs dans des formulaires juridiques, avec supervision humaine et possibilité de recours.
Conclusion
L’IA peut avoir des apports significatifs dans le domaine du droit, notamment pour les tâches techniques de traitement de l’information. En revanche, ses capacités pour remplacer le raisonnement humain, produire des jugements ou faire des prédictions fiables sont loin d’être prouvées, et comportent des risques importants si elles sont mal encadrées. Pour les praticiens suisses, cela signifie qu’il convient d’exploiter prudemment ces outils, en exigeant transparence, évaluation rigoureuse et contrôle humain à toutes les étapes.
L’article est certes… un peu ancien (début 2024 !), mais je ne suis pas certain que les améliorations théoriques des modèles disponibles et des applications proposées aient radicalement transformé ce message de prudence…
Me Philippe Ehrenström, avocat, LLM, CAS