
A propos de : Cope, Kevin L. and Frankenreiter, Jens and Hirst, Scott and Posner, Eric A. and Schwarcz, Daniel and Thorley, Dane, Grading Machines: Can AI Exam-Grading Replace Law Professors? (December 03, 2025). Virginia Public Law and Legal Theory Research Paper No. 2025-80, Virginia Law and Economics Research Paper No. 2025-24, Available at SSRN: https://ssrn.com/abstract=
Des modèles d’IA de type « large language models » peuvent-ils corriger des examens de droit à la place des professeurs, ou au moins à côté d’eux ? Les auteurs partent du constat que ces modèles sont déjà utilisés pour analyser des contrats, rédiger des mémoires ou résumer des décisions, mais qu’on ne sait presque rien de leur capacité à évaluer un raisonnement juridique écrit, comme dans les examens classiques de droit.
Ils rappellent d’abord que l’idée de correction automatique n’est pas nouvelle. Dès les années 1960, des systèmes d’« automated essay scoring » ont tenté de noter des dissertations en se basant sur des caractéristiques superficielles des textes. Ces systèmes ont suscité beaucoup de critiques, notamment parce qu’ils étaient incapables de juger la qualité de l’argumentation. L’arrivée des modèles de langage modernes change la donne : les transformers permettent désormais de traiter de longs textes, de repérer des relations entre les mots et, en pratique, de produire ou d’analyser des réponses juridiques assez sophistiquées. Parallèlement, ces modèles ont commencé à être testés sur des tâches juridiques variées et sur les examens de droit eux-mêmes, y compris le barreau américain. Jusqu’ici, toutefois, la recherche s’est concentrée sur la capacité de l’IA à « passer » l’examen comme un étudiant, pas à le corriger comme un professeur.
Les auteurs expliquent ensuite pourquoi la correction d’examens de droit est un cas de test particulièrement exigeant. Les questions sont des « cas pratiques » longs, à réponse rédigée, pour lesquels il n’existe pas une seule bonne réponse formatée. Les étudiants doivent repérer des problèmes, appliquer des règles, discuter de plusieurs solutions possibles. Cela rend impossible un barème purement algorithmique de type « clé de correction » et complique aussi la mesure de la qualité de la correction humaine. Ils soulignent d’ailleurs que la correction humaine est loin d’être parfaite : les notes sont des signaux bruités du « vrai » niveau de l’étudiant, affectés par la fatigue, l’humeur, les biais implicites ou de simples erreurs d’attention.
À partir de là, les auteurs formulent leur objectif de recherche. Il ne s’agit pas de construire un modèle d’IA sur-mesure pour minimiser l’erreur à tout prix, mais de voir si des modèles commerciaux, utilisés avec des instructions simples, peuvent produire des notes suffisamment proches de celles du professeur pour être utiles en pratique. Comme on ne connaît pas le « vrai » niveau des étudiants, ils prennent comme référence le professeur lui-même : dans la plupart des usages envisagés (vérifier une correction, fournir un retour à l’étudiant, créer des benchmarks), le but est que l’IA imite la manière dont le professeur corrige, non qu’elle invente un autre standard.
Pour tester cela, ils rassemblent un ensemble de données provenant de quatre examens finaux dans quatre grandes facultés de droit américaines, dans des matières de base (procédure civile, contrats, responsabilité civile) et en droit des sociétés. Chaque examen comporte plusieurs questions de cas pratiques, et chaque professeur avait établi un barème plus ou moins détaillé pour corriger. Les copies ont été anonymisées.
Sur cette base, les auteurs définissent quatre manières différentes de demander à l’IA de corriger. La première, dite « ouverte », consiste à lui fournir la question, la réponse de l’étudiant et le nombre maximum de points, en lui demandant simplement de proposer une note. L’IA s’appuie alors uniquement sur sa compréhension générale du droit et de la logique juridique. La deuxième méthode ajoute au prompt le barème du professeur : les éléments à traiter et la pondération de chacun. L’IA reste libre dans la façon de combiner ces informations, mais on l’oriente vers les critères réellement utilisés par le correcteur humain. La troisième méthode pousse plus loin cette logique : on exige que l’IA attribue une sous-note pour chaque élément du barème, qui est ensuite additionnée pour obtenir la note de la question, un peu comme le ferait un professeur dans un tableau Excel. Cette méthode est plus lourde à mettre en place, car elle nécessite d’adapter le prompt à la structure précise de chaque barème. Enfin, la quatrième méthode abandonne l’idée de noter directement sur une échelle de points : on montre à l’IA deux réponses d’étudiants à la même question et on lui demande laquelle est meilleure. À partir de la totalité de ces comparaisons par paires, les auteurs reconstruisent un classement et des notes relatives à l’aide d’un modèle statistique de type « compétition sportive ». Cette dernière approche est théoriquement intéressante, mais très coûteuse en calcul, puisque le nombre de comparaisons croît très vite avec le nombre d’étudiants.
Les résultats sont ensuite présentés de manière systématique. Même avec la méthode la plus simple, sans barème, l’IA produit des notes qui suivent assez bien celles des professeurs : la corrélation statistique est déjà élevée, ce qui signifie que l’IA distingue globalement les bonnes et les mauvaises copies. Quand on ajoute le barème du professeur au prompt, la concordance devient très forte : pour certains examens, la corrélation dépasse 0,9, ce qui, en termes simples, veut dire que l’ordre des étudiants et les écarts entre leurs notes sont très proches de ceux de la correction humaine. Les auteurs observent aussi que les désaccords portent surtout sur certains points isolés, mais qu’ils se compensent lorsqu’on regarde la note totale de l’examen.
Les méthodes plus sophistiquées ne font pas vraiment mieux. La variante qui force l’IA à donner des sous-notes par critère produit des résultats presque identiques à la méthode avec barème simple, mais au prix d’une mise en œuvre nettement plus lourde. Les comparaisons par paires aboutissent, elles aussi, à des notes globales très corrélées aux notes du professeur, mais la distribution des notes est un peu différente et l’effort informatique est considérable. Les auteurs en concluent que, pour un usage pratique par des enseignants, la méthode la plus intéressante est tout simplement celle qui combine IA et barème détaillé : elle est relativement simple à paramétrer et atteint déjà un niveau de concordance difficile à améliorer.
Un point important de leur raisonnement consiste à comparer ce niveau de concordance à la variabilité de la correction humaine elle-même. Pour l’un des examens, l’un des professeurs a accepté de « re-corriger » une question sans se référer à sa première notation. Les auteurs comparent alors trois choses : la première correction humaine, la deuxième correction humaine, et la correction par l’IA utilisant le barème. Ils constatent que les deux séries de notes du professeur sont très proches l’une de l’autre, comme on pouvait l’espérer, mais pas identiques. La correction de l’IA s’en écarte un peu plus, mais reste dans le même ordre de grandeur de divergence. Pour d’autres examens, la corrélation entre l’IA et la correction humaine est même comparable à celle observée entre deux séries de notes humaines. Cela suggère que les écarts IA–professeur ne sont pas fondamentalement différents des écarts qu’on peut déjà observer entre corrections humaines effectuées à des moments distincts.
Les auteurs examinent ensuite les facteurs qui semblent améliorer ou dégrader les performances de l’IA. L’un des plus visibles est le degré de précision du barème. L’examen dont le barème était le plus fin, avec une liste d’éléments binaires (présent / absent) pour chaque question, est aussi celui pour lequel la concordance IA–professeur est la plus élevée. À l’inverse, l’examen où le barème se limitait à des indications très générales aboutit aux résultats les moins bons, quoique toujours élevés. Cela conduit les auteurs à l’hypothèse – qui demanderait d’autres études – qu’un barème structuré et précis est une condition importante pour tirer pleinement parti de l’IA comme correcteur.
Dans la discussion, les auteurs abordent ensuite les limites et les enjeux éthiques. Même si l’IA imite très bien la correction des professeurs, elle peut commettre des erreurs « différentes », potentiellement perçues comme plus choquantes. On peut craindre, par exemple, que le modèle soit sensible à certains styles linguistiques ou structures de phrase corrélés à l’origine ou au profil socio-culturel des étudiants. Ils notent aussi que les étudiants, les employeurs et les institutions peuvent avoir moins confiance dans une note attribuée par une machine, même si elle est en pratique très proche de celle d’un humain. De plus, certaines règles internes de facultés ou d’accréditation exigent que ce soit le professeur qui attribue les notes, ce qui pose un obstacle juridique et politique à une automatisation complète.
Cependant, ils insistent sur le fait qu’il serait trompeur de comparer l’IA à un correcteur humain idéal. La correction humaine souffre de problèmes bien documentés : incohérences entre copies similaires, influence de la fatigue, effet de halo (une bonne impression générale entraîne une sur-évaluation de tous les aspects), et parfois biais liés au genre, à l’origine ou au niveau de langue présumé. Dans les copies où la divergence IA–professeur était la plus forte, les auteurs ont d’ailleurs identifié des cas où le professeur avait manifestement mal appliqué son propre barème, en accordant trop de points. Les machines ne sont pas nécessairement plus justes, mais elles ne se fatiguent pas, et il est au moins théoriquement possible de tester et d’ajuster leurs biais sur la base de données.
Partant de ce constat, les auteurs proposent une approche prudente. À court terme, ils ne préconisent pas de remplacer purement et simplement la correction humaine par l’IA. En revanche, ils voient plusieurs usages complémentaires. L’IA peut servir de « second lecteur » pour signaler les copies où sa note diverge fortement de celle du professeur, invitant ce dernier à vérifier s’il n’a pas commis une erreur ou s’il souhaite maintenir sa note pour des raisons qu’il peut expliciter. Elle peut aussi fournir aux étudiants des retours rapides sur des examens blancs ou des devoirs non notés, en particulier si le professeur partage son barème. Cela pourrait aider les écoles de droit américaines à satisfaire les nouvelles exigences de l’ABA en matière d’évaluations formatives, sans multiplier la charge de travail des enseignants.
Les auteurs évoquent enfin des prolongements possibles hors du cadre universitaire. Des cabinets pourraient développer des barèmes internes pour certains types de travaux (notes de recherche, projets de mémoires, projets de contrats) et utiliser l’IA pour offrir aux jeunes avocats un retour structuré, plus fréquent que celui que les associés peuvent matériellement fournir. De même, les techniques de correction automatique pourraient servir à évaluer de manière standardisée les performances des systèmes d’IA juridiques eux-mêmes, en utilisant l’IA corrigeant des réponses d’IA, dès lors que des rubriques claires sont établies.
En conclusion, l’article soutient que, dans l’état actuel de la technologie, un modèle de langage général moderne, utilisé avec un barème détaillé, est déjà capable de reproduire très largement la correction d’un professeur de droit. Les obstacles à une substitution complète sont surtout institutionnels, politiques et psychologiques. En revanche, pour des usages de contrôle de qualité, de retour formatif aux étudiants et de construction de benchmarks juridiques, l’IA correctrice apparaît d’ores et déjà comme un outil prometteur, dont la précision devrait encore augmenter avec l’évolution rapide des modèles.
Me Philippe Ehrenström, avocat, LLM, CAS en Droit et Intelligence Artificielle