Taxinomie des difficultés rencontrées par les Multi-Agent LLM Systems (MAS)

Quelques réflexions tirées de M. CEMRI et al., Why Do Multi-Agent LLM Systems Fail ?  (arXiv :2503.13657v2 [cs.AI] 22 avril 2025 – https://arxiv.org/pdf/2503.13657):

Le sujet de l’étude peut être délimité comme suit : malgré un engouement marqué pour les systèmes multi-agents reposant sur des modèles de langage de grande taille (« Large Language Models », ou LLM), les gains de performance mesurés restent souvent modestes par rapport à des systèmes plus simples, parfois même inférieurs à des approches mono-agent bien conçues.

Les « Multi-Agent LLM Systems » (MAS) sont pourtant conçus pour répondre à des tâches complexes en multipliant les compétences et points de vue : chaque agent peut se voir assigner un rôle spécifique, dialoguer avec ses pairs, utiliser des outils ou interagir avec des environnements numériques. Les bénéfices attendus sont connus : meilleure décomposition des tâches, parallélisation des traitements, isolement des contextes, spécialisation des raisonnements, voire débat entre agents pour converger vers la bonne solution. Dans les domaines de l’ingénierie logicielle, de la recherche scientifique, de la simulation, de la découverte de médicaments ou de l’assistance généraliste, ces promesses ont suscité un intérêt rapide, tant académique qu’industriel.

Pourtant, lorsque l’on mesure les résultats de ces systèmes sur des jeux d’essai pertinents, le constat est sévère : les gains ne sont pas au rendez-vous, et les taux d’échec sont élevés. Les auteurs citent par exemple le framework ChatDev, qui n’atteint que 33 % de réussite sur un benchmark de développement logiciel pourtant composé de tâches simples pour un ingénieur humain (création d’un jeu de type Wordle, implémentation d’un Sudoku, etc.). Ces difficultés ne sont pas marginales : elles touchent l’ensemble des architectures testées, qu’elles soient hiérarchiques, en étoile ou en ligne d’assemblage, et se retrouvent même lorsque le modèle de base est un LLM de pointe.

De là découle la question centrale : pourquoi ces MAS semblent-ils échouer ? Les auteurs choisissent de répondre non pas en invoquant uniquement les limites connues des modèles (hallucinations, mauvaise interprétation d’instructions), mais en examinant méthodiquement les échecs réels pour en dégager des schémas récurrents. Leur objectif est double : d’une part fournir un cadre conceptuel commun pour décrire et comprendre ces échecs, d’autre part orienter la conception vers des systèmes plus robustes. Ce cadre, ils le baptisent « Multi-Agent System Failure Taxonomy » (MAST).

La méthodologie adoptée se fonde sur la « Grounded Theory » : au lieu de partir d’hypothèses préexistantes, on laisse émerger les catégories d’échec directement des données observées. Les auteurs collectent plus de 200 traces d’exécution issues de sept systèmes multi-agents open source. Chaque trace correspond à une conversation complète entre agents et/ou avec l’environnement, d’une longueur moyenne de 15 000 lignes. Les tâches sont choisies pour représenter les cas d’usage annoncés par chaque système.

Six annotateurs humains, tous expérimentés avec ce type de systèmes, examinent les traces et identifient les problèmes survenus. Le « codage ouvert » consiste à segmenter les dialogues, à attribuer des étiquettes descriptives aux incidents, puis à comparer ces étiquettes pour repérer les similitudes et différences. Ce travail est collaboratif et itératif : les annotateurs discutent des cas ambigus, affinent les définitions, fusionnent ou scindent des catégories selon les besoins. L’objectif est d’aboutir à une taxonomie suffisamment précise pour que deux personnes différentes classent un même échec de la même façon.

Pour valider cette clarté, trois séries d’études d’accord inter-annotateurs sont menées. Lors de la première, le coefficient de Cohen (k) n’atteint que 0,24 : les définitions sont encore trop floues. Après révisions, une deuxième série obtient 0,92, signe d’un accord quasi parfait. La troisième série, sur un nouvel échantillon, confirme la stabilité avec 0,84. À ce stade, MAST est considérée comme suffisamment robuste.

La taxonomie finale comprend quatorze modes d’échec précis, regroupés en trois grandes catégories.

La première catégorie, « Specification Issues », regroupe les défaillances issues de la phase de conception ou d’instructions initiales inadéquates. Cela inclut : le non-respect des exigences de la tâche (par exemple ignorer une contrainte implicite mais standard, le non-respect des rôles assignés à chaque agent, la répétition inutile d’étapes, la perte de l’historique de la conversation, ou l’incapacité à reconnaître que la tâche est achevée. Ces problèmes traduisent parfois des ambiguïtés de l’invite initiale, mais aussi des défauts structurels : incapacité de l’architecture à inférer correctement des détails pourtant raisonnablement déductibles.

La deuxième catégorie, « Inter-Agent Misalignment », regroupe les échecs de coordination entre agents : conversation réinitialisée inopinément, absence de demande de clarification lorsqu’une ambiguïté apparaît, dérive de la tâche vers un autre objectif, rétention d’informations cruciales, ignorance pure et simple des apports d’autres agents, ou encore discordance entre ce qu’un agent exprime comme raisonnement et ce qu’il exécute réellement. Les auteurs montrent que des symptômes similaires (par exemple information manquante) peuvent avoir des causes très différentes, d’où l’importance d’une catégorisation fine.

La troisième catégorie, « Task Verification », concerne les mécanismes de contrôle qualité en fin de processus : arrêt prématuré avant d’avoir produit une solution complète, absence ou insuffisance de vérification (par exemple se contenter de compiler un programme sans tester sa conformité fonctionnelle), ou validation erronée d’un résultat incorrect. L’exemple d’un programme d’échecs est parlant : il passe toutes les étapes de vérification mais accepte des coups illégaux, faute de contrôle approfondi.

Pour appliquer MAST à grande échelle, les auteurs développent un outil automatisé, un « LLM-as-a-judge ». Il s’agit d’un modèle de langage auquel on fournit la liste des modes d’échec avec leurs définitions et exemples, et qui classe les incidents d’une trace donnée. Avec un entraînement en contexte (exemples fournis), cet outil atteint 94 % de précision et un κ de 0,77 par rapport aux humains. Il permet ainsi d’annoter rapidement l’ensemble des 200 traces et de produire des statistiques : environ 42 % des échecs relèvent de la spécification, 37 % du désalignement, 21 % de la vérification. Cette répartition équilibrée indique que la taxonomie n’est pas biaisée vers un type particulier de problème.

Les auteurs testent aussi MAST sur deux systèmes et jeux de données totalement nouveaux :. Les scores d’accord restent élevés (0,79), preuve que les définitions sont généralisables.

Les auteurs insistent sur un enseignement central : beaucoup d’échecs sont imputables à la conception du système, non aux seules limites du LLM. Améliorer le modèle aide, mais ne remplace pas une architecture réfléchie : organisation des agents, gestion du contexte, protocoles de communication et vérification intégrée doivent être conçus avec autant de soin que le choix du modèle. L’analogie avec les organisations humaines à haute fiabilité est explicite : même des individus compétents échouent si la structure collective est mal conçue.

En conclusion, MAST fournit : un vocabulaire structuré pour décrire les échecs de MAS ; un outil d’évaluation automatisé ; et la preuve empirique que des interventions ciblées sur la conception peuvent améliorer les performances. Les auteurs voient dans ce cadre un point de départ pour la recherche : étendre l’analyse à d’autres dimensions (efficacité, coût, robustesse, sécurité), concevoir des stratégies de vérification multi-niveaux, et imaginer des architectures plus résilientes. À terme, ils espèrent que MAST contribuera à faire des MAS non seulement des démonstrateurs prometteurs, mais des systèmes fiables et utilisables dans des contextes réels exigeants.

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et Intelligence Artificielle

Avatar de Inconnu

About Me Philippe Ehrenström

Ce blog présente certains thèmes juridiques en Suisse ainsi que des questions d'actualité. Il est rédigé par Me Philippe Ehrenström, avocat indépendant, LL.M., Yverdon-les-Bains
Cet article, publié dans intelligence artificielle, est tagué , , , , . Ajoutez ce permalien à vos favoris.

Laisser un commentaire