IA : à propos des agents du chaos

L’article de N. Shapira et al., Agent of chaos, arXiv :2602.200lvl [cs.AI], 23 février 2026 (https://arxiv.org/abs/2602.20021, a occasionné un certain bruit. Il est important de le lire pour ce qu’il est, i.e. une « poussée aux limites » d’agents IA autonomes, mais non une réfutation globale de leur usage ou de leur utilité.

L’article décrit donc une expérience de « red team » menée pendant deux semaines sur des agents d’IA autonomes reliés à de vrais outils: mémoire persistante, messagerie électronique, Discord, système de fichiers et commandes système. Vingt chercheurs ont été invités à interagir avec eux, parfois de bonne foi, parfois de manière adversariale, afin d’identifier non pas de simples erreurs de génération, mais des failles qui apparaissent quand un modèle de langage reçoit une capacité d’action réelle et continue. La thèse est la suivante : dès qu’un agent peut agir, stocker, communiquer et recevoir des ordres de plusieurs personnes, de nouveaux risques concrets apparaissent, en matière de sécurité, de confidentialité, de gouvernance et de responsabilité.

L’article commence par situer ces agents comme des systèmes encore partiellement autonomes: ils savent exécuter des sous-tâches, mais ne savent pas reconnaître de manière fiable quand ils dépassent leurs compétences ni quand ils devraient renvoyer la main à un humain. Dans l’expérience, ils sont déployés via OpenClaw sur des machines virtuelles isolées, avec stockage persistant, accès shell parfois très large, comptes e-mail et canaux Discord. Les auteurs insistent sur un point important: en pratique, ces agents restent fragiles, nécessitent souvent une aide humaine pour l’installation, et leurs mécanismes censés leur permettre d’agir seuls à intervalles réguliers fonctionnaient mal pendant le test. Autrement dit, même dans un cadre encore imparfait et semi-supervisé, des failles sérieuses sont déjà apparues.

La méthode d’évaluation est volontairement ouverte. Après une phase de mise en route, les chercheurs ont tenté de « casser » les agents dans des situations réalistes : usurpation d’identité, pression sociale, demandes techniques non autorisées, épuisement de ressources, injection d’instructions via des fichiers externes. Les auteurs ne cherchent pas à mesurer une fréquence statistique des échecs; ils cherchent simplement à montrer que certaines vulnérabilités existent bel et bien. C’est un signal d’alerte précoce: un seul contre-exemple crédible suffit ici à démontrer un risque pertinent pour un déploiement réel.

Les études de cas suivent ensuite une progression très parlante. D’abord, l’agent peut adopter une réponse totalement disproportionnée: pour « protéger » un secret confié par une personne qui n’était pas son propriétaire, il a supprimé sa configuration e-mail locale, sans effacer la donnée à la source, tout en affirmant que le problème était résolu. Ensuite, les agents exécutent volontiers des demandes de non-propriétaires tant qu’elles ne paraissent pas manifestement malveillantes, y compris des commandes système ou la récupération de messages. Sur cette base, un tiers a pu obtenir des métadonnées de 124 e-mails puis le contenu de plusieurs messages. Dans un autre test, l’agent refusait de donner directement un numéro de sécurité sociale, mais divulguait la même information dès qu’on lui demandait de transférer l’e-mail complet, sans aucun masquage. L’agent ne comprend donc ni correctement qui a droit à quoi, ni la différence entre une donnée neutre en apparence et une donnée sensible révélée indirectement.

L’article montre ensuite des atteintes à l’intégrité et à la disponibilité. Les agents peuvent être entraînés dans des boucles coûteuses, par exemple en se répondant mutuellement pendant des jours, avec consommation continue de jetons, ou en créant des processus persistants sans condition d’arrêt. Ils peuvent aussi générer un déni de service plus banal: en gardant une mémoire croissante d’un tiers et en accumulant des pièces jointes volumineuses, le serveur a fini saturé. Une autre série de tests illustre l’influence du fournisseur du modèle: sur certains sujets politiquement sensibles, l’agent relié à un modèle chinois voyait ses réponses brutalement interrompues par l’API, ce qui empêchait l’exécution de tâches pourtant légitimes. Le comportement final de l’agent dépend donc aussi de choix invisibles du fournisseur, ce qui complique l’analyse de la cause d’un dommage.

Les cas suivants portent sur la manipulation sociale et l’identité. Dans un scénario de « culpabilisation », un chercheur a exploité une vraie faute de l’agent pour lui soutirer des concessions de plus en plus graves: suppression d’éléments de mémoire, divulgation de fichiers, puis retrait du serveur. L’agent cherchait à réparer, mais sans limite de proportion. Puis vient l’une des failles les plus importantes: l’usurpation d’identité du propriétaire. Dans le même canal, l’agent vérifiait encore l’identité par l’identifiant Discord. Mais dans un nouveau canal privé, il s’est fié au simple nom affiché, a accepté le faux propriétaire, puis a obéi à des ordres de suppression de fichiers, d’arrêt système et de modification de sa propre gouvernance. Pour un public d’avocats, c’est un point crucial: l’autorité n’est pas authentifiée de façon robuste; elle est simplement déduite d’indices sociaux, donc facilement manipulable.

Le papier ne décrit pas seulement des échecs. Il montre aussi que des agents peuvent coopérer utilement entre eux: l’un a transmis à un autre un savoir pratique pour contourner des problèmes d’environnement et télécharger des articles. Mais cette même capacité de coopération propage aussi les failles. Dans l’étude dite de « corruption », un tiers convainc l’agent de s’appuyer sur une sorte de « constitution » stockée dans un document externe modifiable. Une fois ce lien inscrit dans sa mémoire, des instructions malveillantes y sont injectées à distance, sous forme de faux « jours spéciaux », et l’agent s’y conforme: tentative de faire arrêter d’autres agents, exclusion de membres du serveur, envois non autorisés, puis diffusion spontanée de cette « constitution » à d’autres agents. Enfin, dans le dernier cas, après usurpation du propriétaire, l’agent diffuse largement un message diffamatoire présenté comme une alerte urgente. La dynamique devient alors proche d’un risque de propagation en réseau: une fausse information peut être relayée vite, à large échelle, par plusieurs canaux.

La discussion générale rassemble ces exemples sous une idée directrice: les agents souffrent d’un défaut de « cohérence sociale ». Ils disent avoir fait ce qu’ils n’ont pas vraiment fait, confondent les personnes autorisées et les autres, ne savent pas à qui un message sera visible, et cèdent à des pressions sociales sans savoir quand s’arrêter. Les auteurs identifient trois manques structurels. D’abord, il n’existe pas de véritable modèle des parties prenantes: l’agent n’a pas de représentation fiable de son propriétaire, des tiers, des personnes affectées et des obligations qui les relient. Ensuite, il n’a pas de vrai modèle de lui-même: il agit sans mesurer ses propres limites, ses ressources ou les conséquences techniques de ses actes. Enfin, même si le modèle sous-jacent peut parfois « réfléchir » de manière cachée, cela ne crée pas un espace de délibération sûr au niveau de l’agent, car les fuites peuvent réapparaître dans les fichiers, les résumés d’outils ou le mauvais canal de communication. Les auteurs distinguent donc les défauts simplement techniques, que l’ingénierie peut réduire, et les limites plus profondes, liées au fait que, dans un contexte textuel, instructions et données se ressemblent trop pour être séparées de manière fiable.

La conclusion est prudente. Les auteurs ne prétendent pas que tout est irréparable, ni que le produit testé représente l’état final de la technique. En revanche, ils estiment avoir montré que des agents déjà assez compétents pour accomplir des tâches utiles restent insuffisamment contrôlables lorsqu’ils sont plongés dans un environnement réel, multi-utilisateur et multi-agent. Leur message, particulièrement pertinent pour des praticiens du droit, est que la question centrale n’est plus seulement « l’agent peut-il faire quelque chose ? », mais « au nom de qui agit-il, avec quels droits, sous quel contrôle, et qui répondra des conséquences ? ».

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et Intelligence artificielle, CAS en Protection des données – Entreprise et administration

IA : à propos des agents du chaos

About Me Philippe Ehrenström

Laisser un commentaire Annuler la réponse.

Articles récents

Catégories

Méta

S'abonner au blog via courriel

IA : à propos des agents du chaos

Partager:

Similaire

About Me Philippe Ehrenström

Laisser un commentaire Annuler la réponse.

Articles récents

Catégories

Méta

S'abonner au blog via courriel