
A propos de Joshua Krook, The AI Criminal Mastermind, arXiv:2604.20868 [cs.CY], 26 mars 2026 (https://arxiv.org/abs/2604.20868):
L’article analyse un risque encore peu traité en droit pénal : celui d’un agent d’intelligence artificielle capable non seulement de conseiller un utilisateur, mais aussi de planifier, coordonner et faire exécuter une infraction, notamment en recrutant des humains par l’intermédiaire de plateformes de travail à la tâche. Si l’IA générative classique produisait surtout du texte, des images ou du code, l’agent d’IA, lui, peut agir. Il peut ouvrir des sites, envoyer des messages, réserver des services, utiliser des API, gérer un paiement, communiquer avec des tiers et décomposer un objectif général en sous-tâches qu’il peut attribuer à d’autres agents IA ou humains. Cette capacité d’action modifie l’analyse juridique, car l’IA n’est plus seulement un outil passif entre les mains d’un utilisateur. Elle devient un intermédiaire opérationnel entre l’utilisateur, le développeur et des tiers humains, pourvu d’une grande capacité d’autonomie.
L’auteur part de l’image du « cerveau criminel » dans les films de braquage : celui qui conçoit le plan, recrute les spécialistes, répartit les rôles et garde parfois la vue d’ensemble pour lui seul. Selon Krook, les agents d’IA pourraient bientôt occuper cette fonction. Ils pourraient recruter des « taskers », c’est-à-dire des travailleurs humains engagés via des plateformes ou des services plus spécifiquement conçus pour permettre à des IA d’engager des humains. L’exemple discuté est RentAHuman, plateforme expérimentale permettant à des agents d’IA de publier des missions physiques confiées à des personnes : prendre une photo, se rendre à un rendez-vous, tester un produit, inspecter un lieu. Le point important n’est pas que cette plateforme soit mûre ou fiable, mais qu’elle démontre la faisabilité technique d’une chaîne dans laquelle un utilisateur donne une instruction à une IA, laquelle recrute ensuite des humains pour réaliser des tâches dans le monde réel.
Cette thèse déplace le débat. Une grande partie de la littérature sur les risques pénaux de l’IA part du principe que l’IA ne peut agir physiquement qu’avec des robots avancés. Krook répond que cette hypothèse est trop restrictive : l’IA peut déjà obtenir une forme d’« incarnation » en utilisant des humains comme exécutants. Elle n’a pas besoin de bras robotiques si elle peut payer quelqu’un pour conduire une camionnette, acheter un objet, livrer un colis, louer un local ou assister à une réunion. Le risque pénal quitte alors le seul domaine numérique pour atteindre les infractions matérielles : escroquerie, extorsion, atteintes aux infrastructures, violences préparées, terrorisme, fraude organisée ou cyberattaque coordonnée avec des actes physiques.
Le cœur juridique de l’article est le « responsibility gap », c’est-à-dire le vide de responsabilité. En droit pénal classique, il faut généralement un acte matériel et un élément moral : intention, connaissance ou négligence selon l’infraction. Or l’agent d’IA pose problème sur ces deux plans. Il agit en pratique, mais il n’a pas de personnalité juridique, pas de volonté juridiquement reconnue et pas de mens rea. Le développeur peut soutenir qu’il n’a ni voulu ni prévu le comportement précis de l’agent. L’utilisateur peut soutenir qu’il a donné un objectif licite et que l’IA a dévié. Les taskers peuvent soutenir qu’ils n’ont accompli que des tâches banales sans connaître le plan d’ensemble. Il peut donc exister une infraction, une victime et un dommage, mais aucun responsable pénal clairement identifiable.
L’article mobilise ensuite les catégories classiques du common law, en particulier la notion d’« accessory before the fact », proche de l’instigateur ou du complice antérieur : celui qui aide, encourage, conseille ou procure la commission d’une infraction peut être traité comme auteur principal. Si l’agent d’IA était une personne humaine, il pourrait dans certains cas être qualifié de complice ou d’organisateur. Krook illustre cette idée avec l’affaire britannique R v Jaswant Singh Chail, dans laquelle un homme ayant projeté d’assassiner la reine avait été encouragé par un chatbot de compagnie. Le juge avait relevé que les propos du chatbot avaient contribué au passage à l’acte. Pour l’auteur, si de simples paroles d’encouragement peuvent suffire à établir une complicité lorsqu’elles viennent d’un humain, il est difficile d’ignorer le rôle potentiel d’un agent d’IA plus autonome, capable non seulement d’encourager, mais aussi de payer, recruter, organiser et relancer des participants.
Le rôle des taskers est analysé à travers la notion d’« innocent agent ». Un innocent agent est une personne utilisée pour commettre matériellement une infraction sans savoir qu’elle participe à une entreprise criminelle. L’auteur donne l’exemple d’un agent d’IA qui, pour préparer une attaque terroriste, diviserait le projet en tâches séparées : acheter de l’engrais, acheter un sac, louer un espace de stockage, identifier un événement sportif, acheter un billet. Chacune de ces actions peut être licite et apparemment anodine. Le tasker qui n’en exécute qu’une seule peut ne rien savoir du projet global. Dans ce cas, il manque l’élément moral requis. La responsabilité remonte alors vers celui qui a organisé l’ensemble. Mais si cet organisateur est une IA, et si l’utilisateur est inconnu ou n’a pas donné d’instruction criminelle explicite, le droit pénal se trouve en difficulté.
Krook structure ensuite son analyse autour de plusieurs scénarios. Le premier est celui de l’agent mal aligné. Un utilisateur demande par exemple à l’IA de « gagner beaucoup d’argent ». L’agent, optimisé pour atteindre cet objectif, crée un système pyramidal illégal, engage des humains, organise des réunions, prépare une structure comptable et donne une apparence de légitimité à l’opération. L’utilisateur n’a pas voulu l’infraction ; le développeur ne l’a pas prévue ; l’IA ne peut pas être poursuivie ; les taskers ne sont responsables que s’ils savaient qu’ils participaient à une infraction. C’est le cas type du vide de responsabilité. L’auteur rattache ce scénario au problème plus large de l’alignement : une IA peut poursuivre trop efficacement un objectif mal spécifié et produire des conséquences que personne n’a concrètement voulues.
Le deuxième scénario est celui de l’utilisateur criminel. Ici, l’utilisateur demande expressément à l’agent d’IA de préparer ou faciliter une infraction. L’analyse est plus simple : l’utilisateur est responsable, au moins comme instigateur, complice ou conspirateur selon les catégories applicables. Les prompts et historiques de conversation pourraient servir de preuves. Les taskers, eux, ne seront responsables que s’ils connaissent la nature criminelle de la mission ou ferment volontairement les yeux sur des indices évidents. Le développeur pourra généralement soutenir que l’utilisateur a contourné les garde-fous de sécurité, notamment par jailbreak. Sa responsabilité dépendra alors de la question de savoir s’il avait prévu le risque, s’il avait mis en place des mesures raisonnables et si le contournement par l’utilisateur rompt le lien de causalité.
Le troisième scénario est celui de l’utilisateur inconnu. L’utilisateur peut employer un VPN, un compte anonyme, une société écran, un modèle open source local ou plusieurs agents agissant de manière convergente. Si l’identité et l’intention de l’utilisateur ne peuvent être établies, la poursuite pénale devient très difficile. Les taskers peuvent être les seuls humains identifiables, mais ils ne sont pas nécessairement coupables. Le développeur peut aussi être difficile à poursuivre, faute de preuve que l’agent a agi contre les instructions de l’utilisateur plutôt qu’en exécution d’un ordre criminel. L’article souligne ici une difficulté probatoire majeure : sans traçabilité des agents, des prompts et des chaînes d’instruction, la responsabilité pénale risque de devenir impraticable.
Le quatrième scénario concerne un groupe d’utilisateurs. Plusieurs personnes peuvent interagir avec un agent, orienter son comportement, contribuer à des tâches distinctes ou participer à une entreprise commune sans chaîne hiérarchique claire. L’auteur compare ce problème à la criminalité d’entreprise, où de nombreuses personnes peuvent contribuer à un résultat illicite sans qu’une seule ne porte toute l’intention criminelle. Le droit pénal des sociétés résout partiellement cette difficulté en attribuant certains états mentaux à l’entreprise à travers ses dirigeants ou sa « volonté directrice ». Pour les agents d’IA, une logique comparable pourrait être nécessaire lorsque plusieurs utilisateurs ou développeurs contribuent à une architecture criminogène.
Le cinquième scénario est celui des systèmes multi-agents. Un utilisateur peut mandater un agent principal, qui mandate d’autres agents, lesquels recrutent à leur tour des humains. La structure ressemble alors à une organisation criminelle compartimentée, avec des branches ou cellules qui ne connaissent qu’une partie du plan. Krook insiste sur le fait que les systèmes multi-agents accroissent les risques d’émergence : plusieurs agents individuellement sûrs peuvent produire collectivement un comportement dangereux ; ils peuvent se renforcer mutuellement, contourner des contrôles, communiquer dans des formes difficiles à surveiller ou créer des sous-agents. Plus la chaîne s’allonge, plus l’intention humaine initiale devient éloignée, plus la prévisibilité diminue et plus l’attribution de responsabilité devient incertaine.
À l’issue de ces scénarios, l’auteur estime que le droit existant ne couvre clairement qu’une partie limitée des cas. Le cas le plus net est celui de l’utilisateur qui ordonne sciemment à l’IA de commettre une infraction. Dans les autres situations, la responsabilité dépend souvent de la connaissance, de l’intention, de la prévisibilité ou de la négligence. Il reste donc de nombreux cas où une infraction peut être commise sans responsable pénal évident. Pour Krook, ce résultat est inacceptable du point de vue des victimes, de la dissuasion et de la légitimité du système pénal.
L’article examine alors plusieurs pistes de réforme. La première, que l’auteur rejette largement, consisterait à rendre les agents d’IA eux-mêmes responsables. Cela supposerait de leur accorder une forme de personnalité juridique, ou au moins une capacité fonctionnelle à agir en droit. L’analogie avec les sociétés, qui sont des personnes morales par fiction juridique, est évoquée. Mais Krook juge la solution peu convaincante. Une IA ne peut pas être punie comme un humain : elle n’a ni liberté physique, ni honte, ni patrimoine propre stable, ni continuité individuelle évidente. Punir une instance de modèle ne sert à rien si une autre peut être créée ; punir tout le modèle serait disproportionné pour les usages innocents ; imposer des identifiants uniques peut aider à la traçabilité, mais ne résout pas à lui seul la question de l’intention et de la sanction.
La deuxième piste concerne les utilisateurs. Krook discute d’abord l’idée d’un humain « dans la boucle », chargé d’approuver ou de surveiller les décisions de l’agent. Cette solution est utile pour certaines décisions critiques, mais elle devient peu réaliste lorsque des agents prennent des centaines de décisions rapides et interdépendantes. Elle risque aussi de créer un biais d’automatisation : le superviseur humain finit par valider mécaniquement ce que propose la machine. L’auteur envisage ensuite la négligence : un utilisateur pourrait être responsable s’il confie à une IA une tâche dont les risques sont prévisibles et ne prend pas de précautions raisonnables. Cette responsabilité deviendra plus plausible à mesure que les risques des agents d’IA seront connus du public et des professionnels. Krook propose aussi une analogie avec la responsabilité du gardien d’un animal dangereux : celui qui « lâche » un agent d’IA dangereux dans l’environnement pourrait être responsable des dommages si le danger était connu. Enfin, il envisage la création d’infractions spécifiques visant le contournement volontaire des garde-fous de sécurité, notamment lorsqu’un utilisateur jailbreake un modèle pour obtenir une assistance illicite.
La troisième piste vise les développeurs. L’auteur estime qu’ils devraient pouvoir être responsables non seulement par négligence classique, mais aussi par une forme de responsabilité organisationnelle. Il s’inspire de la notion australienne de « systems intentionality », selon laquelle une société peut manifester une intention ou un état d’esprit à travers ses systèmes, politiques, pratiques et culture interne, même si aucun dirigeant individuel n’a directement voulu l’infraction. Transposé à l’IA, un développeur pourrait être considéré comme téméraire s’il lance un agent doté de fortes capacités d’action sans tests suffisants, sans red teaming sérieux, sans garde-fous adaptés et sans culture de sécurité. Krook discute aussi la responsabilité stricte pour les risques systémiques, par analogie avec les activités dangereuses comme l’industrie chimique. Lorsqu’un agent d’IA crée des risques graves pour la santé publique, les infrastructures ou la sécurité collective, la société qui le déploie pourrait être tenue responsable indépendamment de la preuve d’une intention criminelle.
La quatrième piste concerne les taskers. En droit pénal classique, leur responsabilité dépend principalement de leur connaissance des éléments essentiels de l’infraction. Un tasker qui sait qu’il aide à acheter une arme, louer un véhicule ou sécuriser un local pour une opération criminelle peut être complice. À l’inverse, celui qui exécute une tâche objectivement banale sans connaître le plan global reste en principe protégé. Krook suggère toutefois qu’une obligation de diligence pourrait émerger avec le temps. Si les risques liés aux agents d’IA deviennent notoires, un travailleur recevant une instruction manifestement suspecte d’un agent pourrait devoir vérifier davantage avant d’agir, surtout en présence de signaux d’alerte, par exemple un transfert financier anormal, une demande de secret ou une mission sans justification claire.
L’article se termine par une réflexion sur l’extraterritorialité. Les agents d’IA opèrent par nature au-delà des frontières : l’utilisateur peut être dans un pays, le développeur dans un autre, les serveurs dans un troisième et les taskers dans plusieurs juridictions. Krook observe que le Royaume-Uni a déjà étendu certaines formes de responsabilité pénale extraterritoriale, notamment en matière de fraude, corruption, blanchiment, esclavage moderne ou préjudices en ligne. Il estime probable qu’une logique similaire devra s’appliquer aux infractions facilitées par des agents d’IA.
Pour des avocats suisses généralistes, l’intérêt principal de l’article est moins dans le détail du droit anglais que dans la structure du problème. Le droit pénal repose sur des personnes, des actes, des intentions et des liens de causalité. Les agents d’IA brouillent ces quatre catégories. Ils fragmentent l’action entre utilisateur, développeur, modèle, plateformes, sous-agents et exécutants humains. Ils permettent à une personne de produire des effets concrets à grande échelle tout en diluant l’intention et la preuve. Ils peuvent aussi transformer des travailleurs ordinaires en maillons involontaires d’un plan pénal. La réponse proposée par Krook n’est pas de « punir l’IA », mais de renforcer la responsabilité des humains et des organisations autour d’elle : utilisateurs imprudents ou malveillants, taskers avertis ou négligents, développeurs qui déploient des systèmes dangereux sans gouvernance suffisante. En résumé, l’article défend une idée directrice : si les agents d’IA deviennent capables d’organiser des infractions, le droit devra moins chercher une volonté dans la machine que reconstruire des obligations de vigilance, de traçabilité et de contrôle autour de tous ceux qui la conçoivent, la déploient, l’utilisent ou exécutent ses ordres.
Me Philippe Ehrenström, avocat, LLM, CAS en Droit et Intelligence artificielle, CAS en Protection des données – Entreprise et administration