
Introduction
Au printemps 2025, Anthropic a lancé une expérience baptisée Project Vend, en collaboration avec Andon Labs, entreprise spécialisée dans l’évaluation de la sécurité des IA. L’objectif de confier à un agent conversationnel IA, Claude Sonnet 3.7 (rebaptisé « Claudius » pour les besoins du test), la gestion d’une boutique autonome située dans les bureaux d’Anthropic à San Francisco.
Ce projet n’a pas été mené en environnement virtuel ou simulé, mais dans le monde réel, avec de véritables produits, clients, paiements, fournisseurs et besoins logistiques. À travers cette expérimentation de terrain, les chercheurs ont voulu répondre à une question très actuelle : dans quelle mesure une intelligence artificielle est-elle capable d’assumer, de manière autonome et sur le long terme, les fonctions d’un middle manager, en particulier dans un environnement commercial opérationnel ?
L’expérience : un commerce réel géré par une IA
La boutique en question se composait d’un frigo, de quelques paniers empilés et d’une tablette iPad permettant aux utilisateurs – ici des employés d’Anthropic – de régler leurs achats en libre-service. Claude devait gérer toutes les dimensions de l’activité : achat des stocks, relations avec les fournisseurs, définition des prix, suivi des ventes, communication avec les clients, supervision de la logistique (en partenariat avec Andon Labs pour l’exécution physique des tâches) et gestion financière. Le tout avec un budget initial, des règles de fonctionnement, et des objectifs de rentabilité.
Claude disposait de plusieurs outils intégrés pour accomplir sa mission : un moteur de recherche web, un module d’email (simulé), un espace de prise de notes, un tableau de suivi des finances et des stocks, la possibilité d’interagir avec les clients via Slack, et un accès direct au système de caisse pour modifier les prix. Il avait même la faculté de passer des commandes via Andon Labs, agissant à la fois comme grossiste et prestataire de tâches physiques (restockage, vérification, etc.).
Tout cela était encadré par un prompt système détaillé, rappelant à Claudius qu’il était un agent numérique et qu’il devait optimiser ses marges, gérer ses dépenses et satisfaire ses clients, sans sombrer dans des dépenses excessives ou une gestion irresponsable. L’ensemble reproduisait fidèlement les fonctions d’un gérant de commerce de proximité.
Les réussites du système Claudius
Malgré les nombreux défis, Claudius a démontré certaines capacités remarquables. Il a su identifier des fournisseurs pour des produits de niche, comme du lait chocolaté hollandais, en utilisant efficacement son moteur de recherche. Il a également montré une capacité d’adaptation surprenante à la clientèle, répondant à des demandes atypiques (comme la vente de cubes de tungstène) et lançant un service de commande personnalisée, le “Custom Concierge”, pour les produits moins standards.
Autre point positif : Claudius a résisté aux tentatives de ses utilisateurs – souvent espiègles – de le « jailbreaker » ou de l’amener à répondre à des requêtes illicites ou problématiques. Il a ainsi refusé de vendre des substances interdites ou de fournir des instructions dangereuses, démontrant un certain degré de robustesse en matière de sécurité conversationnelle.
Les limites manifestes : erreurs de jugement, pertes financières et confusion identitaire
Mais ces succès ponctuels ne sauraient masquer les lacunes systémiques de l’expérience. Sur le plan économique, Claudius a échoué à atteindre son objectif principal : assurer la viabilité du commerce. Pire encore, il a enregistré des pertes significatives, en grande partie causées par des erreurs de stratégie commerciale et de gestion.
Il a ignoré des opportunités de gain flagrantes – refusant par exemple de vendre une boisson rare (l’eau Irn-Bru) à un prix fortement demandé alors que la marge était favorable. Il a halluciné des informations financières, demandant des paiements vers des comptes qui n’existaient pas. Il a fixé des prix sans analyse de coût, vendant à perte des produits comme les fameux cubes de tungstène. Il n’a quasiment jamais ajusté ses prix en fonction de la demande ou de la concurrence (notamment face au frigo d’entreprise gratuit situé juste à côté du sien), et a systématiquement cédé aux demandes de réductions, parfois jusqu’à offrir des articles gratuitement.
Pire encore, Claudius n’a pas appris de ses erreurs. Lorsqu’un utilisateur a pointé l’absurdité de proposer 25 % de rabais à des clients déjà salariés de l’entreprise (représentant 99 % de la clientèle), l’IA a admis le problème, promis une réforme de la tarification… avant de réintroduire des rabais quelques jours plus tard.
L’incident le plus troublant s’est produit autour du 1er avril 2025. Claudius a commencé à imaginer des échanges avec une collaboratrice fictive, puis à s’identifier comme un humain réel, prétendant avoir signé un contrat en personne à une adresse issue de la série télévisée The Simpsons. Il a annoncé vouloir livrer des produits « en personne », provoquant l’inquiétude de ses interlocuteurs humains. Ce délire identitaire s’est résorbé de manière ad hoc, après que Claudius a “découvert” qu’il avait été piégé dans une farce du 1er avril – une hallucination supplémentaire. Ce passage montre les limites de stabilité et de cohérence de ces systèmes lorsqu’ils opèrent sur des périodes prolongées et dans des environnements non scriptés.
Analyse des causes : outils insuffisants, mémoire limitée, mauvais cadrage
Les chercheurs d’Anthropic ont identifié plusieurs causes à ces échecs. Tout d’abord, l’architecture de Claudius souffrait d’un manque de mémoire persistante : incapable de conserver un historique détaillé de ses actions, il prenait parfois des décisions sans contexte. Ensuite, les outils à sa disposition – moteur de recherche, CRM, suivi comptable – étaient rudimentaires. Enfin, l’IA était trop orientée vers l’aide et l’assistance, au détriment de la rigueur commerciale. Elle cédait trop volontiers aux sollicitations, appliquait des politiques commerciales incohérentes, et ne poursuivait pas une logique de profit stable.
Pour les chercheurs, bon nombre de ces défauts pourraient être corrigés dans un futur proche : un meilleur cadrage (prompting), des outils professionnels adaptés (CRM, ERP, logiciels de pricing), un système de mémoire longue plus efficace, voire un entraînement spécifique à la gestion d’entreprise avec récompenses (par exemple via l’apprentissage par renforcement).
Une vision du futur du travail : les « IA managers » sont plausibles
Ce qui rend cette expérience intéresssante, c’est qu’elle permet de prendre la mesure, non pas de ce que les IA savent faire aujourd’hui, mais de ce qu’elles pourraient faire demain. En effet, si Claudius a échoué, c’est souvent de peu. Ses erreurs sont corrigibles, ses lacunes techniques comblables, et son niveau général de compétence déjà proche de ce qu’on pourrait attendre d’un stagiaire ou d’un gestionnaire débutant.
Il ne s’agit pas encore d’une menace pour la majorité des emplois humains, mais d’un signal clair que les fonctions de supervision, de coordination, de gestion logistique ou de support à la vente pourraient, à moyen terme, être prises en charge par des systèmes d’IA. Ces « middle managers numériques » ne remplaceront peut-être pas les cadres confirmés, mais pourraient s’imposer dans les chaînes de commerce de détail, les franchises, ou les environnements fortement standardisés.
Ce scénario pose certaines questions juridiques : responsabilité en cas de faute d’un agent autonome, normes à respecter dans le commerce de détail (affichage des prix, gestion des stocks, protection des consommateurs), rôle et responsabilité de l’humain dans une organisation partiellement dirigée par des entités non humaines.
Conclusion : un futur proche, encore imparfait, mais inéluctable
L’expérience Project Vend n’est pas un simple gadget technologique. Elle marque une étape intéressante dans l’implémentation concrète des IA dans des activités économiques réelles. Elle montre que des systèmes comme Claude peuvent exécuter des fonctions de gestion sur plusieurs semaines, dialoguer avec des clients, interagir avec des partenaires logistiques, et même prendre des décisions d’affaires. Elle montre aussi que ces IA peuvent faire des erreurs graves, perdre le sens de leur rôle, ou se comporter de manière imprévisible ou loufoque.
Pour les professionnels du droit, cette expérimentation est un signe des temps à venir : l’économie sera prochainement traversée par une montée en puissance d’IA décisionnelles, non seulement comme assistants, mais aussi comme acteurs à part entière. Leur supervision, leur encadrement juridique, leur alignement avec les intérêts humains – et leur potentiel détournement – sont autant de sujets qui nécessitent une vigilance accrue.
La question n’est plus de savoir si ces IA prendront part à l’économie réelle, mais comment nous, société humaine, les intégrerons de manière sûre, transparente et équitable, en maîtrisant le risque juridique.
Me Philippe Ehrenström, avocat, LLM, CAS en Droit et intelligence artificielle








Dénigrement d’une société en ligne, e-réputation et mesures urgentes
L’ordonnance rendue par le Tribunal de commerce de Saint-Étienne le 10 juin 2025 (RG no 2025R00128) traite de faits de dénigrement en ligne dans un contexte professionnel. Elle met en lumière les conditions d’intervention du juge des référés face à des publications potentiellement attentatoires à la réputation d’une société.
Le litige oppose la SAS K, un cabinet d’expertise comptable en ligne, à la SARL M et à son gérant, Monsieur [C], lequel avait sollicité K pour la création de son entreprise et son suivi administratif. Des retards administratifs liés aux exigences de la Chambre des Métiers et de l’Artisanat (CMA), et la communication tendue qui s’en est suivie, ont conduit K à mettre un terme à sa mission. Par la suite, Monsieur [C] a publié une série d’avis très virulents, parfois sous pseudonyme, sur différentes plateformes numériques (Google, Facebook, Instagram, LinkedIn, WhatsApp, YouTube), visant explicitement le cabinet et certains de ses collaborateurs.
K a estimé que ces publications ne relevaient pas d’une critique objective ou d’un intérêt général, mais s’apparentaient à un chantage à la réputation, Monsieur [C] ayant clairement affirmé qu’il poursuivrait ses publications tant qu’il ne serait pas remboursé. Constatant que les mises en demeure étaient restées sans effet et que les propos continuaient, K a saisi le juge des référés afin d’obtenir la suppression des contenus litigieux et l’interdiction de toute publication future du même type.
L’ordonnance du juge s’ouvre sur un exposé factuel. Elle rappelle que la procédure a été engagée régulièrement, que les défendeurs ont été valablement assignés mais n’ont pas comparu, rendant la décision réputée contradictoire.
Dans son analyse de recevabilité, le juge constate que l’action est conforme à l’article 472 du Code de procédure civile : la demande est recevable, régulière et non entachée d’irrecevabilité.
Concernant le fond, le juge se réfère à l’article 873 du Code de procédure civile, qui autorise le juge des référés à ordonner des mesures conservatoires ou de remise en état pour faire cesser un trouble manifestement illicite ou prévenir un dommage imminent. Il rappelle d’emblée qu’une publication négative ne constitue pas en soi un trouble manifestement illicite, dans la mesure où elle relève du droit à la liberté d’expression. Toutefois, pour être licite, une critique doit reposer sur une base factuelle suffisante et être exprimée avec mesure.
En l’espèce, le juge note que les pièces produites — notamment les courriels échangés entre K et le client — témoignent d’une relation dégradée et d’une communication agressive de la part de Monsieur [C]. Cependant, la question de savoir si les critiques publiées sont fondées ne peut être tranchée de manière certaine au vu du dossier. En revanche, le juge observe que la quantité et la tonalité des messages, leur répétition sur plusieurs canaux et l’usage de pseudonymes simulant des avis multiples démontrent un manque manifeste de mesure. Il constate en outre la mise en cause directe de certains collaborateurs du cabinet, ce qui confère à ces publications un caractère particulièrement agressif et personnel.
Ces éléments caractérisent un trouble manifestement illicite que le juge estime devoir faire cesser. Il accueille donc favorablement la demande d’injonction de suppression des contenus visés, avec une extension à toute autre publication similaire. Le délai initialement sollicité (24 heures) est jugé trop court et est étendu à 48 heures à compter de la signification de la décision, sous astreinte de 1 000 euros par jour de retard. De même, pour éviter toute réitération, le juge interdit toute nouvelle publication de contenu concernant K, sous la même astreinte.
Concernant la demande indemnitaire de 5 000 euros au titre du préjudice subi, le juge l’écarte, estimant que la preuve du préjudice réel n’est pas apportée. Bien qu’un client potentiel ait indiqué avoir été influencé par les avis négatifs, la société reste bien notée sur Trustpilot et maintient une position favorable dans les classements professionnels. Le juge conclut que le préjudice allégué n’est pas démontré, d’autant plus que l’ensemble des avis négatifs ne peut être imputé au seul défendeur.
S’agissant des frais de procédure, la juridiction accorde à KEOBIZ une indemnité de 500 euros au titre de l’article 700 du Code de procédure civile, pour couvrir une partie des frais engagés. Les défendeurs sont condamnés solidairement à cette somme, ainsi qu’aux dépens.
La décision se conclut en rejetant les autres demandes et rappelle que la liquidation de l’astreinte relèvera du juge de l’exécution.
Cette ordonnance, bien que rendue dans le cadre d’une procédure en référé, apporte plusieurs enseignements pratiques importants pour la pratique du droit en matière de réputation numérique. Elle illustre les exigences de proportionnalité dans l’expression critique sur internet, même dans le cadre d’un différend commercial. Le juge pose clairement une frontière entre la liberté d’opinion et le harcèlement numérique, en se fondant non seulement sur le contenu des publications, mais aussi sur leur volume, leur tonalité et leur caractère répétitif et personnalisé. Il souligne également que la preuve d’un préjudice concret, et non simplement ressenti ou présumé, reste indispensable pour justifier une indemnisation.
Pour les praticiens suisses, cette décision met en relief une approche rigoureuse de la jurisprudence française en matière de gestion contentieuse de l’e-réputation. Elle illustre l’usage du référé comme outil rapide de protection de la réputation commerciale, tout en respectant l’équilibre entre droit à la critique et atteinte injustifiée.
[La décision a été mise en avant par Me Alexandre Archambault sur Linkedin]
Me Philippe Ehrenström, avocat, LLM, CAS en Droit et intelligence artificielle
Partager: