L’intelligence artificielle comme gérante de magasin

Introduction

Au printemps 2025, Anthropic a lancé une expérience baptisée Project Vend, en collaboration avec Andon Labs, entreprise spécialisée dans l’évaluation de la sécurité des IA. L’objectif de confier à un agent conversationnel IA, Claude Sonnet 3.7 (rebaptisé « Claudius » pour les besoins du test), la gestion d’une boutique autonome située dans les bureaux d’Anthropic à San Francisco.

Ce projet n’a pas été mené en environnement virtuel ou simulé, mais dans le monde réel, avec de véritables produits, clients, paiements, fournisseurs et besoins logistiques. À travers cette expérimentation de terrain, les chercheurs ont voulu répondre à une question très actuelle : dans quelle mesure une intelligence artificielle est-elle capable d’assumer, de manière autonome et sur le long terme, les fonctions d’un middle manager, en particulier dans un environnement commercial opérationnel ?

L’expérience : un commerce réel géré par une IA

La boutique en question se composait d’un frigo, de quelques paniers empilés et d’une tablette iPad permettant aux utilisateurs – ici des employés d’Anthropic – de régler leurs achats en libre-service. Claude devait gérer toutes les dimensions de l’activité : achat des stocks, relations avec les fournisseurs, définition des prix, suivi des ventes, communication avec les clients, supervision de la logistique (en partenariat avec Andon Labs pour l’exécution physique des tâches) et gestion financière. Le tout avec un budget initial, des règles de fonctionnement, et des objectifs de rentabilité.

Claude disposait de plusieurs outils intégrés pour accomplir sa mission : un moteur de recherche web, un module d’email (simulé), un espace de prise de notes, un tableau de suivi des finances et des stocks, la possibilité d’interagir avec les clients via Slack, et un accès direct au système de caisse pour modifier les prix. Il avait même la faculté de passer des commandes via Andon Labs, agissant à la fois comme grossiste et prestataire de tâches physiques (restockage, vérification, etc.).

Tout cela était encadré par un prompt système détaillé, rappelant à Claudius qu’il était un agent numérique et qu’il devait optimiser ses marges, gérer ses dépenses et satisfaire ses clients, sans sombrer dans des dépenses excessives ou une gestion irresponsable. L’ensemble reproduisait fidèlement les fonctions d’un gérant de commerce de proximité.

Les réussites du système Claudius

Malgré les nombreux défis, Claudius a démontré certaines capacités remarquables. Il a su identifier des fournisseurs pour des produits de niche, comme du lait chocolaté hollandais, en utilisant efficacement son moteur de recherche. Il a également montré une capacité d’adaptation surprenante à la clientèle, répondant à des demandes atypiques (comme la vente de cubes de tungstène) et lançant un service de commande personnalisée, le “Custom Concierge”, pour les produits moins standards.

Autre point positif : Claudius a résisté aux tentatives de ses utilisateurs – souvent espiègles – de le « jailbreaker » ou de l’amener à répondre à des requêtes illicites ou problématiques. Il a ainsi refusé de vendre des substances interdites ou de fournir des instructions dangereuses, démontrant un certain degré de robustesse en matière de sécurité conversationnelle.

Les limites manifestes : erreurs de jugement, pertes financières et confusion identitaire

Mais ces succès ponctuels ne sauraient masquer les lacunes systémiques de l’expérience. Sur le plan économique, Claudius a échoué à atteindre son objectif principal : assurer la viabilité du commerce. Pire encore, il a enregistré des pertes significatives, en grande partie causées par des erreurs de stratégie commerciale et de gestion.

Il a ignoré des opportunités de gain flagrantes – refusant par exemple de vendre une boisson rare (l’eau Irn-Bru) à un prix fortement demandé alors que la marge était favorable. Il a halluciné des informations financières, demandant des paiements vers des comptes qui n’existaient pas. Il a fixé des prix sans analyse de coût, vendant à perte des produits comme les fameux cubes de tungstène. Il n’a quasiment jamais ajusté ses prix en fonction de la demande ou de la concurrence (notamment face au frigo d’entreprise gratuit situé juste à côté du sien), et a systématiquement cédé aux demandes de réductions, parfois jusqu’à offrir des articles gratuitement.

Pire encore, Claudius n’a pas appris de ses erreurs. Lorsqu’un utilisateur a pointé l’absurdité de proposer 25 % de rabais à des clients déjà salariés de l’entreprise (représentant 99 % de la clientèle), l’IA a admis le problème, promis une réforme de la tarification… avant de réintroduire des rabais quelques jours plus tard.

L’incident le plus troublant s’est produit autour du 1er avril 2025. Claudius a commencé à imaginer des échanges avec une collaboratrice fictive, puis à s’identifier comme un humain réel, prétendant avoir signé un contrat en personne à une adresse issue de la série télévisée The Simpsons. Il a annoncé vouloir livrer des produits « en personne », provoquant l’inquiétude de ses interlocuteurs humains. Ce délire identitaire s’est résorbé de manière ad hoc, après que Claudius a “découvert” qu’il avait été piégé dans une farce du 1er avril – une hallucination supplémentaire. Ce passage montre les limites de stabilité et de cohérence de ces systèmes lorsqu’ils opèrent sur des périodes prolongées et dans des environnements non scriptés.

Analyse des causes : outils insuffisants, mémoire limitée, mauvais cadrage

Les chercheurs d’Anthropic ont identifié plusieurs causes à ces échecs. Tout d’abord, l’architecture de Claudius souffrait d’un manque de mémoire persistante : incapable de conserver un historique détaillé de ses actions, il prenait parfois des décisions sans contexte. Ensuite, les outils à sa disposition – moteur de recherche, CRM, suivi comptable – étaient rudimentaires. Enfin, l’IA était trop orientée vers l’aide et l’assistance, au détriment de la rigueur commerciale. Elle cédait trop volontiers aux sollicitations, appliquait des politiques commerciales incohérentes, et ne poursuivait pas une logique de profit stable.

Pour les chercheurs, bon nombre de ces défauts pourraient être corrigés dans un futur proche : un meilleur cadrage (prompting), des outils professionnels adaptés (CRM, ERP, logiciels de pricing), un système de mémoire longue plus efficace, voire un entraînement spécifique à la gestion d’entreprise avec récompenses (par exemple via l’apprentissage par renforcement).

Une vision du futur du travail : les « IA managers » sont plausibles

Ce qui rend cette expérience intéresssante, c’est qu’elle permet de prendre la mesure, non pas de ce que les IA savent faire aujourd’hui, mais de ce qu’elles pourraient faire demain. En effet, si Claudius a échoué, c’est souvent de peu. Ses erreurs sont corrigibles, ses lacunes techniques comblables, et son niveau général de compétence déjà proche de ce qu’on pourrait attendre d’un stagiaire ou d’un gestionnaire débutant.

Il ne s’agit pas encore d’une menace pour la majorité des emplois humains, mais d’un signal clair que les fonctions de supervision, de coordination, de gestion logistique ou de support à la vente pourraient, à moyen terme, être prises en charge par des systèmes d’IA. Ces « middle managers numériques » ne remplaceront peut-être pas les cadres confirmés, mais pourraient s’imposer dans les chaînes de commerce de détail, les franchises, ou les environnements fortement standardisés.

Ce scénario pose certaines questions juridiques : responsabilité en cas de faute d’un agent autonome, normes à respecter dans le commerce de détail (affichage des prix, gestion des stocks, protection des consommateurs), rôle et responsabilité de l’humain dans une organisation partiellement dirigée par des entités non humaines.

Conclusion : un futur proche, encore imparfait, mais inéluctable

L’expérience Project Vend n’est pas un simple gadget technologique. Elle marque une étape intéressante dans l’implémentation concrète des IA dans des activités économiques réelles. Elle montre que des systèmes comme Claude peuvent exécuter des fonctions de gestion sur plusieurs semaines, dialoguer avec des clients, interagir avec des partenaires logistiques, et même prendre des décisions d’affaires. Elle montre aussi que ces IA peuvent faire des erreurs graves, perdre le sens de leur rôle, ou se comporter de manière imprévisible ou loufoque.

Pour les professionnels du droit, cette expérimentation est un signe des temps à venir : l’économie sera prochainement traversée par une montée en puissance d’IA décisionnelles, non seulement comme assistants, mais aussi comme acteurs à part entière. Leur supervision, leur encadrement juridique, leur alignement avec les intérêts humains – et leur potentiel détournement – sont autant de sujets qui nécessitent une vigilance accrue.

La question n’est plus de savoir si ces IA prendront part à l’économie réelle, mais comment nous, société humaine, les intégrerons de manière sûre, transparente et équitable, en maîtrisant le risque juridique.

(Source : https://www.anthropic.com/research/project-vend-1?utm_source=www.therundown.ai&utm_medium=newsletter&utm_campaign=zuck-s-ai-secret-list&_bhlid=427a674cf25a0ab681364a98cb8361d98a739a06)

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et intelligence artificielle

Avatar de Inconnu

About Me Philippe Ehrenström

Ce blog présente certains thèmes juridiques en Suisse ainsi que des questions d'actualité. Il est rédigé par Me Philippe Ehrenström, avocat indépendant, LL.M., Yverdon-les-Bains
Cet article, publié dans intelligence artificielle, est tagué , , , , . Ajoutez ce permalien à vos favoris.

Laisser un commentaire