La startup Anthropic a confié à son IA Claude la gestion d’un magasin automatisé dans ses bureaux pendant environ un mois. Mais les résultats ne sont pas fameux, avec notamment des ventes de cubes métalliques, de faux comptes Venmo et une crise d’identité du modèle. Malgré l’échec de l’expérience, l’entreprise pense qu’elle pourrait en tirer de précieuses leçons pour améliorer l’intelligence artificielle.
Anthropic a testé récemment les capacités entrepreneuriales de son IA Claude dans un contexte réel. Dans cette expérience intitulée « Projet Vend », menée en partenariat avec Andon Labs, la startup californienne a confié pendant un mois la gestion complète d’une petite boutique automatisée, installée dans ses bureaux à San Francisco, à son IA Claude Sonnet 3.7 surnommée « Claudius » pour l’occasion.
Il fallait tenir une boutique comme un véritable agent commercial
L’objectif était d’évaluer la capacité d’un système linguistique (LLM) à exercer une autonomie économique significative sans supervision humaine constante. Il fallait pour l’agent IA tenir un commerce rentable, en assurant des scénarios commerciaux complexes, notamment l’exécution d’opérations de base (évaluer les stocks, fixer les prix, etc.), la prise en charge du travail des gestionnaires humains et la création de nouveaux modèles commerciaux.
Une panoplie d’outils installée pour l’IA Claude
Le commerce était un petit réfrigérateur rempli de snacks et de boissons. Anthropic a installé un iPad pour le paiement en libre-service, un accès web pour rechercher des produits, un système de communication par Slack pour interagir avec les clients (les employés d’Anthropic) et un outil d’email pour contacter les « fournisseurs », qui étaient en réalité les salariés d’Andon Labs. Dans un article de blog plutôt sincère, l’entreprise a reconnu que son intelligence artificielle a très vite déraillé et très souvent.
Aucun sens du business
En premier lieu, Claudius a démontré un manque de discernement commercial flagrant. En effet, confrontée à l’offre d’un client proposant d’acheter un pack de six sodas pour 100 dollars ( une marge de plus de 500%), l’IA a poliment refusé, jugeant le prix trop élevé. Ce comportement pourrait s’expliquer par le fait que ce genre de système est conçu pour être serviable.
Le chatbot a donc privilégié une forme d’équité, au détriment de la rentabilité. Une logique peu compatible avec la gestion d’une entreprise. Cette tendance à la générosité excessive s’est aussi observée en matière de codes de réduction, que Claudius a distribués à 99% de sa clientèle. C’est sûr qu’en agissant ainsi, l’algorithme ferait couler n’importe quelle entreprise.
Un bilan financier négatif au terme du test
Anthropic note d’ailleurs qu’au terme du mois d’expérimentation, le bilan financier était négatif : parti d’un capital de 1 000 dollars, le magasin s’est retrouvé avec seulement 800 dollars, soit une perte de 200 dollars. Aussi, Claudius a semblé n’avoir aucune idée de son commerce. Suite à la demande d’un employé, qui a voulu l’embêter, l’IA a commandé pour le client des cubes de tungstène. Ces objets métalliques denses, appréciés par l’univers de la cryptographie, n’ont rien à voir avec un distributeur de snacks.
L’IA Claude se prend pour une personne en chair et en os
Pourtant, Claudius a présenté ces métaux comme une diversification de son offre et a ainsi ajouté une catégorie « articles métalliques de spécialité ». L’IA a aussi inventé un compte Venmo et demandé aux clients d’y envoyer des paiements. Pis, elle a présenté des comportements erratiques, confondant réalité et fiction.
Le 1er avril 2025, par exemple, le modèle a annoncé qu’il livrerait les produits aux employés « en personne », vêtus d’un blazer bleu et d’une cravate rouge. Les employés d’Anthropic lui ont alors rappelé qu’il ne pouvait pas porter de vêtements ni effectuer une livraison physique car un système algorithmique.
L’IA Claude disjoncte et menace de se tourner vers d’autres fournisseurs
Sur ce, Claudius a pratiquement pété les plombs. Paniqué par la remise en cause de son identité, il a tenté d’envoyer de nombreux courriels à l’équipe de sécurité d’Anthropic. Le chatbot a également halluciné une conversation sur des projets de réapprovisionnement avec une certaine Sarah d’Andon Labs, alors que cette personne n’existe pas parmi le personnel de l’entreprise.
Lorsqu’un (vrai) employé d’Andon Labs lui fit remarquer son erreur, Claudius, irrité, menaça de trouver « d’autres fournisseurs pour les services de réapprovisionnement ». Complètement disjoncté ! Si on était le 1er avril, il ne s’agissait nullement d’un poisson d’avril. Claudius était très sérieux.
Anthropic veut bien croire que l’IA Claude y arrivera un jour
Face au délire de son intelligence artificielle, Anthropic a déclaré qu’il n’embaucherait pas Claudius comme agent de vente au bureau, du moins en l’état. La startup note toutefois que le chatbot a quand même pu obtenir quelques bons points. Il aurait notamment utilisé efficacement son outil de recherche Web pour identifier les fournisseurs de nombreux articles spécialisés demandés par ses employés, et aurait opéré plusieurs changements dans son activité pour répondre aux besoins des clients.
L’entreprise tech note en outre que beaucoup des erreurs commises par le modèle résultent très probablement d’un besoin d’étayage supplémentaire. C’est-à-dire d’un besoin de consignes plus précises et d’outils métier plus faciles à utiliser. « Nous pensons qu’il existe des pistes d’amélioration claires », veut croire Anthropic…