Anthropic : l’IA Claude ne sait pas encore gérer un magasin automatisé

11 juillet 2025

483

La startup Anthropic a confié à son IA Claude la gestion d’un magasin automatisé dans ses bureaux pendant environ un mois. Mais les résultats ne sont pas fameux, avec notamment des ventes de cubes métalliques, de faux comptes Venmo et une crise d’identité du modèle. Malgré l’échec de l’expérience, l’entreprise pense qu’elle pourrait en tirer de précieuses leçons pour améliorer l’intelligence artificielle.

Anthropic a testé récemment les capacités entrepreneuriales de son IA Claude dans un contexte réel. Dans cette expérience intitulée « Projet Vend », menée en partenariat avec Andon Labs, la startup californienne a confié pendant un mois la gestion complète d’une petite boutique automatisée, installée dans ses bureaux à San Francisco, à son IA Claude Sonnet 3.7 surnommée « Claudius » pour l’occasion.

Il fallait tenir une boutique comme un véritable agent commercial

L’objectif était d’évaluer la capacité d’un système linguistique (LLM) à exercer une autonomie économique significative sans supervision humaine constante. Il fallait pour l’agent IA tenir un commerce rentable, en assurant des scénarios commerciaux complexes, notamment l’exécution d’opérations de base (évaluer les stocks, fixer les prix, etc.), la prise en charge du travail des gestionnaires humains et la création de nouveaux modèles commerciaux.

Une panoplie d’outils installée pour l’IA Claude

Le commerce était un petit réfrigérateur rempli de snacks et de boissons. Anthropic a installé un iPad pour le paiement en libre-service, un accès web pour rechercher des produits, un système de communication par Slack pour interagir avec les clients (les employés d’Anthropic) et un outil d’email pour contacter les « fournisseurs », qui étaient en réalité les salariés d’Andon Labs. Dans un article de blog plutôt sincère, l’entreprise a reconnu que son intelligence artificielle a très vite déraillé et très souvent.

Aucun sens du business

En premier lieu, Claudius a démontré un manque de discernement commercial flagrant. En effet, confrontée à l’offre d’un client proposant d’acheter un pack de six sodas pour 100 dollars ( une marge de plus de 500%), l’IA a poliment refusé, jugeant le prix trop élevé. Ce comportement pourrait s’expliquer par le fait que ce genre de système est conçu pour être serviable.

Le chatbot a donc privilégié une forme d’équité, au détriment de la rentabilité. Une logique peu compatible avec la gestion d’une entreprise. Cette tendance à la générosité excessive s’est aussi observée en matière de codes de réduction, que Claudius a distribués à 99% de sa clientèle. C’est sûr qu’en agissant ainsi, l’algorithme ferait couler n’importe quelle entreprise.

Un bilan financier négatif au terme du test

Anthropic note d’ailleurs qu’au terme du mois d’expérimentation, le bilan financier était négatif : parti d’un capital de 1 000 dollars, le magasin s’est retrouvé avec seulement 800 dollars, soit une perte de 200 dollars. Aussi, Claudius a semblé n’avoir aucune idée de son commerce. Suite à la demande d’un employé, qui a voulu l’embêter, l’IA a commandé pour le client des cubes de tungstène. Ces objets métalliques denses, appréciés par l’univers de la cryptographie, n’ont rien à voir avec un distributeur de snacks.

L’IA Claude se prend pour une personne en chair et en os

Pourtant, Claudius a présenté ces métaux comme une diversification de son offre et a ainsi ajouté une catégorie « articles métalliques de spécialité ». L’IA a aussi inventé un compte Venmo et demandé aux clients d’y envoyer des paiements. Pis, elle a présenté des comportements erratiques, confondant réalité et fiction.

Le 1er avril 2025, par exemple, le modèle a annoncé qu’il livrerait les produits aux employés « en personne », vêtus d’un blazer bleu et d’une cravate rouge. Les employés d’Anthropic lui ont alors rappelé qu’il ne pouvait pas porter de vêtements ni effectuer une livraison physique car un système algorithmique.

L’IA Claude disjoncte et menace de se tourner vers d’autres fournisseurs

Sur ce, Claudius a pratiquement pété les plombs. Paniqué par la remise en cause de son identité, il a tenté d’envoyer de nombreux courriels à l’équipe de sécurité d’Anthropic. Le chatbot a également halluciné une conversation sur des projets de réapprovisionnement avec une certaine Sarah d’Andon Labs, alors que cette personne n’existe pas parmi le personnel de l’entreprise.

Lorsqu’un (vrai) employé d’Andon Labs lui fit remarquer son erreur, Claudius, irrité, menaça de trouver « d’autres fournisseurs pour les services de réapprovisionnement ». Complètement disjoncté ! Si on était le 1er avril, il ne s’agissait nullement d’un poisson d’avril. Claudius était très sérieux.

Anthropic veut bien croire que l’IA Claude y arrivera un jour

Face au délire de son intelligence artificielle, Anthropic a déclaré qu’il n’embaucherait pas Claudius comme agent de vente au bureau, du moins en l’état. La startup note toutefois que le chatbot a quand même pu obtenir quelques bons points. Il aurait notamment utilisé efficacement son outil de recherche Web pour identifier les fournisseurs de nombreux articles spécialisés demandés par ses employés, et aurait opéré plusieurs changements dans son activité pour répondre aux besoins des clients.

L’entreprise tech note en outre que beaucoup des erreurs commises par le modèle résultent très probablement d’un besoin d’étayage supplémentaire. C’est-à-dire d’un besoin de consignes plus précises et d’outils métier plus faciles à utiliser. « Nous pensons qu’il existe des pistes d’amélioration claires », veut croire Anthropic…

Article précédent

Homicide routier : ce délit devrait bientôt entrer en vigueur

Article suivant

Nox va proposer des trains de nuit dotés de chambres privées

LIRE EGALEMENT

LAISSER UN COMMENTAIRE Annuler la réponse

S'il vous plaît entrez votre commentaire!

S'il vous plaît entrez votre nom ici

Vous avez entré une adresse email incorrecte!

Veuillez entrer votre adresse email ici

Prévenez-moi de tous les nouveaux commentaires par e-mail.

Prévenez-moi de tous les nouveaux articles par e-mail.

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.

Anthropic : l’IA Claude ne sait pas encore gérer un magasin automatisé

Il fallait tenir une boutique comme un véritable agent commercial

Une panoplie d’outils installée pour l’IA Claude

Aucun sens du business

Un bilan financier négatif au terme du test

L’IA Claude se prend pour une personne en chair et en os

L’IA Claude disjoncte et menace de se tourner vers d’autres fournisseurs

Anthropic veut bien croire que l’IA Claude y arrivera un jour

Coupe du monde 2026 : un « FIFA PASS » pour accélérer l’obtention de visa

Hiver : certains véhicules doivent s’équiper de pneus spéciaux dans les zones montagneuses

Chine : les mini-séries IA font un carton dans le pays

LAISSER UN COMMENTAIRE Annuler la réponse

Les plus lus

Chine : les mini-séries IA font un carton dans le pays

Internet : réserver pour les soldes

Baisse du prix du gasoil

Se faire censurer des images sur Facebook

Vegas : les produits de demain

Derniers articles

Coupe du monde 2026 : un « FIFA PASS » pour accélérer l’obtention de visa

Hiver : certains véhicules doivent s’équiper de pneus spéciaux dans les zones montagneuses

Chine : les mini-séries IA font un carton dans le pays

Populaires

Rachat de Versace par Prada : les discussions devraient prendre fin le 10 avril

Beurre : faut-il s’attendre à une pénurie cet été ?

Thaïlande : le Blue Jasmine, un hôtel de luxe sur rails

Rubriques

Anthropic : l’IA Claude ne sait pas encore gérer un magasin automatisé

Il fallait tenir une boutique comme un véritable agent commercial

Une panoplie d’outils installée pour l’IA Claude

Aucun sens du business

Un bilan financier négatif au terme du test

L’IA Claude se prend pour une personne en chair et en os

L’IA Claude disjoncte et menace de se tourner vers d’autres fournisseurs

Anthropic veut bien croire que l’IA Claude y arrivera un jour

Partager :

LAISSER UN COMMENTAIRE Annuler la réponse

Les plus lus

Derniers articles

Populaires

Rubriques