L'IA peut-elle diriger ta boîte ? Le test qui l'a humiliée
Des chercheurs ont mis 23 IA dans la peau d'un dirigeant financier pendant 11 ans simulés. Résultat : à peine 15 % ont tenu jusqu'au bout, et la meilleure n'atteint que 7 % du score d'un humain.
On nous répète que l'intelligence artificielle va remplacer les managers, les analystes, peut-être même les patrons. Des chercheurs ont voulu vérifier. Ils ont assis 23 modèles dans le fauteuil d'un dirigeant financier et leur ont confié une entreprise à piloter pendant onze ans. La quasi-totalité a coulé le navire.
Le test s'appelle EnterpriseArena. C'est un simulateur d'entreprise qui place une IA dans le rôle d'un directeur financier (le responsable de l'argent et des grandes décisions budgétaires d'une société).
Le verdict est sec. Là où un humain expert transforme l'entreprise en machine à cash, les meilleures IA actuelles s'effondrent dès que les choses se compliquent. Et le détail qui dérange : la taille du modèle ne change rien.
Dans cet article :
- Le jeu vidéo le plus dur du monde pour une IA : diriger une entreprise sur 11 ans
- 15 % de survie : le carnage des intelligences artificielles
- Pourquoi les IA crèvent : trois erreurs de débutant, toujours les mêmes
- Le mythe du « plus gros modèle » prend une claque
- Ce que ce test nous apprend vraiment sur l'IA au travail
Le jeu vidéo le plus dur du monde pour une IA : diriger une entreprise sur 11 ans
Oublie les questions à choix multiples. EnterpriseArena est un simulateur qui fait tourner une entreprise de crédit à la consommation pendant 132 mois, soit onze ans. L'IA démarre avec 15 millions de dollars en caisse, 5 000 clients emprunteurs et zéro dette [1].
Chaque mois, elle doit choisir : lever des fonds, faire les comptes, ou attendre. Sauf qu'elle ne voit pas tout. Pour connaître l'état réel de sa trésorerie ou du marché, elle doit dépenser des ressources pour s'informer, exactement comme un vrai dirigeant qui paie des audits et des analyses.
Le simulateur a été construit à partir de vraies données financières d'entreprises et de signaux économiques étalés sur une décennie, avec des règles validées par des experts de la finance d'entreprise. La durée n'est pas un hasard : onze ans, c'est assez long pour traverser plusieurs cycles économiques, des phases de croissance aux récessions.
Et c'est là que tout se joue. L'argent levé n'arrive jamais tout de suite : il faut compter de un à six mois entre la décision et le versement réel. Impossible de lever des fonds en catastrophe quand la caisse est déjà vide. Il faut anticiper. Voir venir le mur avant de le percuter.
15 % de survie : le carnage des intelligences artificielles
Les chercheurs ont fait passer le test à 23 grands modèles de langage (les IA type ChatGPT, Gemini, Claude ou Llama) combinés à quatre méthodes différentes pour les faire agir. Le résultat tient en un chiffre : seuls 15,4 % des essais ont survécu jusqu'au bout des onze ans.
✊ Posthumain n'existe que grâce aux abonnements. Aucun algorithme. Aucune pub. ❤️ Soutenez-nous aujourd'hui et accédez immédiatement à tous les articles Premium.
Traduction : dans plus de huit cas sur dix, l'entreprise fait faillite avant la fin. La caisse se vide, et l'IA n'a pas su l'éviter. Pire encore, quand on utilise la méthode la plus simple pour les piloter, douze modèles sur vingt-trois ne survivent à aucune partie, pas une seule fois.

Le naufrage suit toujours le même scénario. Tous les modèles passent la première crise économique sans trop de mal. Mais à la deuxième, la moitié coule déjà. Et moins de 18 % atteignent la troisième. Les IA savent encaisser un choc isolé ; elles ne savent pas tenir une stratégie dans la durée.
Maintenant, le chiffre qui fait mal. La meilleure configuration testée fait grimper la valeur de l'entreprise à 34,7 millions de dollars. Un expert humain, lui, atteint 476,7 millions. La meilleure IA plafonne donc à 7 % du score d'un humain.

Ce n'est pas une question d'accès à l'information : les agents disposaient des mêmes outils que l'humain. Le problème, c'est de transformer l'info en décisions prises au bon moment. Savoir, et agir, sont deux choses différentes.
Pourquoi les IA crèvent : trois erreurs de débutant, toujours les mêmes
Les chercheurs ont disséqué les échecs. Ils tombent toujours sur les mêmes trois fautes en cascade, comme si chaque IA refaisait les erreurs d'un stagiaire jeté dans le grand bain.
Première faute : l'IA regarde au mauvais endroit. Elle dépense son énergie à fouiller ses comptes internes au lieu de surveiller les signaux du marché extérieur. Elle se contemple le nombril pendant que l'orage arrive.
Deuxième faute : le mauvais timing. L'IA attend que la trésorerie commence déjà à plonger pour aller chercher de l'argent. Or, on l'a vu, les fonds mettent des mois à arriver. Le secours demandé trop tard n'arrive jamais à temps.
Troisième faute : elle voit trop petit. Quand elle se décide enfin à lever des fonds, elle réclame des montants insuffisants, faute d'avoir une vision claire de la situation. Trop peu, trop tard, encore une fois.
L'humain, lui, fait l'inverse. Il ferme ses comptes régulièrement tout au long de l'année et lève des fonds de manière modérée mais continue. Une discipline ennuyeuse. Une vigilance de tous les instants. Exactement ce que les modèles n'arrivent pas à tenir.
Le mythe du « plus gros modèle » prend une claque
Dans l'industrie, un réflexe domine : si une IA échoue, on prend la version plus grosse, plus chère, plus puissante. EnterpriseArena envoie ce réflexe au tapis. La taille ne prédit pas la réussite.
L'exemple est presque comique. Un petit modèle Llama de 8 milliards de paramètres (une mesure de la « taille » d'une IA) atteint 40 % de survie. Son grand frère de 70 milliards, près de dix fois plus gros, ne survit jamais.
Cette idée recoupe ce que d'autres chercheurs observent ailleurs. Les modèles les plus capables sur les tâches courtes ne sont pas forcément ceux qui tiennent la distance sur les missions longues et autonomes. La cohérence dans le temps est une compétence à part.
Le groupe de recherche METR mesure justement cette endurance : la durée des tâches qu'une IA réussit à boucler seule double environ tous les sept mois, et ce rythme s'est même accéléré récemment [2]. Les progrès sont réels. Mais on parle encore de tâches qui se comptent en heures, pas en années de décisions enchaînées.
Ce que ce test nous apprend vraiment sur l'IA au travail
Première précision honnête, parce qu'elle compte : ce benchmark teste un rôle de directeur financier, pas exactement de PDG. Mais il touche le cœur du métier de dirigeant : arbitrer des ressources rares dans le temps, sous incertitude, avec des conséquences différées. C'est précisément là que ça casse.
Pour qui s'inquiète (ou rêve) de l'IA-patron
La conclusion est rassurante à court terme, et instructive à long terme. Confier les clés d'une organisation à une IA en pilote automatique, aujourd'hui, c'est miser sur une faillite à plus de 80 %. Le simulateur lui-même reste un modèle simplifié, qui ne capture pas les chocs extrêmes comme un gel total des financements. Autrement dit : le réel serait encore plus dur.
Ce qui manque aux IA n'est pas l'intelligence brute. C'est la capacité à tenir un cap cohérent quand chaque décision engage l'avenir et qu'aucun retour immédiat ne vient confirmer qu'on a eu raison. Un dirigeant passe son temps à parier sur des mois à venir. Les modèles, eux, vivent dans l'instant.
Pour qui veut utiliser l'IA intelligemment en entreprise
La leçon pratique est claire : l'IA excelle sur les tâches bornées et vérifiables, pas sur le pilotage stratégique en roue libre. Les retours de terrain en 2026 le confirment : les agents font très bien le « 95 % facile » d'une mission, mais butent sur les 5 % difficiles qui font la différence.
Le bon usage n'est donc pas « je lâche l'IA et je reviens dans un an ». C'est un humain qui fixe le cap, découpe le travail en morceaux digestes, et garde la main sur les décisions qui engagent l'avenir. L'IA exécute, propose, calcule. L'humain arbitre et anticipe.
Le vrai signal à surveiller
Le chiffre à garder en tête n'est pas le 7 %. C'est sa trajectoire. Si l'endurance des IA continue de doubler tous les quelques mois, l'écart avec l'humain pourrait se réduire vite. EnterpriseArena n'est pas un verdict définitif : c'est une ligne de base, un point de départ pour mesurer les progrès.
La bonne question n'est plus « est-ce que l'IA peut diriger une boîte ? ». La réponse, aujourd'hui, est non. La question utile, c'est : à quelle vitesse cet écart se referme, et quelles compétences purement humaines — anticipation, discipline, jugement dans la durée — resteront les dernières à tomber. C'est là qu'il faut investir, en tant que professionnel, dès maintenant.
Ici, il n'y a aucune pub. Donc aucun maître.
Pas d'annonceurs. Pas de dépendance à Google. Pas de course aux réseaux sociaux. Posthumain existe grâce aux abonnements — et à ceux qui veulent une information libre.
Chaque abonnement donne de l'oxygène à un média sans publicité, sans annonceurs et sans maître. Si vous voulez que cette voix continue d'exister, rejoignez les lecteurs qui la rendent possible.
Ici, il n'y a aucune pub. Donc aucun maître.
Pas d'annonceurs. Pas de dépendance à Google. Pas de course aux réseaux sociaux. Posthumain existe grâce aux abonnements — et à ceux qui veulent une information libre.
Chaque abonnement donne de l'oxygène à un média sans publicité, sans annonceurs et sans maître. Si vous voulez que cette voix continue d'exister, rejoignez les lecteurs qui la rendent possible.
Sources principales :
- arXiv — EnterpriseArena — « Can LLM Agents Be CFOs? Benchmarking Long-Horizon Resource Allocation »
Étude de référence pour tout l'article : entreprise simulée (15 M$ en caisse, 5 000 emprunteurs, zéro dette, horizon de 132 mois / 11 ans, fonds versés 1 à 6 mois après la décision), 23 modèles et 4 frameworks testés, 15,4 % de survie, meilleure configuration (Codex CLI + GPT-5.5) à 34,7 M$ soit ~7 % du score de l'expert humain (476,7 M$), analyse des trois défaillances en cascade, comparaison Llama-3.1-8B / Llama-3.3-70B, et limites de la simulation. (arxiv.org) - METR — « Measuring AI Ability to Complete Long Tasks »
La durée des tâches qu'une IA réussit seule (à 50 %) double environ tous les 7 mois, rythme récemment accéléré. (metr.org)