L'écart de fiabilité des IA dans les paiements : un benchmark révélateur

Les systèmes autonomes peinent à gérer les transactions complexes, malgré des progrès notables dans l’automatisation. COLIBRIX ONE et BitGN viennent de publier les résultats d’ECOM1, un benchmark ambitieux qui a soumis des agents IA à des conditions réelles de commerce électronique. Plus de 1,6 million d’essais et près de 34 millions d’appels API plus tard, le constat est sans appel : l’écosystème des outils d’automatisation dans les services financiers a encore du chemin à parcourir.

Un fossé de performance criant

L’étude révèle un écart abyssal entre les architectures haut de gamme et la moyenne des agents autonomes. Alors que les systèmes les plus performants atteignent 95 % de réussite, la moyenne globale s’effondre à 20,2 %, avec une médiane à seulement 2,4 %. Seuls 2,3 % des essais ont réussi à compléter l’ensemble du benchmark. Ces chiffres soulignent une fragilité structurelle des modèles d’IA face aux réalités imprévisibles de l’infrastructure financière.

Les défis opérationnels au cœur des échecs

Le principal obstacle n’est plus technologique, mais lié à la confiance opérationnelle. Les modèles linguistiques modernes excellent dans les tâches statiques, mais échouent face aux flux transactionnels complexes. Sous pression, les architectures intermédiaires s’effondrent, incapables de s’adapter aux changements d’état ou aux entrées utilisateur inattendues. Les scénarios impliquant des promotions, la récupération 3-D Secure ou les mises à jour de conformité ont révélé des taux d’échec alarmants, allant jusqu’à 84,4 %.

Les champions du benchmark

Les systèmes comme Codex CLI et Claude Code ont démontré leur supériorité, mais leur succès repose sur une architecture rigoureuse. Les équipes gagnantes ont combiné ces modèles avec des environnements de test robustes et des portes d’exécution contrôlées. Cette approche hybride offre un modèle pour concilier flexibilité cognitive et conformité institutionnelle.

Pour Rinat Abdullin, fondateur de BitGN, ce benchmark prouve qu’une automatisation fiable est possible, mais exige une ingénierie spécifique et un test rigoureux. Le vrai défi réside dans l’alignement permanent avec les politiques et états systémiques, surtout face aux contestations des consommateurs.