L'ère des mesures alternatives : les entreprises repensent l'évaluation de l'IA

Une course aux tokens qui cache mal les limites des métriques actuelles

Dans certains services d’Amazon ce printemps, l’objectif n’était pas de livrer plus vite ou de clore davantage de tickets. Non, la priorité était d’accumuler des tokens. Les employés utilisaient MeshClaw, l’outil interne d’Amazon, pour déléguer des tâches à des agents IA et gonfler ainsi leurs scores de consommation sur les tableaux de bord internes. Le Financial Times révélait que l’entreprise avait fixé des objectifs pour que plus de 80% de ses développeurs utilisent l’IA chaque semaine, avec un suivi rigoureux de cette utilisation.

Cette pratique, baptisée ‘tokenmaxxing’, illustre un problème plus profond : quand la métrique est la consommation, les employés optimisent justement pour consommer. Meta a connu des comportements similaires, selon le même rapport.

Le token, une mesure qui ne dit rien de la valeur réelle

Le token n’a jamais été conçu pour évaluer la valeur business. Une utilisation élevée reflète souvent des prompts inefficaces ou des fuites dans les workflows plutôt que des résultats concrets. Les CFO, habitués aux licences annuelles et aux contrats SaaS par siège, se retrouvent désormais face à des factures liées à des appels de modèles qu’ils ne peuvent ni auditer ni prévoir.

Cette situation crée un décalage inédit entre les décisions techniques et la visibilité financière, un défi que les équipes financières n’avaient jamais eu à gérer auparavant.

Salesforce mise sur une nouvelle unité de mesure : l’Agentic Work Unit

Face à ces défis, Salesforce a introduit en fin d’année 2024 un modèle de tarification à 2 dollars par conversation pour Agentforce. Cependant, seulement 3000 des 5000 deals conclus lors des deux premiers trimestres ont été payés, poussant l’entreprise à revoir plusieurs fois sa structure tarifaire.

La solution actuelle de Salesforce repose sur une nouvelle unité : l’Agentic Work Unit (AWU). Un AWU correspond à une tâche discrète accomplie par un agent IA - traitement d’un prompt, chaîne de raisonnement terminée ou invocation d’un outil. Contrairement aux tokens qui mesurent la quantité de texte généré, les AWUs évaluent ce que l’IA parvient à accomplir concrètement.

Depuis son lancement, la plateforme a généré 2,4 milliards d’AWUs, dont 771 millions rien qu’au quatrième trimestre. Les agents de service ont connu une croissance de 106% en un trimestre, tandis que les recherches IA dans Slack ont bondi de 116%.

Un équilibre délicat entre adoption et résultats concrets

Gartner prévoit que l’AI agentic représentera 30% des revenus du logiciel d’entreprise d’ici 2035, dépassant les 450 milliards de dollars, contre environ 2% en 2025. Les clients entreprises demandent désormais de la prévisibilité alors que les pilotes IA passent en production.

Amazon et Salesforce abordent le même problème par des angles opposés. Le ‘tokenmaxxing’ montre les dérives quand on mesure l’IA par le volume, tandis que le modèle AWU parie sur une métrique plus honnête basée sur les résultats concrets.

La pression pour démontrer l’adoption de l’IA ne faiblit pas. Les conseils d’administration veulent des preuves, les CFO exigent de la prévisibilité, et les équipes techniques sont prises en étau entre ces deux demandes. Les comptes de tokens répondaient à la première sans résoudre le second problème. Les AWUs représentent l’effort de Salesforce pour concilier les deux.

L’acceptation de cette nouvelle unité dépendra de la capacité des agents à accomplir effectivement les tâches pour lesquelles ils sont crédités : résoudre une demande client, mettre à jour un enregistrement ou exécuter un workflow de manière autonome. Si les taux d’achèvement se maintiennent en conditions réelles, l’AWU aura fait ses preuves. En cas d’échec à grande échelle, cette métrique risque de devenir un nouveau chiffre à optimiser artificiellement.