L’IA agentique en crise de fiabilité : une solution inattendue
Les systèmes d’agents intelligents actuels souffrent d’une fragilité structurelle. Ben Cochran, vétéran de l’ingénierie avec 20 ans d’expérience chez NVIDIA et AMD, a identifié le problème : pour garantir la fiabilité des agents, soit on augmente massivement les paramètres des modèles, soit on étend les fenêtres de contexte. Une approche contre-intuitive a émergé : réduire le problème plutôt que d’agrandir les modèles.
Des machines à états pour dompter l’IA
Cochran a testé des modèles de 13 à 20 milliards de paramètres sur des problèmes concrets d’ingénierie logicielle. La clé ? Des machines à états formelles qui définissent précisément les outils accessibles, le nombre d’itérations autorisées et les transitions valides. Chaque état impose des contraintes strictes : lecture seule en phase de planification, édition limitée pendant l’implémentation, et tests restreints. Résultat : les modèles ne peuvent plus sauter d’étapes ou utiliser des outils inappropriés.
Les gains de performance ont été surprenants. Des modèles comme Haiku et Sonnet, habituellement en retrait, se sont mis à surpasser leurs concurrents. Même les modèles frontaliers comme Opus ont gagné en fiabilité avec moins de tokens et moins d’effondrements en cascade. Cette approche dépasse les améliorations obtenues par le fine-tuning classique.
Statewright : L’outil qui change la donne
De cette recherche est né Statewright, une plateforme qui utilise un moteur Rust pour évaluer les définitions de machines à états. Son architecture comprend :
- Un cœur qui gère les états, transitions et restrictions d’outils
- Une couche de plugins compatible avec Claude Code (et bientôt Codex, Cursor)
- Un éditeur visuel pour concevoir des workflows complexes
L’outil impose automatiquement les garde-fous à chaque étape, limitant l’accès aux outils pertinents et guidant le modèle vers des actions valides. Statewright permet même de visualiser les chemins d’échec, les boucles de réessai et les portes de validation.
Disponibilité immédiate
Statewright est déjà disponible avec un niveau gratuit. Pour l’essayer dans Claude Code :
- /plugin marketplace add statewright/statewright
- /plugin install statewright
- /reload-plugins
- Lancer le workflow de correction de bugs avec /statewright start bugfix
Les retours sont les bienvenus sur l’éditeur de workflows, l’expérience plugin et les cas d’usage prioritaires. Comme le souligne Cochran : « Les agents font des suggestions, mais les états sont des lois.”
Cette innovation pourrait bien redéfinir l’avenir de l’IA agentique.