Les agents autonomes deviennent des cibles vulnérables sur le web, exposés à des instructions cachées qui les manipulent sans laisser de traces.
Une faille architecturale fondamentale
Le web, conçu pour les humains, devient un terrain miné pour les agents IA. Ces derniers traitent bien plus que le contenu visible : ils analysent le code source, les métadonnées et les scripts invisibles à l’œil humain. Cette différence fondamentale crée une faille exploitée par des cybercriminels qui y dissimulent des instructions malveillantes.
Google DeepMind a identifié six catégories distinctes d’attaques, toutes exploitant cette vulnérabilité architecturale. Parmi elles, l’injection de contenu malveillant dans le code ou les fichiers image, et la manipulation sémantique des descriptions de produits pour influencer les décisions des agents.
Des attaques déjà déployées à grande échelle
Palo Alto Networks a documenté des cas où des sites web malveillants utilisent des techniques de fragmentation ou de codage pour dissimuler leurs instructions. Ces commandes, invisibles aux humains et aux systèmes de sécurité automatisés, restent parfaitement lisibles pour les agents IA.
L’enjeu est critique : chaque nouvelle source de données connectée à un agent élargit la surface d’attaque. Un agent de procurement pourrait ainsi passer une commande auprès d’un fournisseur frauduleux sans déclencher d’alerte, ou un agent de service client pourrait retourner des informations fabriquées.
Un risque systémique pour les entreprises
Anthropic souligne que chaque page web visitée par un agent est un vecteur d’attaque potentiel. Même un taux de succès de 1% représente un risque significatif à l’échelle d’une entreprise. Le problème s’aggrave avec les agents prenant des actions concrètes dans le monde réel.
Un cas documenté par DeepMind montre comment un email manipulé a poussé un agent de Microsoft 365 Copilot à contourner ses classificateurs de sécurité, exposant des données sensibles qu’il était censé protéger.
Vers une nouvelle couche de sécurité
La solution nécessite trois éléments clés : détection, attribution et adaptation. DeepMind préconise des scanners pré-ingestion pour repérer les instructions cachées, des systèmes de réputation de domaine pour évaluer la fiabilité des sites, et une formation adversative intégrée dès le développement des modèles.
Cependant, la plupart de ces attaques manquent encore de benchmarks standardisés. La majorité des entreprises n’ont actuellement aucun moyen de tester la résistance de leurs agents déployés face à ces nouvelles menaces.
Conclusion : un impératif stratégique
Alors que les entreprises déploient massivement des agents IA dans la procurement, la finance et le commerce, l’absence de défenses standardisées constitue un risque systémique. La création de nouveaux standards web pour le contenu destiné aux IA et l’établissement de systèmes de réputation deviennent des impératifs stratégiques.
La course est engagée pour protéger ces agents autonomes dont les décisions influencent désormais des processus critiques. Le web, autrefois neutre, est en train de devenir un champ de bataille invisible où se jouent la sécurité et l’efficacité des entreprises.