Les modèles d’IA ne suffisent plus pour garantir la sécurité des systèmes autonomes. Une récente étude internationale plaide pour une approche systémique, rompant avec les méthodes traditionnelles de protection des agents intelligents.
Une révolution dans la pensée sécuritaire
Les chercheurs soulignent un décalage croissant entre les approches actuelles de sécurité des IA et leur comportement réel dans les environnements d’entreprise. Ils recommandent désormais de traiter ces agents comme des systèmes fondamentalement non fiables, à l’instar des processus gérés par les systèmes d’exploitation. Cette vision radicale remet en cause l’idée que le renforcement des modèles ou les mécanismes de prompt engineering suffisent à assurer la sécurité.
Cinq principes fondamentaux pour une sécurité efficace
L’étude propose cinq principes clés inspirés des décennies de recherche en sécurité système :
- Le principe du moindre privilège
- L’intégrité et la non-réputabilité de la base de confiance (TCB)
- La médiation complète
- Les flux d’information sécurisés
- La prise en compte de l’humain comme facteur de vulnérabilité
Ces principes ont été validés à travers l’analyse de 11 attaques réelles contre des agents IA, dont la fuite de données de ChatGPT sur macOS et l’attaque AgentFlayer ciblant Cursor. Tous ces incidents violaient le principe de flux d’information sécurisé, et la plupart négligeaient le moindre privilège.
Les défis technologiques persistants
Les chercheurs identifient trois mécanismes critiques encore non résolus :
- La séparation des commandes et des données
- La création de politiques de moindre privilège vérifiables
- Le contrôle des flux d’information
Ils critiquent l’approche actuelle de défense en profondeur par empilement de modèles, soulignant que les garde-fous partagent souvent les mêmes failles statistiques que les agents qu’ils surveillent.
Vers de nouveaux outils de détection
Une étude complémentaire révèle l’inadéquation des solutions EDR actuelles pour analyser les processus cognitifs des agents IA. Les chercheurs proposent un nouveau cadre ADR (Agentic Detection and Response) qui a démontré une efficacité supérieure dans la détection des attaques, avec un taux de faux positifs nul.
Cette recherche marque un tournant dans la conception de la sécurité des systèmes autonomes, exigeant une refonte complète des approches traditionnelles pour faire face aux nouvelles menaces posées par les agents intelligents.