Anthropic lève le voile sur ses méthodes de confinement pour Claude

La question de la sécurité des produits utilisant l’IA générative est cruciale. Anthropic vient de publier une analyse détaillée de ses techniques de sandboxing, offrant un aperçu rare des mesures prises pour sécuriser Claude et ses dérivés.

Une approche multi-couches pour limiter les risques

L’entreprise utilise une combinaison de techniques pour circonscrire strictement les actions possibles des agents. Parmi celles-ci, on trouve des sandboxes de processus, des machines virtuelles, des limites de système de fichiers et des contrôles d’égress. L’objectif est clair : établir une frontière infranchissable pour empêcher toute exfiltration de données.

Claude.ai, la version web, s’appuie sur gVisor pour créer des environnements isolés. Claude Code, la version locale, utilise Seatbelt sur macOS et Bubblewrap sur Linux. Quant à Claude Cowork, il fonctionne dans une VM complète, utilisant le framework de virtualisation d’Apple sur macOS et HCS sur Windows.

Des leçons tirées des incidents passés

Le document révèle également des vulnérabilités découvertes, comme le vecteur d’exfiltration via l’API api.anthropic.com/v1/files, un incident couvert précédemment par Simon Willison. Ces exemples montrent l’importance d’une vigilance constante dans ce domaine en évolution rapide.

Un outil open source à explorer

Anthropic a également développé srt (Sandbox Runtime), un outil open source qui semble maintenant suffisamment mature pour une adoption sérieuse. Cette solution pourrait bien devenir un standard dans le domaine de la sécurité des applications IA.

Cette transparence est particulièrement bienvenue dans un secteur où les détails techniques sont souvent gardés secrets. Elle permet aux professionnels de la sécurité d’évaluer plus précisément les risques et les protections en place.