Les systèmes d’intelligence artificielle pourraient bientôt se perfectionner plus rapidement que les humains ne peuvent les superviser, relançant ainsi les inquiétudes autour du problème d’alignement. Cette question cruciale, qui consiste à garantir que les IA poursuivent bien les objectifs humains, est au cœur d’un récent article de chercheurs seniors de l’Anthropic Institute.
Marina Favaro, directrice de l’institute, et Jack Clark, cofondateur d’Anthropic, ont esquissé trois scénarios possibles pour l’avenir de l’IA. Le premier voit un ralentissement de l’évolution des capacités des IA, le deuxième anticipe des gains d’efficacité exposant des goulots d’étranglement dans le développement logiciel, et le troisième envisage une autoperfectionnement récursif complet des IA. C’est ce dernier scénario qui motive leur appel à la prudence.
Les risques de désalignement exponentiel
Les modèles avancés pourraient suivre nos besoins, mais ils pourraient aussi s’en éloigner. Les chercheurs soulignent que les rares cas de désalignement observés aujourd’hui pourraient s’amplifier lorsque ces modèles concevront leurs successeurs. Ce phénomène pourrait devenir plus fréquent et moins compréhensible, au point de nous faire perdre le contrôle.
Cette mise en garde intervient alors que les entreprises investissent massivement dans des agents IA autonomes. Gartner prévoit que d’ici 2028, 15% des décisions quotidiennes seront prises par ces agents. Cependant, le cabinet d’analyse anticipe aussi que 40% des entreprises devront décommissionner ces systèmes d’ici 2027 en raison de lacunes de gouvernance.
Vers une gouvernance des agents autonomes
Ashish Banerjee, analyste senior chez Gartner, souligne que les entreprises traitent encore ces agents comme des outils de productivité avancés. Pourtant, ils ressemblent de plus en plus à des travailleurs numériques agissant avec une autorité déléguée. Il recommande aux CIO de les considérer comme des utilisateurs privilégiés plutôt que comme de simples chatbots améliorés.
Les nouveaux risques incluent les actions non autorisées, les lacunes de responsabilité, l’exposition des données et l’utilisation abusive d’outils. Charlie Dai, vice-président chez Forrester, observe que ces défis opérationnels reflètent les préoccupations soulevées par Anthropic. Il insiste sur la nécessité de superviser le comportement en temps réel, les permissions et les limites décisionnelles des agents.
Un cadre de gouvernance inadapté
Les chercheurs de l’Institute for AI Policy and Strategy alertent sur le fait que la société n’est pas préparée à cette évolution. Dans leur rapport, ils soulignent que les mécanismes de gouvernance sont encore à leurs balbutiements. Les cadres initialement conçus pour les modèles génératifs pourraient s’avérer insuffisants face à l’autonomie croissante des systèmes.
Anthropic appelle à une préparation collective parmi les développeurs, les décideurs politiques et autres parties prenantes. Ils suggèrent même que l’industrie pourrait avoir besoin de mécanismes pour ralentir le développement si les capacités progressent plus vite que les garde-fous.
Alors que l’IA continue de transformer notre paysage technologique, la question de son alignement avec les valeurs humaines n’a jamais été aussi pressante.