L’IA est partout, mais où vont vos données ?
Les discussions sur l’intelligence artificielle tournent souvent autour des modèles plus performants, des inférences plus rapides et des agents plus capables. Pourtant, un aspect crucial est souvent négligé : la destination de vos données lorsque elles transitent par un grand modèle de langage (LLM). Qui y a accès ? Sous quelle juridiction sont-elles traitées ? Pourraient-elles améliorer le modèle de quelqu’un d’autre ? Ces questions ne sont pas hypothétiques ; elles surgissent lorsque les régulateurs interrogent la gestion des données personnelles, lorsque les clients s’inquiètent du sort de leurs documents partagés avec un service alimenté par l’IA, ou lorsque les membres du conseil d’administration prennent connaissance des changements de politique chez les grands fournisseurs d’IA.
La gouvernance des données, le parent pauvre de l’adoption de l’IA
La plupart des organisations avec lesquelles je travaille ont dépassé le stade de l’expérimentation. L’IA est intégrée dans les flux de travail, façonne les interactions avec les clients, traite des documents internes et informe les décisions opérationnelles. La question de savoir si l’IA fonctionne a été largement résolue. Ce qui ne l’a pas été, en revanche, c’est de savoir où vont réellement les données lorsqu’elles traversent un LLM. Les réponses à ces questions sont souvent floues, non par manque d’intérêt, mais parce que l’adoption a dépassé la gouvernance. Les équipes ont été encouragées à expérimenter, les pilotes sont devenus des productions, et en chemin, la conversation sur les données a été laissée de côté.
Vos données voyagent plus loin que vous ne le pensez
Lorsque j’aborde les risques de l’IA avec les directeurs des systèmes d’information, la conversation commence presque toujours par la précision des modèles, les hallucinations ou les biais. Rarement quelqu’un commence par : « Savons-nous vraiment où vont nos données lorsque quelqu’un de l’équipe utilise un LLM ? » Cette question est plus importante que beaucoup ne le réalisent. Non pas à cause d’une éventuelle violation hypothétique, mais parce que la plupart des organisations fonctionnent actuellement avec un mélange de niveaux et d’outils LLM sans vision unifiée de l’endroit où les données vont ou sous quelles conditions.
OpenAI, Anthropic et Google fonctionnent tous avec un système à deux niveaux. Au niveau entreprise et API, les engagements sont clairs : vos données ne sont pas utilisées pour l’entraînement des modèles. Mais ces protections ne s’appliquent que si tout le monde dans votre organisation utilise le niveau entreprise. En pratique, cela est rarement le cas. Les équipes s’inscrivent à des comptes gratuits pour tester rapidement les choses. Les employés collent des documents internes dans des outils de niveau consommateur parce que c’est plus rapide que de faire une demande. Les contractants utilisent des abonnements personnels pour le travail client. Rien de tout cela n’est malveillant. Tout cela est invisible pour la direction. Et les niveaux consommateurs fonctionnent selon des règles très différentes.
ChatGPT d’OpenAI peut utiliser les conversations pour l’amélioration du modèle, sauf si l’utilisateur se désabonne. Le niveau gratuit de Gemini fonctionne de manière similaire. En septembre 2025, Anthropic a introduit des changements dans ses conditions d’utilisation pour les consommateurs : les conversations sont désormais éligibles à l’entraînement par défaut, avec une rétention des données passant de 30 jours à cinq ans. C’est le problème d’IA fantôme. Des données corporatives entrant dans des systèmes de niveau consommateur où elles peuvent être conservées pendant des périodes prolongées et traitées selon des conditions que personne dans l’organisation n’a approuvées. Non pas parce que quelqu’un a pris une mauvaise décision, mais parce que personne n’en a pris une délibérée.
La souveraineté des données, un enjeu complexe
Les discussions sur la souveraineté des données se concentrent souvent sur une question : où les données sont-elles stockées ? Dans le contexte de l’IA, cela ne suffit pas. Je travaille à travers le Royaume-Uni, le Golfe et l’Europe. Chaque région se dirige vers une protection des données plus forte, mais elles y parviennent différemment, à des vitesses différentes et avec des attentes différentes. Pour toute organisation opérant à travers les frontières, cela crée de réelles tensions.
En Europe, le RGPD a posé les bases et la loi européenne sur l’IA relève encore plus le niveau. En Arabie Saoudite, la PDPL n’est plus un simple exercice sur papier. La SDAIA a pris 48 décisions d’application en 2025 et publié des règles de transfert transfrontalier exigeant une évaluation des risques en quatre étapes avant que les données personnelles ne quittent le Royaume. Au Qatar, la PDPPL est en place depuis 2016, mais l’application était historiquement légère. Cela a changé fin 2024, avec le Bureau national de la protection des données privées émettant désormais des décisions contraignantes.
Conclusion : vers une gouvernance proactive
Les deux prochaines années ne seront pas définies par ce que l’IA peut faire, mais par qui contrôle ce qu’elle sait. Les organisations doivent prendre le taureau par les cornes et établir des politiques claires pour garantir que leurs données sont traitées de manière sécurisée et conforme. La question n’est plus de savoir si l’IA fonctionne, mais comment elle fonctionne — et où vos données finissent par atterrir.