Google lance l'Agentic Data Cloud pour transformer les données en contexte pour les agents IA

Google repense son portefeuille de données et d’analyses avec l’Agentic Data Cloud, une architecture visant à faire passer l’IA d’entreprise du stade de pilote à celui de production. Cette initiative transforme les données fragmentées en une couche sémantique unifiée, permettant aux agents d’agir de manière plus fiable à grande échelle. L’architecture s’appuie sur la stratégie existante de Google, intégrant des services comme BigQuery, Dataplex et Vertex AI, tout en améliorant leurs capacités en matière de métadonnées, de gouvernance et d’interopérabilité multi-cloud.

Une couche d’intelligence partagée

Au cœur de cette nouvelle architecture se trouve la Knowledge Catalog, une évolution du Dataplex Universal Catalog. Cette solution étend la fondation des métadonnées en une couche sémantique, cartographiant les significations et relations commerciales à travers différentes sources de données. Parmi ses nouvelles capacités, on trouve le support natif pour les catalogues tiers, des applications comme Salesforce, Palantir, Workday, SAP et ServiceNow, ainsi que l’option de déplacer les données tierces vers le lakehouse de Google, qui les mappe automatiquement au Knowledge Catalog.

Pour capturer plus directement la logique métier des données stockées dans Google Cloud, la société ajoute des outils comme un agent basé sur LookML, actuellement en prévisualisation, capable de dériver des sémantiques à partir de la documentation. BigQuery propose également une nouvelle fonctionnalité en prévisualisation, permettant aux entreprises d’intégrer cette logique métier pour une analyse plus rapide des données.

L’enrichissement continu du contexte sémantique

Le catalogue lui-même est conçu pour enrichir en continu le contexte sémantique en analysant l’utilisation des données à travers l’entreprise. Cela inclut le profilage des ensembles de données structurées ainsi que l’étiquetage et l’annotation du contenu non structuré stocké dans Google Cloud Storage. Le système sous-jacent peut également inférer des structures manquantes dans les données en utilisant ses modèles Gemini pour générer des schémas et identifier des relations.

La bataille du contexte sémantique pour l’IA

Pour les analystes, la focalisation de Google sur les sémantiques cible l’un des plus grands obstacles à l’IA en production pour les entreprises. Dion Hinchcliffe, responsable de la pratique CIO au sein du groupe The Futurum Group, souligne que « le problème d’IA le plus difficile est la signification inconsistante ». Une couche sémantique unifiée pourrait aider les CIO à établir un contexte commercial cohérent à travers les systèmes, réduisant ainsi le besoin pour les développeurs de rassembler manuellement les métadonnées et la lignée.

Cette approche reflète une tendance plus large chez les hyperscalers. Microsoft avec Fabric IQ et AWS avec Nova Forge poursuivent des stratégies similaires, construisant des couches de contexte sémantique sur les données d’entreprise pour rendre les systèmes d’IA plus cohérents et faciles à opérationnaliser à grande échelle.

Les défis de la précision sémantique

Cependant, l’approche de Google pour construire une couche sémantique intelligente, en particulier son Knowledge Catalog évolué, présente des risques pour les CIO. Jim Hare, vice-président analyste chez Gartner, met en garde contre l’amplification des défis de gouvernance, notamment en matière de gestion des métadonnées : « Dans les domaines d’entreprise complexes, les erreurs dans les relations ou définitions inférées nécessiteront une supervision humaine continue du domaine pour maintenir la confiance. »

Hare souligne également les défis opérationnels et de gestion des coûts : « Les flux de travail pilotés par des agents, couvrant les données analytiques et opérationnelles, potentiellement à travers plusieurs clouds, introduiront de nouveaux défis en matière d’observabilité, de débogage et de prévisibilité des coûts. » Le comportement dynamique des agents peut générer des modèles de consommation opaques, nécessitant une gestion étroite de l’attribution des coûts, des limites d’utilisation et des garde-fous opérationnels par les responsables des données et de l’analyse.

L’adoption de cette nouvelle approche architecturale pourrait également augmenter la dépendance au niveau de l’orchestration, posant des problèmes de portabilité. « Quitter les sémantiques gérées par Google, les agents Gemini ou les abstractions BigQuery pourrait être plus difficile que de migrer les données seules », avertit Hare.

En conclusion, l’Agentic Data Cloud de Google représente une avancée significative dans la transformation des données en contexte pour les agents IA, mais elle s’accompagne de défis importants en matière de gouvernance, d’observabilité et de coûts que les entreprises devront gérer avec soin.