OpenAI, AMD, Broadcom, Intel, Microsoft et Nvidia ont collaboré pour développer MRC (Multipath Reliable Connection), un protocole innovant visant à résoudre les problèmes de congestion réseau dans le traitement des données massives pour l’IA. Ce protocole, conçu spécifiquement pour les environnements d’apprentissage de modèles géants utilisant des centaines de milliers de GPU, marque une avancée significative dans la gestion des trafics réseau.
Un protocole conçu pour l’échelle
Le MRC adopte une approche révolutionnaire en distribuant le trafic sur des centaines de chemins réseau simultanément, évitant ainsi la concentration du trafic sur quelques routes. OpenAI souligne que les congestions réseau et les pannes d’équipements sont parmi les causes principales des retards et de la variabilité dans la transmission des données. À mesure que les clusters d’apprentissage augmentent en taille, ces problèmes deviennent plus fréquents et difficiles à résoudre. Une seule panne peut interrompre les travaux d’apprentissage, nécessitant un redémarrage à partir des points de contrôle sauvegardés, entraînant des pertes de temps et de ressources considérables.
Une collaboration technologique majeure
Le développement du MRC a été piloté par OpenAI, avec des contributions techniques majeures de AMD, Broadcom, Intel, Microsoft et Nvidia. Ce projet est supervisé par le consortium Open Compute Project (OCP). Nvidia a intégré son technologie Spectrum-X Ethernet dans le protocole MRC, soulignant son utilisation actuelle dans certains des plus grands clusters d’apprentissage d’IA au monde, y compris ceux utilisés pour l’entraînement des modèles de langage avancés comme ChatGPT et Codex. Spectrum-X est également déployé dans les infrastructures cloud de Microsoft (Fairwater) et d’Oracle (Abilene), des installations conçues pour l’apprentissage et le déploiement de grands modèles de langage.
Des performances optimisées
Le MRC améliore l’utilisation des GPU en distribuant équitablement le trafic sur toutes les routes disponibles et évite les chemins surchargés en temps réel, réduisant ainsi la congestion réseau. Contrairement aux structures réseau traditionnelles qui nécessitent plusieurs secondes à quelques dizaines de secondes pour se stabiliser après une panne, le MRC permet la poursuite ininterrompue des travaux d’apprentissage. De plus, il offre aux administrateurs un tableau de bord unique pour surveiller et contrôler finement le trafic réseau.
OpenAI indique que la conception multi-plans du MRC permet de connecter plus de 100 000 GPU avec seulement deux niveaux d’interrupteurs Ethernet, contre trois à quatre niveaux nécessaires pour les réseaux 800Gb/s traditionnels. Les spécifications techniques du MRC ont été publiées par l’OCP, accompagnées d’un article de recherche détaillé.
Cette innovation représente une étape cruciale pour l’avenir des infrastructures d’IA, promettant des gains significatifs en efficacité et en résilience pour les projets d’apprentissage de modèles massifs.**