DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Ihtesham

Investisseur, écrivain, éducateur et fan 🐉 de Dragon Ball

🚨 NVIDIA vient de publier un plan pour entraîner des modèles d'IA à un trillion de paramètres. Et il explique discrètement comment la prochaine génération de modèles va évoluer bien au-delà des LLM d'aujourd'hui. Le document introduit un système pour entraîner des modèles Mixture-of-Experts (MoE) en utilisant Megatron Core, la même famille d'infrastructure utilisée pour entraîner certains des plus grands modèles au monde. L'idée clé derrière MoE est simple mais puissante : Au lieu d'activer l'ensemble du modèle pour chaque token, le système dirige chaque token vers seulement quelques "experts" spécialisés. Cela signifie que vous pouvez augmenter massivement le nombre total de paramètres sans augmenter le calcul pour chaque token. En théorie, cela vous donne : • Une capacité d'un trillion de paramètres • Un calcul de niveau modèle dense par token • Des gains d'efficacité massifs Mais en pratique, cela casse tout. L'entraînement des modèles MoE crée un cauchemar à travers trois couches de systèmes : Mémoire. Communication. Calcul. Optimisez l'un et vous créez un goulot d'étranglement pour les autres. La solution de NVIDIA est essentiellement une co-conception complète de l'ensemble du pipeline d'entraînement. Ils ont introduit plusieurs optimisations au niveau système : • Recalcul fin et déchargement de mémoire pour contrôler la pression mémoire GPU • Dispatchers de tokens optimisés afin que les tokens puissent être dirigés entre les experts de manière efficace • GEMM groupé + Graphes CUDA pour maximiser l'utilisation du calcul GPU • Pliage parallèle, permettant un parallélisme multidimensionnel flexible à travers les GPU • Entraînement à faible précision (FP8 / NVFP4) pour réduire considérablement le coût de calcul Tout cela fonctionne à l'intérieur de Megatron Core, la pile d'entraînement de grands modèles open-source de NVIDIA. Les chiffres de performance sont absurdes. Sur les nouveaux systèmes GPU de NVIDIA : • 1 233 TFLOPS par GPU en entraînant DeepSeek-V3-685B • 974 TFLOPS par GPU en entraînant Qwen3-235B Et le cadre évolue déjà à travers des milliers de GPU dans des clusters de production. L'histoire plus grande ici n'est pas seulement un entraînement plus rapide. C'est la direction de l'architecture de l'IA. Les modèles denses évoluent linéairement avec le calcul. Les modèles MoE évoluent presque exponentiellement avec les paramètres tout en gardant le calcul gérable. C'est ainsi que vous obtenez : 100B → 1T → 10T modèles de paramètres. Même budget de calcul. Juste un routage plus intelligent. Si la prochaine vague de modèles de pointe explose à nouveau en taille, ce document explique exactement comment ils seront entraînés. Document : Entraînement évolutif des modèles Mixture-of-Experts avec Megatron Core

Meilleurs

Classement

Favoris