DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Ihtesham

Investor, Autor, Pädagoge und Dragon Ball-Fan 🐉

🚨 NVIDIA hat gerade einen Plan für das Training von KI-Modellen mit einer Billion Parametern veröffentlicht. Und es erklärt leise, wie die nächste Generation von Modellen weit über die heutigen LLMs hinaus skalieren wird. Das Papier stellt ein System zum Training von Mixture-of-Experts (MoE) Modellen vor, das Megatron Core verwendet, die gleiche Infrastruktur, die zum Training einiger der größten Modelle der Welt eingesetzt wird. Die Grundidee hinter MoE ist einfach, aber mächtig: Anstatt das gesamte Modell für jedes Token zu aktivieren, leitet das System jedes Token nur an einige spezialisierte "Experten" weiter. Das bedeutet, dass Sie die Gesamtzahl der Parameter massiv skalieren können, ohne die Rechenleistung für jedes Token zu erhöhen. In der Theorie gibt Ihnen das: • Kapazität von einer Billion Parametern • Dichte-Modell-Rechenleistung pro Token • Massive Effizienzgewinne Aber in der Praxis bricht es alles zusammen. Das Training von MoE-Modellen schafft einen Albtraum über drei Systemschichten: Speicher. Kommunikation. Berechnung. Einen zu optimieren, führt zu Engpässen bei den anderen. NVIDIAs Lösung ist im Wesentlichen ein Full-Stack-Co-Design der gesamten Trainingspipeline. Sie haben mehrere systemweite Optimierungen eingeführt: • Fein abgestimmte Neuberechnung & Speicherentlastung zur Kontrolle des GPU-Speicherdrucks • Optimierte Token-Dispatcher, damit Tokens effizient zwischen Experten weitergeleitet werden können • Gruppierte GEMM + CUDA-Grafiken zur Maximierung der GPU-Rechenleistung • Paralleles Falten, das flexibles mehrdimensionales Parallelisieren über GPUs ermöglicht • Niedrigpräzises Training (FP8 / NVFP4), um die Rechenkosten drastisch zu senken All dies läuft innerhalb von Megatron Core, NVIDIAs Open-Source-Trainings-Stack für große Modelle. Die Leistungszahlen sind absurd. Auf NVIDIAs neuesten GPU-Systemen: • 1.233 TFLOPS pro GPU beim Training von DeepSeek-V3-685B • 974 TFLOPS pro GPU beim Training von Qwen3-235B Und das Framework skaliert bereits über Tausende von GPUs in Produktionsclustern. Die größere Geschichte hier ist nicht nur schnelleres Training. Es ist die Richtung der KI-Architektur. Dichte Modelle skalieren linear mit der Rechenleistung. MoE-Modelle skalieren fast exponentiell mit den Parametern, während die Rechenleistung überschaubar bleibt. So erhalten Sie: 100B → 1T → 10T Parameter-Modelle. Das gleiche Rechenbudget. Nur intelligenteres Routing. Wenn die nächste Welle von Grenzmodellen erneut in der Größe explodiert, erklärt dieses Papier genau, wie sie trainiert werden. Papier: Skalierbares Training von Mixture-of-Experts-Modellen mit Megatron Core

Top

Ranking

Favoriten