Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ihtesham
investerare, författare, pedagog och Dragon Ball-fan 🐉
🚨 NVIDIA släppte precis en ritning för att träna AI-modeller med biljoner parametrar.
Och det förklarar tyst hur nästa generation modeller kommer att skalas långt bortom dagens LLM:er.
Artikeln introducerar ett system för träning av Mixture-of-Experts (MoE)-modeller med Megatron Core, samma familj av infrastruktur som används för att träna några av världens största modeller.
Huvudidén bakom MoE är enkel men kraftfull:
Istället för att aktivera hela modellen för varje token leder systemet varje token till endast några få specialiserade "experter."
Det betyder att du kan skala totala parametrar massivt utan att öka beräkningen för varje token.
I teorin ger detta dig:
• Biljon-parameter kapacitet
• Beräkning på tät modellnivå per token
• Massiva effektivitetsvinster
Men i praktiken förstör det allt.
Att träna MoE-modeller skapar en mardröm över tre systemlager:
Minne. Kommunikation. Beräkning.
Optimera en och du flaskhalsar de andra.
NVIDIAs lösning är i princip fullstack co-design av hela träningspipelinen.
De introducerade flera systemnivåoptimeringar:
• Finkornig omberäkning och minnesavlastning för att kontrollera GPU-minnestrycket
• Optimerade token-dispatchers så att tokens effektivt kan skickas mellan experter
• Grupperade GEMM + CUDA-grafer för att maximera GPU:s beräkningsutnyttjande
• Parallell vikning, som möjliggör flexibel multidimensionell parallellism över GPU:er
• Lågprecisionsträning (FP8 / NVFP4) för att dramatiskt minska beräkningskostnaderna
Allt detta körs i Megatron Core NVIDIAs öppna källkods-träningsstack för stora modeller.
Prestandasiffrorna är absurda.
Om NVIDIAs nyaste GPU-system:
• 1 233 TFLOPS per GPU-träning DeepSeek-V3-685B
• 974 TFLOPS per GPU-träning Qwen3-235B
Och ramverket skalar redan över tusentals GPU:er i produktionskluster.
Den större historien här handlar inte bara om snabbare träning.
Det är AI-arkitekturens riktning.
Täta modeller skalar linjärt med beräkning.
MoE-modeller skalar nästan exponentiellt med parametrar samtidigt som beräkningen hålls hanterbar.
Så här får man:
100B → 1T → 10T parametermodeller.
Samma beräkningsbudget.
Bara smartare ruttning.
Om nästa våg av frontier-modeller exploderar i storlek igen förklarar denna artikel exakt hur de kommer att tränas.
Artikel: Skalbar träning av blandningsmodeller med Megatron-kärna

Topp
Rankning
Favoriter


