Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 NVIDIA heeft zojuist een blauwdruk vrijgegeven voor het trainen van AI-modellen met een triljoen parameters.
En het legt stilletjes uit hoe de volgende generatie modellen veel verder zal schalen dan de huidige LLM's.
Het document introduceert een systeem voor het trainen van Mixture-of-Experts (MoE) modellen met behulp van Megatron Core, dezelfde infrastructuur die wordt gebruikt om enkele van de grootste modellen ter wereld te trainen.
Het belangrijkste idee achter MoE is eenvoudig maar krachtig:
In plaats van het hele model te activeren voor elk token, leidt het systeem elk token naar slechts een paar gespecialiseerde "experts."
Dat betekent dat je het totale aantal parameters enorm kunt opschalen zonder de rekencapaciteit voor elk token te verhogen.
In theorie geeft dit je:
• Capaciteit van een triljoen parameters
• Rekencapaciteit op het niveau van dichte modellen per token
• Enorme efficiëntiewinst
Maar in de praktijk breekt het alles.
Het trainen van MoE-modellen creëert een nachtmerrie over drie systeemlagen:
Geheugen. Communicatie. Berekening.
Optimaliseer er één en je bottleneckt de anderen.
NVIDIA's oplossing is in wezen een full-stack co-design van de hele trainingspipeline.
Ze introduceerden meerdere systeemniveau-optimalisaties:
...

Boven
Positie
Favorieten
