DApp Store | Centrum Web3 pro události a hry

Populární témata

Ihtesham

Investor, spisovatel, pedagog a fanoušek 🐉 Dragon Ballu

🚨 NVIDIA právě vydala plán na trénování AI modelů s biliony parametrů. A tiše vysvětluje, jak se příští generace modelů rozšíří daleko za dnešní LLM. Článek představuje systém pro trénink modelů Mixture-of-Experts (MoE) využívající Megatron Core, stejnou rodinu infrastruktury, která se používá k trénování některých z největších modelů na světě. Klíčová myšlenka MoE je jednoduchá, ale silná: Místo aktivace celého modelu pro každý token systém směruje každý token jen několika specializovaným "expertům". To znamená, že můžete masivně škálovat celkové parametry, aniž byste zvyšovali výpočetní náklady pro každý token. Teoreticky to dává: • Kapacita v bilionových parametrech • Výpočet na úrovni hustého modelu na token • Obrovské zvýšení efektivity Ale v praxi to všechno rozbije. Trénování MoE modelů vytváří noční můru napříč třemi vrstvami systémů: Paměť. Komunikace. Výpočty. Optimalizujte jednu a ostatní zúžíte v úzkém místě. Řešení NVIDIA je v podstatě full-stack spolunávrh celého tréninkového procesu. Zavedli několik optimalizací na úrovni systému: • Jemnozrnné přepočítání a zatěžování paměti pro kontrolu tlaku paměti GPU • Optimalizované tokenové dispečery, aby tokeny mohly být efektivně směrovány mezi experty • Seskupení grafů GEMM + CUDA pro maximalizaci využití výpočetní kapacity GPU • Paralelní skládání, umožňující flexibilní vícerozměrný paralelismus napříč GPU • Nízkopřesné školení (FP8 / NVFP4) pro dramatické snížení výpočetních nákladů To vše běží uvnitř open-source velkého modelového tréninkového stacku Megatron Core NVIDIA NVIDIA. Výkonnostní čísla jsou absurdní. O nejnovějších GPU systémech od NVIDIA: • 1 233 TFLOPS na trénování GPU DeepSeek-V3-685B • 974 TFLOPS na trénování GPU Qwen3-235B A framework už škáluje přes tisíce GPU v produkčních clusterech. Větší příběh zde není jen rychlejší trénink. Je to směr architektury AI. Husté modely škálují lineárně s výpočetními kapacitami. Modely MoE škálují téměř exponenciálně s parametry, přičemž udržují výpočetní kapacitu zvládnutelnou. Takto se dostanete: Modely 100B → 1T → 10T parametrů. Stejný výpočetní rozpočet. Jen chytřejší trasování. Pokud další vlna modelů hranic opět exploduje na velikosti, tento článek přesně vysvětluje, jak budou trénovány. Článek: Škálovatelný trénink modelů směsi expertů s jádrem Megatron

Top

Hodnocení

Oblíbené