🚨 NVIDIA släppte precis en ritning för att träna AI-modeller med biljoner parametrar. Och det förklarar tyst hur nästa generation modeller kommer att skalas långt bortom dagens LLM:er. Artikeln introducerar ett system för träning av Mixture-of-Experts (MoE)-modeller med Megatron Core, samma familj av infrastruktur som används för att träna några av världens största modeller. Huvudidén bakom MoE är enkel men kraftfull: Istället för att aktivera hela modellen för varje token leder systemet varje token till endast några få specialiserade "experter." Det betyder att du kan skala totala parametrar massivt utan att öka beräkningen för varje token. I teorin ger detta dig: • Biljon-parameter kapacitet • Beräkning på tät modellnivå per token • Massiva effektivitetsvinster Men i praktiken förstör det allt. Att träna MoE-modeller skapar en mardröm över tre systemlager: Minne. Kommunikation. Beräkning. Optimera en och du flaskhalsar de andra. NVIDIAs lösning är i princip fullstack co-design av hela träningspipelinen. De introducerade flera systemnivåoptimeringar: ...