🚨 NVIDIA har nettopp sluppet en plan for trening av billion-parameter AI-modeller. Og den forklarer stille hvordan neste generasjon modeller vil skalere langt utover dagens LLM-er. Artikkelen introduserer et system for å trene Mixture-of-Experts (MoE)-modeller ved bruk av Megatron Core, den samme infrastrukturfamilien som brukes til å trene noen av verdens største modeller. Hovedideen bak MoE er enkel, men kraftfull: I stedet for å aktivere hele modellen for hver token, ruter systemet hver token til bare noen få spesialiserte «eksperter». Det betyr at du kan skalere totale parametere massivt uten å øke beregningen for hver token. I teorien gir dette deg: • Billion-parameter kapasitet • Beregning på tettmodellnivå per token • Store effektivitetsgevinster Men i praksis ødelegger det alt. Trening av MoE-modeller skaper et mareritt på tvers av tre systemlag: Minne. Kommunikasjon. Beregning. Optimaliser du én, får du flaskehals på de andre. NVIDIAs løsning er i bunn og grunn fullstack co-design av hele treningspipelinen. De introduserte flere optimaliseringer på systemnivå: ...