🚨 NVIDIA baru saja menjatuhkan cetak biru untuk melatih model AI triliunan parameter. Dan itu diam-diam menjelaskan bagaimana model generasi berikutnya akan berskala jauh melampaui LLM saat ini. Makalah ini memperkenalkan sistem untuk melatih model Mixture-of-Experts (MoE) menggunakan Megatron Core, keluarga infrastruktur yang sama yang digunakan untuk melatih beberapa model terbesar di dunia. Ide utama di balik MoE sederhana tetapi kuat: Alih-alih mengaktifkan seluruh model untuk setiap token, sistem merutekan setiap token hanya ke beberapa "ahli" khusus. Itu berarti Anda dapat menskalakan parameter total secara besar-besaran tanpa meningkatkan komputasi untuk setiap token. Secara teori ini memberi Anda: • Kapasitas triliunan parameter • Komputasi tingkat model padat per token • Peningkatan efisiensi besar-besaran Tapi dalam praktiknya, itu merusak segalanya. Melatih model MoE menciptakan mimpi buruk di tiga lapisan sistem: Memori. Komunikasi. Perhitungan. Optimalkan satu dan Anda menghambat yang lain. Solusi NVIDIA pada dasarnya adalah desain bersama full-stack dari seluruh pipeline pelatihan. Mereka memperkenalkan beberapa pengoptimalan tingkat sistem: ...