DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Ihtesham

Investitor, scriitor, educator și fan 🐉 Dragon Ball

🚨 NVIDIA tocmai a lansat un plan pentru antrenarea modelelor AI cu trilioane de parametri. Și explică discret cum următoarea generație de modele va scala mult dincolo de LLM-urile de astăzi. Lucrarea introduce un sistem pentru antrenarea modelelor Mix-of-Experts (MoE) folosind Megatron Core, aceeași familie de infrastructuri folosite pentru antrenarea unora dintre cele mai mari modele din lume. Ideea cheie din spatele MoE este simplă, dar puternică: În loc să activeze întregul model pentru fiecare token, sistemul direcționează fiecare token către doar câțiva "experți" specializați. Asta înseamnă că poți scala masiv parametrii totali fără să crești calculul pentru fiecare token. Teoretic, acest lucru îți oferă: • Capacitate de un trilion de parametri • Calcul la nivel de model dens per token • Câștiguri masive de eficiență Dar în practică, strică totul. Antrenarea modelelor MoE creează un coșmar în trei straturi de sisteme: Memorie. Comunicare. Calcul. Optimizează unul și blochezi celelalte. Soluția NVIDIA este practic co-proiectarea full-stack a întregului flux de antrenament. Au introdus multiple optimizări la nivel de sistem: • Recalcul detaliat și deconectare a memoriei pentru controlul presiunii memoriei pe GPU • Dispecererii de tokenuri optimizați astfel încât tokenurile să poată fi rutate eficient între experți • Grafice GEMM + CUDA grupate pentru maximizarea utilizării calculului GPU • Pliere paralelă, care permite paralelism multidimensional flexibil între GPU-uri • Antrenament de precizie redusă (FP8 / NVFP4) pentru a reduce dramatic costurile de calcul Toate acestea se desfășoară în cadrul stack-ului open-source de antrenament pentru modele mari de la Megatron Core, de la NVIDIA. Cifrele de performanță sunt absurde. Despre cele mai noi sisteme GPU NVIDIA: • 1.233 TFLOPS per GPU antrenând DeepSeek-V3-685B • 974 TFLOPS per GPU Training Qwen3-235B Și cadrul se scalează deja pe mii de GPU-uri în clustere de producție. Povestea mai mare aici nu este doar antrenamentul mai rapid. Este direcția arhitecturii AI. Modelele dense scalează liniar cu calculul. Modelele MoE scalează aproape exponențial cu parametrii, păstrând totodată calculul gestionabil. Așa se obține: Modele cu parametri 100B → 1T → 10T. Același buget de calcul. Doar o rutare mai inteligentă. Dacă următorul val de modele de frontieră va exploda din nou în dimensiune, această lucrare explică exact cum vor fi instruite. Lucrare: Antrenament scalabil al modelelor de amestec de experți cu nucleul Megatron

Limită superioară

Clasament

Favorite