Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Ihtesham

Inwestor, pisarz, edukator i fan 🐉 Dragon Balla

🚨 NVIDIA właśnie opublikowało plan szkolenia modeli AI o bilionie parametrów. I cicho wyjaśnia, jak następna generacja modeli będzie skalować się znacznie dalej niż dzisiejsze LLM. Artykuł wprowadza system do szkolenia modeli Mixture-of-Experts (MoE) przy użyciu Megatron Core, tej samej rodziny infrastruktury używanej do szkolenia niektórych z największych modeli na świecie. Kluczowa idea stojąca za MoE jest prosta, ale potężna: Zamiast aktywować cały model dla każdego tokena, system kieruje każdy token tylko do kilku wyspecjalizowanych „ekspertów”. To oznacza, że możesz masowo zwiększyć całkowitą liczbę parametrów bez zwiększania obliczeń dla każdego tokena. Teoretycznie daje to: • Pojemność bilionu parametrów • Obliczenia na poziomie gęstego modelu na token • Ogromne zyski efektywności Ale w praktyce, psuje wszystko. Szkolenie modeli MoE tworzy koszmar w trzech warstwach systemowych: Pamięć. Komunikacja. Obliczenia. Optymalizując jedną, ograniczasz inne. Rozwiązanie NVIDIA to w zasadzie pełna współpraca projektowa całego procesu szkolenia. Wprowadzili wiele optymalizacji na poziomie systemu: • Precyzyjna rekalkulacja i odciążenie pamięci, aby kontrolować nacisk na pamięć GPU • Optymalizowane dyspozytory tokenów, aby tokeny mogły być efektywnie kierowane między ekspertami • Grupowane GEMM + CUDA Graphs, aby zmaksymalizować wykorzystanie obliczeń GPU • Równoległe składanie, umożliwiające elastyczny wielowymiarowy równoległy proces na GPU • Szkolenie o niskiej precyzji (FP8 / NVFP4), aby dramatycznie obniżyć koszty obliczeń To wszystko działa w ramach Megatron Core, otwartoźródłowego stosu do szkolenia dużych modeli NVIDIA. Liczby wydajności są absurdalne. Na najnowszych systemach GPU NVIDIA: • 1,233 TFLOPS na GPU podczas szkolenia DeepSeek-V3-685B • 974 TFLOPS na GPU podczas szkolenia Qwen3-235B A framework już skaluje się na tysiącach GPU w klastrach produkcyjnych. Większa historia nie dotyczy tylko szybszego szkolenia. To kierunek architektury AI. Gęste modele skalują się liniowo z obliczeniami. Modele MoE skalują się prawie wykładniczo z parametrami, jednocześnie utrzymując obliczenia w zarządzalnych granicach. Tak właśnie uzyskujesz: 100B → 1T → 10T modeli parametrów. Ten sam budżet obliczeniowy. Tylko mądrzejsze kierowanie. Jeśli następna fala modeli granicznych znów eksploduje pod względem rozmiaru, ten artykuł wyjaśnia dokładnie, jak będą one szkolone. Artykuł: Skalowalne szkolenie modeli Mixture-of-Experts z Megatron Core

Najlepsze

Ranking

Ulubione