Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ihtesham
Inwestor, pisarz, edukator i fan 🐉 Dragon Balla
Student informatyki na MIT zakończył swój ostatni semestr z GPA 4.0.
Znalazłem jego workflow NotebookLM ukryte w wątku na Reddicie o 2 w nocy. Usunął je godzinę później.
Oto dokładnie, co robił.
Nigdy nie przesyłał slajdów wykładowych i prosił o podsumowanie.
Jego pierwsza prośba zawsze brzmiała: "Oto moje notatki, rozdział z podręcznika i zeszłoroczne egzaminy. Podaj mi 3 sposoby, w jakie profesorowie oszukują studentów na egzaminach z tym pojęciem. Następnie wygeneruj problem, który łączy to ze wszystkim z ostatnich 3 tygodni."
Nie uczył się materiału.
Uczył się, jak materiał jest wykorzystywany przeciwko niemu.
Ale ruch, który sprawił, że zamknąłem laptopa i wpatrywałem się w sufit, to jego drugi krok.
Przesłał każde zadanie, które źle rozwiązał przez cały semestr.
Następnie zapytał: "Znajdź wzór w moich błędach. Jakie jedno pojęcie wciąż źle rozumiem w różnych formach?"
Każdy inny student używał NotebookLM jako wyszukiwarki.
On używał go jako lustra.
Jego trzecia prośba była zapisana jako skrót na jego telefonie.
"Na podstawie moich notatek i tych egzaminów, z jakim tematem jestem teraz najmniej przygotowany? Podaj mi 5 pytań, które najprawdopodobniej pojawią się na moim finale, a na które jeszcze nie potrafię odpowiedzieć."
Trzy prośby. Każdego tygodnia.
Podczas gdy jego koledzy z klasy przeglądali slajdy w noc przed egzaminami, on już dokładnie wiedział, gdzie zamierza ponieść porażkę.
Potem to naprawił.
Nie uczył się ciężej.
Po prostu nigdy nie pozwolił sobie poczuć się komfortowo.

8
🚨 NVIDIA właśnie opublikowało plan szkolenia modeli AI o bilionie parametrów.
I cicho wyjaśnia, jak następna generacja modeli będzie skalować się znacznie dalej niż dzisiejsze LLM.
Artykuł wprowadza system do szkolenia modeli Mixture-of-Experts (MoE) przy użyciu Megatron Core, tej samej rodziny infrastruktury używanej do szkolenia niektórych z największych modeli na świecie.
Kluczowa idea stojąca za MoE jest prosta, ale potężna:
Zamiast aktywować cały model dla każdego tokena, system kieruje każdy token tylko do kilku wyspecjalizowanych „ekspertów”.
To oznacza, że możesz masowo zwiększyć całkowitą liczbę parametrów bez zwiększania obliczeń dla każdego tokena.
Teoretycznie daje to:
• Pojemność bilionu parametrów
• Obliczenia na poziomie gęstego modelu na token
• Ogromne zyski efektywności
Ale w praktyce, psuje wszystko.
Szkolenie modeli MoE tworzy koszmar w trzech warstwach systemowych:
Pamięć. Komunikacja. Obliczenia.
Optymalizując jedną, ograniczasz inne.
Rozwiązanie NVIDIA to w zasadzie pełna współpraca projektowa całego procesu szkolenia.
Wprowadzili wiele optymalizacji na poziomie systemu:
• Precyzyjna rekalkulacja i odciążenie pamięci, aby kontrolować nacisk na pamięć GPU
• Optymalizowane dyspozytory tokenów, aby tokeny mogły być efektywnie kierowane między ekspertami
• Grupowane GEMM + CUDA Graphs, aby zmaksymalizować wykorzystanie obliczeń GPU
• Równoległe składanie, umożliwiające elastyczny wielowymiarowy równoległy proces na GPU
• Szkolenie o niskiej precyzji (FP8 / NVFP4), aby dramatycznie obniżyć koszty obliczeń
To wszystko działa w ramach Megatron Core, otwartoźródłowego stosu do szkolenia dużych modeli NVIDIA.
Liczby wydajności są absurdalne.
Na najnowszych systemach GPU NVIDIA:
• 1,233 TFLOPS na GPU podczas szkolenia DeepSeek-V3-685B
• 974 TFLOPS na GPU podczas szkolenia Qwen3-235B
A framework już skaluje się na tysiącach GPU w klastrach produkcyjnych.
Większa historia nie dotyczy tylko szybszego szkolenia.
To kierunek architektury AI.
Gęste modele skalują się liniowo z obliczeniami.
Modele MoE skalują się prawie wykładniczo z parametrami, jednocześnie utrzymując obliczenia w zarządzalnych granicach.
Tak właśnie uzyskujesz:
100B → 1T → 10T modeli parametrów.
Ten sam budżet obliczeniowy.
Tylko mądrzejsze kierowanie.
Jeśli następna fala modeli granicznych znów eksploduje pod względem rozmiaru, ten artykuł wyjaśnia dokładnie, jak będą one szkolone.
Artykuł: Skalowalne szkolenie modeli Mixture-of-Experts z Megatron Core

8
Najlepsze
Ranking
Ulubione

