Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ihtesham
Investor, spisovatel, pedagog a fanoušek 🐉 Dragon Ballu
Student informatiky na MIT zakončil poslední semestr s průměrem 4.0.
Jeho pracovní postup v NotebookLM jsem našel schovaný v vlákně na Redditu ve 2 ráno. O hodinu později ji smazal.
Tady je přesně to, co dělal.
Nikdy nenahrával přednáškové snímky a nežádal shrnutí.
Jeho první podnět byl vždycky: "Tady jsou mé poznámky, kapitola z učebnice a loňské testy z minulých let. Uveďte mi tři způsoby, jak profesoři oklamou studenty u zkoušek tímto konceptem. Pak vygenerujte úlohu, která ji spojí se vším z posledních 3 týdnů."
Nestudoval látku.
Studoval, jak se materiál zneužívá proti vám.
Ale ten krok, kvůli kterému jsem zavřela notebook a zírala do stropu, byl jeho druhý.
Nahrával každý úkol, který za celý semestr udělal špatně.
Pak se zeptal: "Najděte vzorec v mých chybách. Jaký je ten jeden pojem, kterému pořád v různých podobách špatně rozumím?"
Každý jiný student používal NotebookLM jako vyhledávač.
Používal ho jako zrcadlo.
Třetí výzvu si uložil jako zkratku v telefonu.
"Podle mých poznámek a těchto testů z minulosti, na jaké téma jsem teď nejméně připravený? Dej mi těch 5 otázek, které se nejpravděpodobněji objeví na závěrečné zkoušce, na které zatím neumím odpovědět."
Tři podněty. Každý jeden týden.
Zatímco jeho spolužáci si večer před zkouškami znovu četli snímky, on už přesně věděl, kde selže.
Pak to opravil.
Nestudoval víc.
Nikdy si prostě nedovolil cítit se pohodlně.

6
🚨 NVIDIA právě vydala plán na trénování AI modelů s biliony parametrů.
A tiše vysvětluje, jak se příští generace modelů rozšíří daleko za dnešní LLM.
Článek představuje systém pro trénink modelů Mixture-of-Experts (MoE) využívající Megatron Core, stejnou rodinu infrastruktury, která se používá k trénování některých z největších modelů na světě.
Klíčová myšlenka MoE je jednoduchá, ale silná:
Místo aktivace celého modelu pro každý token systém směruje každý token jen několika specializovaným "expertům".
To znamená, že můžete masivně škálovat celkové parametry, aniž byste zvyšovali výpočetní náklady pro každý token.
Teoreticky to dává:
• Kapacita v bilionových parametrech
• Výpočet na úrovni hustého modelu na token
• Obrovské zvýšení efektivity
Ale v praxi to všechno rozbije.
Trénování MoE modelů vytváří noční můru napříč třemi vrstvami systémů:
Paměť. Komunikace. Výpočty.
Optimalizujte jednu a ostatní zúžíte v úzkém místě.
Řešení NVIDIA je v podstatě full-stack spolunávrh celého tréninkového procesu.
Zavedli několik optimalizací na úrovni systému:
• Jemnozrnné přepočítání a zatěžování paměti pro kontrolu tlaku paměti GPU
• Optimalizované tokenové dispečery, aby tokeny mohly být efektivně směrovány mezi experty
• Seskupení grafů GEMM + CUDA pro maximalizaci využití výpočetní kapacity GPU
• Paralelní skládání, umožňující flexibilní vícerozměrný paralelismus napříč GPU
• Nízkopřesné školení (FP8 / NVFP4) pro dramatické snížení výpočetních nákladů
To vše běží uvnitř open-source velkého modelového tréninkového stacku Megatron Core NVIDIA NVIDIA.
Výkonnostní čísla jsou absurdní.
O nejnovějších GPU systémech od NVIDIA:
• 1 233 TFLOPS na trénování GPU DeepSeek-V3-685B
• 974 TFLOPS na trénování GPU Qwen3-235B
A framework už škáluje přes tisíce GPU v produkčních clusterech.
Větší příběh zde není jen rychlejší trénink.
Je to směr architektury AI.
Husté modely škálují lineárně s výpočetními kapacitami.
Modely MoE škálují téměř exponenciálně s parametry, přičemž udržují výpočetní kapacitu zvládnutelnou.
Takto se dostanete:
Modely 100B → 1T → 10T parametrů.
Stejný výpočetní rozpočet.
Jen chytřejší trasování.
Pokud další vlna modelů hranic opět exploduje na velikosti, tento článek přesně vysvětluje, jak budou trénovány.
Článek: Škálovatelný trénink modelů směsi expertů s jádrem Megatron

7
Top
Hodnocení
Oblíbené

