🚨 NVIDIA щойно оприлюднила план навчання моделей ШІ з трильйонними параметрами. І це тихо пояснює, як наступне покоління моделей масштабуватиметься далеко за межі сучасних LLM. У статті представлено систему навчання моделей Mix-of-Experts (MoE) за допомогою Megatron Core — тієї ж сімейства інфраструктури, що й для навчання деяких із найбільших моделей світу. Ключова ідея MoE проста, але потужна: Замість активації всієї моделі для кожного токена, система направляє кожен токен лише до кількох спеціалізованих «експертів». Це означає, що можна масштабувати загальні параметри без збільшення обчислювальної потужності для кожного токена. Теоретично це дає вам: • Ємність трильйонів параметрів • Обчислення рівня щільної моделі на токен • Значне підвищення ефективності Але на практиці це руйнує все. Навчання моделей MoE створює кошмар на трьох системних шарах: Пам'ять. Комунікація. Обчислення. Оптимізуй один — і ти закриваєш інші вузьке місце. Рішення NVIDIA фактично є повностековим спільним проектуванням усього навчального процесу. Вони впровадили кілька оптимізацій на рівні системи: ...