Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 NVIDIA щойно оприлюднила план навчання моделей ШІ з трильйонними параметрами.
І це тихо пояснює, як наступне покоління моделей масштабуватиметься далеко за межі сучасних LLM.
У статті представлено систему навчання моделей Mix-of-Experts (MoE) за допомогою Megatron Core — тієї ж сімейства інфраструктури, що й для навчання деяких із найбільших моделей світу.
Ключова ідея MoE проста, але потужна:
Замість активації всієї моделі для кожного токена, система направляє кожен токен лише до кількох спеціалізованих «експертів».
Це означає, що можна масштабувати загальні параметри без збільшення обчислювальної потужності для кожного токена.
Теоретично це дає вам:
• Ємність трильйонів параметрів
• Обчислення рівня щільної моделі на токен
• Значне підвищення ефективності
Але на практиці це руйнує все.
Навчання моделей MoE створює кошмар на трьох системних шарах:
Пам'ять. Комунікація. Обчислення.
Оптимізуй один — і ти закриваєш інші вузьке місце.
Рішення NVIDIA фактично є повностековим спільним проектуванням усього навчального процесу.
Вони впровадили кілька оптимізацій на рівні системи:
...

Найкращі
Рейтинг
Вибране
