Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Ihtesham

інвестор, письменник, педагог і фанат 🐉 Dragon Ball

Студент комп'ютерних наук у MIT закінчив останній семестр із середнім балом 4.0. Я знайшов його робочий процес у NotebookLM, захований у темі на Reddit о 2-й ночі. Він видалив його через годину. Ось що саме він робив. Він ніколи не завантажував слайди лекцій і не просив резюме. Його першим завданням завжди було: «Ось мої нотатки, розділ підручника та минулорічні іспити. Наведіть мені три способи, якими професори обманюють студентів на іспитах цією концепцією. Потім створити проблему, яка поєднує її з усім, що було за останні 3 тижні." Він не вивчав матеріал. Він вивчав, як матеріали використовують як зброю проти тебе. Але той рух, через який я закрив ноутбук і втупився в стелю, був його другим. Він завантажував кожне завдання, яке зробив неправильно, за весь семестр. Потім запитав: «Знайди закономірність у моїх помилках. Яке єдине поняття я постійно неправильно розумію в різних формах?» Всі інші студенти використовували NotebookLM як пошукову систему. Він використовував його як дзеркало. Третій запит був збережений як ярлик на телефоні. "Виходячи з моїх конспектацій і цих попередніх завдань, до якої теми я зараз найменше готовий? Дайте мені 5 питань, які найімовірніше з'являться на моєму фінальному іспиті, на які я ще не можу відповісти.» Три підказки. Щотижня. Поки його однокласники перечитували слайди напередодні фінальних іспитів, він уже точно знав, де провалиться. Потім він це полагодив. Він не вчився наполегливіше. Він просто ніколи не дозволяв собі почуватися комфортно.

🚨 NVIDIA щойно оприлюднила план навчання моделей ШІ з трильйонними параметрами. І це тихо пояснює, як наступне покоління моделей масштабуватиметься далеко за межі сучасних LLM. У статті представлено систему навчання моделей Mix-of-Experts (MoE) за допомогою Megatron Core — тієї ж сімейства інфраструктури, що й для навчання деяких із найбільших моделей світу. Ключова ідея MoE проста, але потужна: Замість активації всієї моделі для кожного токена, система направляє кожен токен лише до кількох спеціалізованих «експертів». Це означає, що можна масштабувати загальні параметри без збільшення обчислювальної потужності для кожного токена. Теоретично це дає вам: • Ємність трильйонів параметрів • Обчислення рівня щільної моделі на токен • Значне підвищення ефективності Але на практиці це руйнує все. Навчання моделей MoE створює кошмар на трьох системних шарах: Пам'ять. Комунікація. Обчислення. Оптимізуй один — і ти закриваєш інші вузьке місце. Рішення NVIDIA фактично є повностековим спільним проектуванням усього навчального процесу. Вони впровадили кілька оптимізацій на рівні системи: • Детальне повторне обчислення та розвантаження пам'яті для контролю тиску в пам'яті GPU • Оптимізовані диспетчери токенів, щоб токени можна було ефективно маршрутизувати між експертами • Груповані графи GEMM + CUDA для максимізації використання обчислень GPU • Паралельне складання, що дозволяє гнучкий багатовимірний паралелізм між GPU • Низькоточне навчання (FP8 / NVFP4) для суттєвого зниження обчислювальних витрат Усе це працює всередині відкритого навчального стеку великих моделей Megatron Core, NVIDIA. Показники продуктивності абсурдні. Про найновіші GPU-системи NVIDIA: • 1 233 TFLOPS на навчання GPU DeepSeek-V3-685B • 974 TFLOPS на навчання GPU Qwen3-235B І фреймворк вже масштабується на тисячі GPU у виробничих кластерах. Головна історія тут — це не лише швидше тренування. Це напрямок архітектури ШІ. Щільні моделі масштабуються лінійно за допомогою обчислень. Моделі MoE масштабуються майже експоненціально залежно від параметрів, при цьому обчислювальна система залишаються керованими. Ось як ви отримуєте: 100B → моделі з параметрами 1T → 10T. Такий самий обчислювальний бюджет. Просто розумніший маршрутизатор. Якщо наступна хвиля моделей фронтиру знову вибухне в розмірах, ця стаття пояснює, як саме їх навчатимуть. Стаття: Масштабоване навчання моделей суміші експертів із ядром Мегатрона

Найкращі

Рейтинг

Вибране