Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 NVIDIA только что выпустила план по обучению ИИ-моделей с триллионом параметров.
И в нем тихо объясняется, как следующее поколение моделей будет масштабироваться далеко за пределы сегодняшних LLM.
В статье представлена система для обучения моделей Mixture-of-Experts (MoE) с использованием Megatron Core, той же инфраструктуры, которая используется для обучения некоторых из крупнейших моделей в мире.
Ключевая идея MoE проста, но мощна:
Вместо активации всей модели для каждого токена система направляет каждый токен только к нескольким специализированным «экспертам».
Это означает, что вы можете масштабировать общее количество параметров значительно, не увеличивая вычисления для каждого токена.
В теории это дает вам:
• Вместимость в триллион параметров
• Вычисления на уровне плотной модели для каждого токена
• Огромные приросты эффективности
Но на практике это ломает все.
Обучение моделей MoE создает кошмар на трех уровнях систем:
Память. Связь. Вычисления.
Оптимизируйте одно, и вы создаете узкое место для других.
Решение NVIDIA по сути представляет собой совместный дизайн всей обучающей цепочки.
Они представили несколько оптимизаций на уровне системы:
...

Топ
Рейтинг
Избранное
