トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 NVIDIAは、数兆パラメータのAIモデルを訓練するための設計図を発表しました。
そして、次世代モデルが現代のLLMをはるかに超えてスケールする可能性を静かに説明しています。
本論文は、世界最大級のモデルの訓練に使われたのと同じインフラファミリーであるメガトロンコアを用いて、ミクスチャー・オブ・エキスパート(MoE)モデルの訓練システムを紹介しています。
MoEの核心的な考え方はシンプルですが力強いものです:
すべてのトークンでモデル全体を起動するのではなく、システムは各トークンをごく少数の専門的な「エキスパート」にルーティングします。
つまり、トークンごとに計算量を増やさなくても、全体のパラメータを大幅にスケールさせることができます。
理論的には次のようになります:
• 兆パラメータ容量
• トークンごとの密度モデルレベルの計算
・大幅な効率向上
しかし実際には、すべてが壊れてしまいます。
MoEモデルのトレーニングは、3つのシステム層で悪夢のような状態を生み出します。
記憶。コミュニケーション。計算。
一方を最適化すると、他はボトルネックになります。
NVIDIAのソリューションは、基本的にトレーニングパイプライン全体のフルスタック共同設計です。
彼らは複数のシステムレベルの最適化を導入しました。
...

トップ
ランキング
お気に入り
