🚨 NVIDIAは、数兆パラメータのAIモデルを訓練するための設計図を発表しました。 そして、次世代モデルが現代のLLMをはるかに超えてスケールする可能性を静かに説明しています。 本論文は、世界最大級のモデルの訓練に使われたのと同じインフラファミリーであるメガトロンコアを用いて、ミクスチャー・オブ・エキスパート(MoE)モデルの訓練システムを紹介しています。 MoEの核心的な考え方はシンプルですが力強いものです: すべてのトークンでモデル全体を起動するのではなく、システムは各トークンをごく少数の専門的な「エキスパート」にルーティングします。 つまり、トークンごとに計算量を増やさなくても、全体のパラメータを大幅にスケールさせることができます。 理論的には次のようになります: • 兆パラメータ容量 • トークンごとの密度モデルレベルの計算 ・大幅な効率向上 しかし実際には、すべてが壊れてしまいます。 MoEモデルのトレーニングは、3つのシステム層で悪夢のような状態を生み出します。 記憶。コミュニケーション。計算。 一方を最適化すると、他はボトルネックになります。 NVIDIAのソリューションは、基本的にトレーニングパイプライン全体のフルスタック共同設計です。 彼らは複数のシステムレベルの最適化を導入しました。 ...