分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

🚨 NVIDIAは、数兆パラメータのAIモデルを訓練するための設計図を発表しました。そして、次世代モデルが現代のLLMをはるかに超えてスケールする可能性を静かに説明しています。本論文は、世界最大級のモデルの訓練に使われたのと同じインフラファミリーであるメガトロンコアを用いて、ミクスチャー・オブ・エキスパート(MoE)モデルの訓練システムを紹介しています。 MoEの核心的な考え方はシンプルですが力強いものです: すべてのトークンでモデル全体を起動するのではなく、システムは各トークンをごく少数の専門的な「エキスパート」にルーティングします。つまり、トークンごとに計算量を増やさなくても、全体のパラメータを大幅にスケールさせることができます。理論的には次のようになります: • 兆パラメータ容量 • トークンごとの密度モデルレベルの計算・大幅な効率向上しかし実際には、すべてが壊れてしまいます。 MoEモデルのトレーニングは、3つのシステム層で悪夢のような状態を生み出します。記憶。コミュニケーション。計算。一方を最適化すると、他はボトルネックになります。 NVIDIAのソリューションは、基本的にトレーニングパイプライン全体のフルスタック共同設計です。彼らは複数のシステムレベルの最適化を導入しました。 ...

トップ

ランキング

お気に入り