NVIDIAは、ハイブリッドなMamba-Transformer MoEアーキテクチャを持つ人工分析知能指数(Artificial Analysis Intelligence Index)で36点を獲得した、120B(12Bアクティブ)のオープンウェイト推論モデルNemotron 3 Superをリリースしました ローンチ前にこのモデルへのアクセス権を与えられ、知能、開放性、推論効率の面で評価しました。 主なポイント 高い開放性と高い知能を兼ね備えている:Nemotron 3 Superはそのサイズに対して優れた性能を示し、同等の開閉度を持つ他のどのモデルよりもはるかに高い知能を持っています † Nemotron 3 SuperはArtificial Analysis Intelligence Indexで36点を獲得し、前回のSuperリリースより+17ポイント、Nemotron 3 Nanoより+12ポイントの差をつけました。同サイズのモデルと比べると、これはGPT-OSS-120B(33)より上位ですが、最近発売されたQwen3.5 122B A10B(42)には及びません。 効率的なインテリジェンスに焦点を当てて:Nemotron 3 SuperはGPT-OSS-120bよりも高い知能を持ち、シンプルながら現実的な負荷テストでGPUあたり約10%のスループット向上を実現しました † 今日は高速なサーバーレス推論に対応しています:@DeepInfraや@LightningAIなどのプロバイダーが、ローンチ時に最大484トークン/秒の速度でこのモデルを提供しています モデルの詳細 📝 Nemotron 3 Superは合計120.6億トークンとアクティブパラメータ1270万倍、さらに100万トークンコンテキストウィンドウとハイブリッド推論サポートを備えています。オープンウェイトと許可ライセンス、オープントレーニングデータおよび方法論の開示とともに公開されています 📐 このモデルには、ハイブリッドなマンバトランスフォーマーおよびLatentMoEアーキテクチャ、マルチトークン予測、NVFP4量子化重みなど、効率的な推論を可能にする複数の設計特徴があります 🎯 NVIDIAはNemotron 3 Superを(主に)NVFP4精度で事前学習しましたが、後処理はBF16に移行しました。評価スコアはBF16の重みを使用しています 🧠 私たちはNemotron 3 Superを、モデルの3つの推論モード(推論オフ、低努力、通常)の中で最も高性能な、最も高い努力推論モード(「通常」)でベンチマークしました
NVIDIAは、このモデルの新しい包括的なトレーニングレシピとともに、重要な事前・事後トレーニングデータを公開しました。これらの開示は人工分析開放度指数で83に達し、Ai2とMBZUAIの高度にオープンなモデルに次ぐ数字となり、Nemotron 3 Superは同業他社の中で最も魅力的なオープン性と知能の象限に位置づけられています。 Nemotron 3 Superは、このレベルの開放性を持つモデルの中で、これまでにリリースされた中で最も知的なモデルです。
Nemotron 3 Superは、私たちの評価で比較的多くのトークンを使用していました。Artificial Analysis Intelligence Indexの評価に1億1,000万の出力トークンを使用し、これはgpt-oss-120bに比べて推論努力が高かった場合に比べて約40%多いですが、Nemotron 3 Nanoと比べると約20%の削減です。 これは、AnthropicのClaude Opus 4.6(最大)が1億6千万トークンを使用したよりもかなり少ないトークン数であり、OpenAIのGPT-5.4(xhigh)が1億2千万トークンを使用したよりもわずかに少ないです。
Nemotron 3 Superは合計120Bで12Bのアクティブパラメータを持ち、他の最近のグローバルトップラボのオープンウェイトモデルリリースと比べると比較的小さいです。GLM-5(合計744B、40Bアクティブ)、Qwen3.5 397BのA17B(合計397B、17Bアクティブ)、Kimi K2.5(合計1T、32Bアクティブ)はそれぞれ3倍から8倍大きいです。
NVIDIAはNemotronファミリーの効率的なインテリジェンスに注力しており、私たちはピアモデルと比較して推論性能をテストし、アーキテクチャ選択の影響を検証しました。 私たちは、エージェント型ワークフロー(中程度の履歴)、RAGアプリケーション、ドキュメント処理など、一般的なユースケースを代表するワークロードを用いたシンプルな手法を用いて、さまざまなピアモデルでセルフホストスループットテストを実施しました。 このテストでは、Nemotron 3 Super(NVFP4)はNVIDIA B200 GPUあたりのスループットがgpt-oss-120b(MXFP4)より11%高いことを示し、Nemotron 3 SuperはGPT-OSS-120bに対して「上かつ右」に配置されています。Qwen3.5 122B A10BはNemotron 3 Superと比べて知能指数で+6ポイントを獲得していますが、GPUあたりのスループットは40%低下しています。 Nemotron 3 Superの知能指数スコアはBF16の重みで評価されました。NVFP4の量子化が知能に与える影響の有無はまだ評価していませんが、NVIDIAの内部テストではNVFP4モデルはBF16ベースラインに比べて99.8%の中央値精度を達成しました。 テストセットアップやモデル構成の詳細については、Nemotron 3 Superに関する記事をご覧ください。
Nemotron 3 Superは、Lightning AIやDeepInfraなどのプロバイダーが提供するサーバーレスAPIでリリース後利用可能です。 これらのエンドポイントをテストしたところ、標準の10,000トークン入力ワークロードで最大484トークン/秒のパフォーマンスが確認されました。 発売時点で、Nemotron 3 Superは同等の競合他社の中で最も知能と出力速度の面で最も魅力的な象限に位置しています。
6.86K