熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Artificial Analysis
獨立分析 AI 模型和託管供應商 - 為您的用例選擇最佳模型和 API 供應商
NVIDIA 發布了 Nemotron 3 Super,這是一個 120B(12B 活躍)開放權重推理模型,在人工分析智能指數上得分 36,採用混合 Mamba-Transformer MoE 架構。
我們在發布前獲得了這個模型的訪問權限,並在智能性、開放性和推理效率方面進行了評估。
主要收穫
➤ 結合高開放性與強智能性:Nemotron 3 Super 在其大小上表現強勁,並且在智能性上顯著超過任何其他具有可比開放性的模型。
➤ Nemotron 3 Super 在人工分析智能指數上得分 36,比之前的 Super 發布高出 17 分,並比 Nemotron 3 Nano 高出 12 分。與同類型大小的模型相比,這使其超過了 gpt-oss-120b(33),但落後於最近發布的 Qwen3.5 122B A10B(42)。
➤ 專注於高效智能:我們發現 Nemotron 3 Super 的智能性高於 gpt-oss-120b,同時在一個簡單但現實的負載測試中每 GPU 的吞吐量提高了約 10%。
➤ 今天支持快速無伺服器推理:包括 @DeepInfra 和 @LightningAI 在內的提供商在發布時以每秒高達 484 個標記的速度提供此模型。
模型詳情
📝 Nemotron 3 Super 總共有 120.6B 和 12.7B 活躍參數,擁有 1 百萬個標記的上下文窗口和混合推理支持。它以開放權重和寬鬆許可證發布,並附有開放的訓練數據和方法論披露。
📐 該模型具有幾個設計特徵,能夠實現高效推理,包括使用混合 Mamba-Transformer 和 LatentMoE 架構、多標記預測和 NVFP4 量化權重。
🎯 NVIDIA 在(主要)NVFP4 精度下預訓練了 Nemotron 3 Super,但在後訓練時轉向 BF16。我們的評估分數使用 BF16 權重。
🧠 我們在其最高努力推理模式("常規")下對 Nemotron 3 Super 進行了基準測試,這是該模型三種推理模式中最具能力的一種(推理關閉、低努力和常規)。

6.72K
阿里巴巴已推出4款新的Qwen3.5模型,參數範圍從0.8B到9B。9B(推理,智力指數32)是10B參數以下最智能的模型,而4B(推理,智力指數27)是5B以下最智能的模型,但兩者都使用200M+的輸出標記來運行智力指數。
@Alibaba_Qwen擴展了Qwen3.5系列,推出了四個較小的密集模型:9B(推理,智力指數32)、4B(推理,智力指數27)、2B(推理,智力指數16)和0.8B(推理,智力指數9)。這些模型補充了本月早些時候發布的更大模型397B、27B、122B A10B和35B A3B。所有模型均為Apache 2.0許可,支持262K上下文,包含原生視覺支持,並使用與Qwen3.5系列其他模型相同的統一思維/非思維混合方法。
推理變體的關鍵基準結果:
➤ 9B和4B是各自尺寸類別中最智能的模型,領先於所有其他10B參數以下的模型。Qwen3.5 9B(32)的得分大約是10B以下下一個最接近模型的兩倍:Falcon-H1R-7B(16)和NVIDIA Nemotron Nano 9B V2(推理,15)。儘管參數大約只有一半,Qwen3.5 4B(27)的得分仍超過所有這些模型。所有四個小型Qwen3.5模型都位於智力與總參數圖表的Pareto邊界上。
➤ Qwen3.5世代在所有10B以下模型尺寸上相較於Qwen3代表了實質的智力提升,隨著總參數數量的增加,增幅更大。比較推理變體:Qwen3.5 9B(32)比Qwen3 VL 8B(17)高出15分,4B(27)比Qwen3 4B 2507(18)高出9分,2B(16)比Qwen3 1.7B(估計13)高出3分,而0.8B(9)比Qwen3 0.6B(6.5)高出2.5分。
➤ 所有四個模型使用230-390M的輸出標記來運行智力指數,顯著高於Qwen3.5的較大兄弟模型和Qwen3的前身。Qwen3.5 2B使用約390M的輸出標記,4B使用約240M,0.8B使用約230M,9B使用約260M。作為參考,較大的Qwen3.5 27B使用了98M,而397B旗艦模型使用了86M。這些標記數量也超過了大多數前沿模型:Gemini 3.1 Pro Preview(57M)、GPT-5.2(xhigh,130M)和GLM-5推理(109M)。
➤ AA-Omniscience是一個相對的弱點,4B和9B的幻覺率為80-82%。Qwen3.5 4B的AA-Omniscience得分為-57,幻覺率為80%,準確率為12.8%。Qwen3.5 9B的得分為-56,幻覺率為82%和14.7%的準確率。這些數據比它們的Qwen3前身稍有改善(Qwen3 4B 2507:-61,84%幻覺,12.7%準確率),改善主要是由於較低的幻覺率,而非較高的準確率。
➤ Qwen3.5的10B以下模型結合了高智力和原生視覺,達到以前無法獲得的規模。在MMMU-Pro(多模態推理)上,Qwen3.5 9B得分69.2%,4B得分65.4%,領先於Qwen3 VL 8B(56.6%)、Qwen3 VL 4B(52.0%)和Ministral 3 8B(46.0%)。Qwen3.5 0.8B得分25.8%,這對於一個1B以下的模型來說是相當顯著的。
其他信息:
➤ 上下文窗口:262K標記
➤ 許可證:Apache 2.0
➤ 量化:原生權重為BF16。阿里巴巴尚未為這些小型模型發布第一方的GPTQ-Int4量化,儘管他們已為早期發布的Qwen3.5系列中的較大模型(27B、35B-A3B、122B-A10B、397B-A17B)發布了。在4位量化中,所有四個模型都可以在消費者硬體上訪問。
➤ 可用性:在發布時,沒有第一方或第三方無伺服器API托管這些模型。

9.89K
熱門
排行
收藏
