Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Unabhängige Analyse von KI-Modellen und Hosting-Providern - wählen Sie das beste Modell und den besten API-Anbieter für Ihren Anwendungsfall
NVIDIA hat Nemotron 3 Super veröffentlicht, ein 120B (12B aktiv) offenes Gewichtsmodell für Schlussfolgerungen, das mit 36 im Artificial Analysis Intelligence Index bewertet wird und eine hybride Mamba-Transformer MoE-Architektur verwendet.
Wir hatten vor der Markteinführung Zugang zu diesem Modell und haben es hinsichtlich Intelligenz, Offenheit und Inferenzeffizienz bewertet.
Wichtige Erkenntnisse
➤ Kombiniert hohe Offenheit mit starker Intelligenz: Nemotron 3 Super schneidet für seine Größe stark ab und ist erheblich intelligenter als jedes andere Modell mit vergleichbarer Offenheit.
➤ Nemotron 3 Super erzielte 36 im Artificial Analysis Intelligence Index, 17 Punkte mehr als die vorherige Super-Version und 12 Punkte mehr als Nemotron 3 Nano. Im Vergleich zu Modellen in einer ähnlichen Größenkategorie liegt es vor gpt-oss-120b (33), aber hinter dem kürzlich veröffentlichten Qwen3.5 122B A10B (42).
➤ Fokussiert auf effiziente Intelligenz: Wir fanden, dass Nemotron 3 Super eine höhere Intelligenz als gpt-oss-120b aufweist und gleichzeitig ~10% höheren Durchsatz pro GPU in einem einfachen, aber realistischen Lasttest ermöglicht.
➤ Heute unterstützt für schnelle serverlose Inferenz: Anbieter wie @DeepInfra und @LightningAI bieten dieses Modell zum Start mit Geschwindigkeiten von bis zu 484 Tokens pro Sekunde an.
Modell-Details
📝 Nemotron 3 Super hat insgesamt 120,6B und 12,7B aktive Parameter, zusammen mit einem Kontextfenster von 1 Million Tokens und Unterstützung für hybrides Schlussfolgern. Es wird mit offenen Gewichten und einer permissiven Lizenz veröffentlicht, zusammen mit offenen Trainingsdaten und Methodikoffenlegung.
📐 Das Modell hat mehrere Designmerkmale, die eine effiziente Inferenz ermöglichen, einschließlich der Verwendung von hybriden Mamba-Transformer- und LatentMoE-Architekturen, Multi-Token-Vorhersage und NVFP4-quantisierten Gewichten.
🎯 NVIDIA hat Nemotron 3 Super in (hauptsächlich) NVFP4-Präzision vortrainiert, ist jedoch für das Nachtraining zu BF16 gewechselt. Unsere Bewertungsergebnisse verwenden die BF16-Gewichte.
🧠 Wir haben Nemotron 3 Super in seinem höchsten Anstrengungsmodus für Schlussfolgerungen ("regulär") benchmarkiert, dem fähigsten der drei Inferenzmodi des Modells (Schlussfolgern aus, niedriger Aufwand und regulär).

7,01K
Alibaba hat 4 neue Qwen3.5-Modelle von 0,8B bis 9B veröffentlicht. Das 9B-Modell (Reasoning, 32 im Intelligence Index) ist das intelligenteste Modell unter 10B Parametern, und das 4B-Modell (Reasoning, 27) ist das intelligenteste unter 5B, aber beide verwenden über 200M Ausgabetokens, um den Intelligence Index auszuführen.
@Alibaba_Qwen hat die Qwen3.5-Familie mit vier kleineren dichten Modellen erweitert: das 9B (Reasoning, 32 im Intelligence Index), 4B (Reasoning, 27), 2B (Reasoning, 16) und 0,8B (Reasoning, 9). Diese ergänzen die größeren Modelle 397B, 27B, 122B A10B und 35B A3B, die Anfang dieses Monats veröffentlicht wurden. Alle Modelle sind unter der Apache 2.0-Lizenz lizenziert, unterstützen 262K Kontext, beinhalten native Vision-Unterstützung und verwenden denselben einheitlichen Denk-/Nicht-Denk-Hybridansatz wie der Rest der Qwen3.5-Familie.
Wichtige Benchmarking-Ergebnisse für die Reasoning-Varianten:
➤ Das 9B- und 4B-Modell sind die intelligentesten Modelle in ihren jeweiligen Größenklassen, vor allen anderen Modellen unter 10B Parametern. Qwen3.5 9B (32) erzielt ungefähr das Doppelte der nächsten nahen Modelle unter 10B: Falcon-H1R-7B (16) und NVIDIA Nemotron Nano 9B V2 (Reasoning, 15). Qwen3.5 4B (27) übertrifft all diese, obwohl es ungefähr die Hälfte der Parameter hat. Alle vier kleinen Qwen3.5-Modelle befinden sich an der Pareto-Front des Intelligence vs. Total Parameters-Diagramms.
➤ Die Qwen3.5-Generation stellt einen erheblichen Intelligenzgewinn gegenüber Qwen3 in allen Modellen unter 10B dar, mit größeren Gewinnen bei höheren Gesamtparameterzahlen. Im Vergleich der Reasoning-Varianten: Qwen3.5 9B (32) liegt 15 Punkte vor Qwen3 VL 8B (17), das 4B (27) gewinnt 9 Punkte gegenüber Qwen3 4B 2507 (18), das 2B (16) liegt 3 Punkte vor Qwen3 1,7B (geschätzt 13), und das 0,8B (9) gewinnt 2,5 Punkte gegenüber Qwen3 0,6B (6,5).
➤ Alle vier Modelle verwenden 230-390M Ausgabetokens, um den Intelligence Index auszuführen, was deutlich mehr ist als bei den größeren Qwen3.5-Geschwistern und den Qwen3-Vorgängermodellen. Qwen3.5 2B verwendete ~390M Ausgabetokens, 4B verwendete ~240M, 0,8B verwendete ~230M, und 9B verwendete ~260M. Zum Vergleich: Das viel größere Qwen3.5 27B verwendete 98M und das 397B-Flaggschiff verwendete 86M. Diese Token-Zahlen übertreffen auch die meisten Frontier-Modelle: Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M) und GLM-5 Reasoning (109M).
➤ AA-Omniscience ist eine relative Schwäche, mit Halluzinationsraten von 80-82% für das 4B- und 9B-Modell. Qwen3.5 4B erzielt -57 bei AA-Omniscience mit einer Halluzinationsrate von 80% und einer Genauigkeit von 12,8%. Qwen3.5 9B erzielt -56 mit 82% Halluzination und 14,7% Genauigkeit. Diese sind geringfügig besser als ihre Qwen3-Vorgänger (Qwen3 4B 2507: -61, 84% Halluzination, 12,7% Genauigkeit), wobei die Verbesserung hauptsächlich durch niedrigere Halluzinationsraten und nicht durch höhere Genauigkeit bedingt ist.
➤ Die Qwen3.5-Modelle unter 10B kombinieren hohe Intelligenz mit nativer Vision in einem zuvor unerreichten Maßstab. Bei MMMU-Pro (multimodales Reasoning) erzielt Qwen3.5 9B 69,2% und 4B 65,4%, vor Qwen3 VL 8B (56,6%), Qwen3 VL 4B (52,0%) und Ministral 3 8B (46,0%). Das Qwen3.5 0,8B erzielt 25,8%, was für ein Modell unter 1B bemerkenswert ist.
Weitere Informationen:
➤ Kontextfenster: 262K Tokens
➤ Lizenz: Apache 2.0
➤ Quantisierung: Native Gewichte sind BF16. Alibaba hat keine First-Party GPTQ-Int4-Quantisierungen für diese kleinen Modelle veröffentlicht, obwohl sie dies für die größeren Modelle der Qwen3.5-Familie, die früher veröffentlicht wurden (27B, 35B-A3B, 122B-A10B, 397B-A17B), getan haben. Bei 4-Bit-Quantisierung sind alle vier Modelle auf Consumer-Hardware zugänglich.
➤ Verfügbarkeit: Zum Zeitpunkt der Veröffentlichung gibt es keine First-Party- oder Third-Party-serverlosen APIs, die diese Modelle hosten.

9,95K
Top
Ranking
Favoriten
