Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Artificial Analysis

Phân tích độc lập các mô hình AI và nhà cung cấp dịch vụ lưu trữ - chọn mô hình và nhà cung cấp API tốt nhất cho trường hợp sử dụng của bạn

NVIDIA đã phát hành Nemotron 3 Super, một mô hình lý luận với trọng số mở 120B (12B hoạt động) đạt điểm 36 trên Chỉ số Trí tuệ Phân tích Nhân tạo với kiến trúc MoE Mamba-Transformer lai. Chúng tôi đã được truy cập vào mô hình này trước khi ra mắt và đánh giá nó dựa trên trí tuệ, tính mở và hiệu quả suy diễn. Những điểm chính ➤ Kết hợp tính mở cao với trí tuệ mạnh mẽ: Nemotron 3 Super hoạt động mạnh mẽ cho kích thước của nó và thông minh hơn đáng kể so với bất kỳ mô hình nào có tính mở tương đương. ➤ Nemotron 3 Super đạt 36 điểm trên Chỉ số Trí tuệ Phân tích Nhân tạo, cao hơn 17 điểm so với phiên bản Super trước đó và 12 điểm so với Nemotron 3 Nano. So với các mô hình trong cùng một danh mục kích thước, điều này đưa nó vượt lên trên gpt-oss-120b (33), nhưng đứng sau Qwen3.5 122B A10B mới phát hành (42). ➤ Tập trung vào trí tuệ hiệu quả: chúng tôi nhận thấy Nemotron 3 Super có trí tuệ cao hơn gpt-oss-120b trong khi cho phép thông lượng cao hơn khoảng 10% mỗi GPU trong một bài kiểm tra tải đơn giản nhưng thực tế. ➤ Hỗ trợ ngày hôm nay cho suy diễn không máy chủ nhanh chóng: các nhà cung cấp bao gồm @DeepInfra và @LightningAI đang phục vụ mô hình này ngay khi ra mắt với tốc độ lên đến 484 token mỗi giây. Chi tiết mô hình 📝 Nemotron 3 Super có tổng cộng 120.6B và 12.7B tham số hoạt động, cùng với một cửa sổ ngữ cảnh 1 triệu token và hỗ trợ lý luận lai. Nó được công bố với trọng số mở và giấy phép cho phép, cùng với dữ liệu huấn luyện mở và tiết lộ phương pháp. 📐 Mô hình có một số tính năng thiết kế cho phép suy diễn hiệu quả, bao gồm việc sử dụng kiến trúc Mamba-Transformer lai và LatentMoE, dự đoán đa token, và trọng số định lượng NVFP4. 🎯 NVIDIA đã tiền huấn luyện Nemotron 3 Super chủ yếu ở độ chính xác NVFP4, nhưng đã chuyển sang BF16 cho giai đoạn sau huấn luyện. Các điểm đánh giá của chúng tôi sử dụng trọng số BF16. 🧠 Chúng tôi đã đánh giá Nemotron 3 Super ở chế độ lý luận nỗ lực cao nhất ("thông thường"), là chế độ có khả năng nhất trong ba chế độ suy diễn của mô hình (tắt lý luận, nỗ lực thấp và thông thường).

Alibaba đã phát hành 4 mô hình Qwen3.5 mới từ 0.8B đến 9B. Mô hình 9B (Lập luận, 32 trên Chỉ số Trí tuệ) là mô hình thông minh nhất dưới 10B tham số, và mô hình 4B (Lập luận, 27) là mô hình thông minh nhất dưới 5B, nhưng cả hai đều sử dụng hơn 200M token đầu ra để chạy Chỉ số Trí tuệ @Alibaba_Qwen đã mở rộng gia đình Qwen3.5 với bốn mô hình dày đặc nhỏ hơn: 9B (Lập luận, 32 trên Chỉ số Trí tuệ), 4B (Lập luận, 27), 2B (Lập luận, 16) và 0.8B (Lập luận, 9). Những mô hình này bổ sung cho các mô hình lớn hơn 397B, 27B, 122B A10B và 35B A3B được phát hành vào đầu tháng này. Tất cả các mô hình đều có giấy phép Apache 2.0, hỗ trợ 262K ngữ cảnh, bao gồm hỗ trợ thị giác bản địa, và sử dụng cùng một phương pháp tư duy/không tư duy kết hợp như phần còn lại của gia đình Qwen3.5 Kết quả đánh giá chính cho các biến thể lập luận: ➤ Mô hình 9B và 4B là những mô hình thông minh nhất trong các lớp kích thước tương ứng của chúng, vượt trội hơn tất cả các mô hình khác dưới 10B tham số. Qwen3.5 9B (32) ghi điểm gấp đôi so với các mô hình gần nhất dưới 10B: Falcon-H1R-7B (16) và NVIDIA Nemotron Nano 9B V2 (Lập luận, 15). Qwen3.5 4B (27) ghi điểm cao hơn tất cả những mô hình này mặc dù có khoảng một nửa tham số. Tất cả bốn mô hình nhỏ Qwen3.5 đều nằm trên biên Pareto của biểu đồ Trí tuệ so với Tổng tham số ➤ Thế hệ Qwen3.5 đại diện cho một sự nâng cấp trí tuệ đáng kể so với Qwen3 trên tất cả các kích thước mô hình dưới 10B, với những cải tiến lớn hơn ở các tổng số tham số cao hơn. So sánh các biến thể lập luận: Qwen3.5 9B (32) cao hơn 15 điểm so với Qwen3 VL 8B (17), 4B (27) cao hơn 9 điểm so với Qwen3 4B 2507 (18), 2B (16) cao hơn 3 điểm so với Qwen3 1.7B (ước tính 13), và 0.8B (9) cao hơn 2.5 điểm so với Qwen3 0.6B (6.5). ➤ Tất cả bốn mô hình sử dụng 230-390M token đầu ra để chạy Chỉ số Trí tuệ, nhiều hơn đáng kể so với cả hai mô hình anh em lớn hơn Qwen3.5 và các mô hình tiền nhiệm Qwen3. Qwen3.5 2B sử dụng khoảng 390M token đầu ra, 4B sử dụng khoảng 240M, 0.8B sử dụng khoảng 230M, và 9B sử dụng khoảng 260M. Để so sánh, mô hình Qwen3.5 lớn hơn 27B sử dụng 98M và mô hình flagship 397B sử dụng 86M. Những số lượng token này cũng vượt quá hầu hết các mô hình tiên tiến: Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M), và GLM-5 Lập luận (109M) ➤ AA-Omniscience là một điểm yếu tương đối, với tỷ lệ ảo giác từ 80-82% cho 4B và 9B. Qwen3.5 4B ghi điểm -57 trên AA-Omniscience với tỷ lệ ảo giác 80% và độ chính xác 12.8%. Qwen3.5 9B ghi điểm -56 với 82% ảo giác và 14.7% độ chính xác. Những điểm số này chỉ tốt hơn một chút so với các mô hình tiền nhiệm Qwen3 (Qwen3 4B 2507: -61, 84% ảo giác, 12.7% độ chính xác), với sự cải thiện chủ yếu do tỷ lệ ảo giác thấp hơn thay vì độ chính xác cao hơn. ➤ Các mô hình Qwen3.5 dưới 10B kết hợp trí tuệ cao với thị giác bản địa ở quy mô trước đây chưa từng có. Trên MMMU-Pro (lập luận đa phương thức), Qwen3.5 9B ghi điểm 69.2% và 4B ghi điểm 65.4%, vượt qua Qwen3 VL 8B (56.6%), Qwen3 VL 4B (52.0%), và Ministral 3 8B (46.0%). Qwen3.5 0.8B ghi điểm 25.8%, điều này rất đáng chú ý cho một mô hình dưới 1B Thông tin khác: ➤ Cửa sổ ngữ cảnh: 262K token ➤ Giấy phép: Apache 2.0 ➤ Định lượng: Trọng số bản địa là BF16. Alibaba chưa phát hành các định lượng GPTQ-Int4 từ bên thứ nhất cho các mô hình nhỏ này, mặc dù họ đã phát hành cho các mô hình lớn hơn trong gia đình Qwen3.5 được phát hành trước đó (27B, 35B-A3B, 122B-A10B, 397B-A17B). Trong định lượng 4-bit, cả bốn mô hình đều có thể truy cập trên phần cứng tiêu dùng ➤ Tính khả dụng: Tại thời điểm xuất bản, không có API không máy chủ từ bên thứ nhất hoặc bên thứ ba nào lưu trữ các mô hình này.

Hàng đầu

Thứ hạng

Yêu thích