DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Artificial Analysis

Analyse indépendante des modèles d’IA et des fournisseurs d’hébergement - choisissez le meilleur modèle et le meilleur fournisseur d’API pour votre cas d’utilisation

Alibaba a lancé 4 nouveaux modèles Qwen3.5 allant de 0.8B à 9B. Le 9B (Raisonnement, 32 sur l'Indice d'Intelligence) est le modèle le plus intelligent sous 10B paramètres, et le 4B (Raisonnement, 27) le plus intelligent sous 5B, mais les deux utilisent plus de 200M de tokens de sortie pour faire fonctionner l'Indice d'Intelligence @Alibaba_Qwen a élargi la famille Qwen3.5 avec quatre modèles denses plus petits : le 9B (Raisonnement, 32 sur l'Indice d'Intelligence), 4B (Raisonnement, 27), 2B (Raisonnement, 16) et 0.8B (Raisonnement, 9). Ceux-ci complètent les plus grands modèles 397B, 27B, 122B A10B et 35B A3B lancés plus tôt ce mois-ci. Tous les modèles sont sous licence Apache 2.0, supportent 262K de contexte, incluent un support de vision natif et utilisent la même approche hybride de pensée/non-pensée unifiée que le reste de la famille Qwen3.5 Résultats clés des benchmarks pour les variantes de raisonnement : ➤ Le 9B et le 4B sont les modèles les plus intelligents dans leurs classes de taille respectives, devant tous les autres modèles sous 10B paramètres. Qwen3.5 9B (32) obtient environ le double des scores des modèles les plus proches sous 10B : Falcon-H1R-7B (16) et NVIDIA Nemotron Nano 9B V2 (Raisonnement, 15). Qwen3.5 4B (27) surpasse tous ces modèles malgré un nombre de paramètres environ deux fois inférieur. Tous les quatre petits modèles Qwen3.5 se trouvent sur le front de Pareto du graphique Intelligence vs. Total des Paramètres ➤ La génération Qwen3.5 représente une augmentation significative de l'intelligence par rapport à Qwen3 dans toutes les tailles de modèles sous 10B, avec des gains plus importants à des nombres de paramètres totaux plus élevés. En comparant les variantes de raisonnement : Qwen3.5 9B (32) est 15 points devant Qwen3 VL 8B (17), le 4B (27) gagne 9 points par rapport à Qwen3 4B 2507 (18), le 2B (16) est 3 points devant Qwen3 1.7B (estimé à 13), et le 0.8B (9) gagne 2.5 points par rapport à Qwen3 0.6B (6.5). ➤ Tous les quatre modèles utilisent entre 230 et 390M de tokens de sortie pour faire fonctionner l'Indice d'Intelligence, ce qui est significativement plus que les modèles Qwen3.5 plus grands et les prédécesseurs Qwen3. Qwen3.5 2B a utilisé environ 390M de tokens de sortie, 4B a utilisé environ 240M, 0.8B a utilisé environ 230M, et 9B a utilisé environ 260M. Pour le contexte, le modèle Qwen3.5 27B beaucoup plus grand a utilisé 98M et le modèle phare 397B a utilisé 86M. Ces comptes de tokens dépassent également la plupart des modèles de pointe : Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M) et GLM-5 Raisonnement (109M) ➤ L'AA-Omniscience est une faiblesse relative, avec des taux d'hallucination de 80-82% pour le 4B et le 9B. Qwen3.5 4B obtient -57 sur l'AA-Omniscience avec un taux d'hallucination de 80% et une précision de 12.8%. Qwen3.5 9B obtient -56 avec 82% d'hallucination et 14.7% de précision. Ceux-ci sont légèrement meilleurs que leurs prédécesseurs Qwen3 (Qwen3 4B 2507 : -61, 84% d'hallucination, 12.7% de précision), l'amélioration étant principalement due à des taux d'hallucination plus bas plutôt qu'à une précision plus élevée. ➤ Les modèles Qwen3.5 sub-10B combinent une intelligence élevée avec une vision native à une échelle auparavant indisponible. Sur MMMU-Pro (raisonnement multimodal), Qwen3.5 9B obtient 69.2% et 4B obtient 65.4%, devant Qwen3 VL 8B (56.6%), Qwen3 VL 4B (52.0%) et Ministral 3 8B (46.0%). Le Qwen3.5 0.8B obtient 25.8%, ce qui est notable pour un modèle sub-1B Autres informations : ➤ Fenêtre de contexte : 262K tokens ➤ Licence : Apache 2.0 ➤ Quantification : Les poids natifs sont BF16. Alibaba n'a pas publié de quantifications GPTQ-Int4 de première partie pour ces petits modèles, bien qu'ils l'aient fait pour les modèles plus grands de la famille Qwen3.5 publiés plus tôt (27B, 35B-A3B, 122B-A10B, 397B-A17B). En quantification 4 bits, tous les quatre modèles sont accessibles sur du matériel grand public ➤ Disponibilité : Au moment de la publication, il n'y a pas d'APIs serverless de première ou de troisième partie hébergeant ces modèles.

Meilleurs

Classement

Favoris