Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Análise independente de modelos de IA e provedores de hospedagem - escolha o melhor modelo e provedor de API para seu caso de uso
A NVIDIA lançou o Nemotron 3 Super, um modelo de raciocínio de pesos abertos de 120B (12B ativos) que pontua 36 no Índice de Inteligência de Análise Artificial com uma arquitetura híbrida Mamba-Transformer MoE
Tivemos acesso a este modelo antes do lançamento e o avaliamos em termos de inteligência, abertura e eficiência de inferência.
Principais conclusões
➤ Combina alta abertura com forte inteligência: o Nemotron 3 Super apresenta um desempenho forte para seu tamanho e é substancialmente mais inteligente do que qualquer outro modelo com abertura comparável
➤ O Nemotron 3 Super pontuou 36 no Índice de Inteligência de Análise Artificial, +17 pontos à frente do lançamento anterior do Super e +12 pontos em relação ao Nemotron 3 Nano. Comparado a modelos em uma categoria de tamanho semelhante, isso o coloca à frente do gpt-oss-120b (33), mas atrás do recentemente lançado Qwen3.5 122B A10B (42).
➤ Focado em inteligência eficiente: descobrimos que o Nemotron 3 Super tem uma inteligência superior ao gpt-oss-120b, enquanto permite um throughput ~10% maior por GPU em um teste de carga simples, mas realista
➤ Suportado hoje para inferência rápida sem servidor: provedores como @DeepInfra e @LightningAI estão servindo este modelo no lançamento com velocidades de até 484 tokens por segundo
Detalhes do modelo
📝 O Nemotron 3 Super tem 120.6B de parâmetros totais e 12.7B de parâmetros ativos, juntamente com uma janela de contexto de 1 milhão de tokens e suporte a raciocínio híbrido. É publicado com pesos abertos e uma licença permissiva, juntamente com dados de treinamento abertos e divulgação de metodologia
📐 O modelo possui várias características de design que permitem uma inferência eficiente, incluindo o uso de arquiteturas híbridas Mamba-Transformer e LatentMoE, previsão de múltiplos tokens e pesos quantizados NVFP4
🎯 A NVIDIA pré-treinou o Nemotron 3 Super em precisão (principalmente) NVFP4, mas mudou para BF16 para o pós-treinamento. Nossas pontuações de avaliação usam os pesos BF16
🧠 Avaliamos o Nemotron 3 Super em seu modo de raciocínio de maior esforço ("regular"), o mais capaz dos três modos de inferência do modelo (raciocínio-desligado, baixo-esforço e regular)

6,98K
A Alibaba lançou 4 novos modelos Qwen3.5 de 0.8B a 9B. O 9B (Raciocínio, 32 no Índice de Inteligência) é o modelo mais inteligente abaixo de 10B parâmetros, e o 4B (Raciocínio, 27) é o mais inteligente abaixo de 5B, mas ambos usam mais de 200M de tokens de saída para executar o Índice de Inteligência
@Alibaba_Qwen expandiu a família Qwen3.5 com quatro modelos densos menores: o 9B (Raciocínio, 32 no Índice de Inteligência), 4B (Raciocínio, 27), 2B (Raciocínio, 16) e 0.8B (Raciocínio, 9). Estes complementam os maiores modelos 397B, 27B, 122B A10B e 35B A3B lançados no início deste mês. Todos os modelos têm licença Apache 2.0, suportam 262K de contexto, incluem suporte nativo à visão e usam a mesma abordagem híbrida de pensamento/não pensamento unificada que o resto da família Qwen3.5
Resultados chave de benchmarking para as variantes de raciocínio:
➤ O 9B e o 4B são os modelos mais inteligentes em suas respectivas classes de tamanho, à frente de todos os outros modelos abaixo de 10B parâmetros. O Qwen3.5 9B (32) pontua aproximadamente o dobro dos próximos modelos mais próximos abaixo de 10B: Falcon-H1R-7B (16) e NVIDIA Nemotron Nano 9B V2 (Raciocínio, 15). O Qwen3.5 4B (27) supera todos esses, apesar de ter aproximadamente metade dos parâmetros. Todos os quatro modelos pequenos Qwen3.5 estão na fronteira de Pareto do gráfico Inteligência vs. Total de Parâmetros
➤ A geração Qwen3.5 representa um aumento material de inteligência em relação ao Qwen3 em todos os tamanhos de modelos abaixo de 10B, com ganhos maiores em contagens de parâmetros totais mais altas. Comparando variantes de raciocínio: o Qwen3.5 9B (32) está 15 pontos à frente do Qwen3 VL 8B (17), o 4B (27) ganha 9 pontos sobre o Qwen3 4B 2507 (18), o 2B (16) está 3 pontos à frente do Qwen3 1.7B (estimado 13), e o 0.8B (9) ganha 2.5 pontos sobre o Qwen3 0.6B (6.5).
➤ Todos os quatro modelos usam de 230 a 390M de tokens de saída para executar o Índice de Inteligência, significativamente mais do que ambos os irmãos maiores Qwen3.5 e os predecessores Qwen3. O Qwen3.5 2B usou ~390M de tokens de saída, o 4B usou ~240M, o 0.8B usou ~230M, e o 9B usou ~260M. Para contexto, o muito maior Qwen3.5 27B usou 98M e o modelo principal 397B usou 86M. Essas contagens de tokens também superam a maioria dos modelos de fronteira: Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M) e GLM-5 Raciocínio (109M)
➤ AA-Omniscience é uma fraqueza relativa, com taxas de alucinação de 80-82% para o 4B e 9B. O Qwen3.5 4B pontua -57 em AA-Omniscience com uma taxa de alucinação de 80% e precisão de 12.8%. O Qwen3.5 9B pontua -56 com 82% de alucinação e 14.7% de precisão. Estes são marginalmente melhores do que seus predecessores Qwen3 (Qwen3 4B 2507: -61, 84% de alucinação, 12.7% de precisão), com a melhoria impulsionada principalmente por taxas de alucinação mais baixas em vez de maior precisão.
➤ Os modelos Qwen3.5 abaixo de 10B combinam alta inteligência com visão nativa em uma escala anteriormente indisponível. No MMMU-Pro (raciocínio multimodal), o Qwen3.5 9B pontua 69.2% e o 4B pontua 65.4%, à frente do Qwen3 VL 8B (56.6%), Qwen3 VL 4B (52.0%) e Ministral 3 8B (46.0%). O Qwen3.5 0.8B pontua 25.8%, o que é notável para um modelo abaixo de 1B
Outras informações:
➤ Janela de contexto: 262K tokens
➤ Licença: Apache 2.0
➤ Quantização: Os pesos nativos são BF16. A Alibaba não lançou quantizações GPTQ-Int4 de primeira parte para esses modelos pequenos, embora tenha feito para os modelos maiores da família Qwen3.5 lançados anteriormente (27B, 35B-A3B, 122B-A10B, 397B-A17B). Em quantização de 4 bits, todos os quatro modelos são acessíveis em hardware de consumo
➤ Disponibilidade: No momento da publicação, não há APIs sem servidor de primeira ou terceira parte hospedando esses modelos

9,94K
Top
Classificação
Favoritos
