DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Ihtesham

Investidor, escritor, educador e fã 🐉 de Dragon Ball

🚨 A NVIDIA acabou de lançar um plano para treinar modelos de IA com trilhões de parâmetros. E explica discretamente como a próxima geração de modelos vai escalar muito além dos LLMs atuais. O artigo apresenta um sistema para treinamento de modelos Mistura de Especialistas (MoE) usando o Núcleo Megatron, a mesma família de infraestruturas usada para treinar alguns dos maiores modelos do mundo. A ideia principal por trás do MoE é simples, mas poderosa: Em vez de ativar todo o modelo para cada token, o sistema direciona cada token para apenas alguns "especialistas" especializados. Isso significa que você pode escalar os parâmetros totais massivamente sem aumentar o cálculo para cada token. Em teoria, isso te dá: • Capacidade de trilhões de parâmetros • Computação em nível de modelo denso por token • Ganhos massivos de eficiência Mas, na prática, isso quebra tudo. Treinar modelos MoE cria um pesadelo em três camadas de sistemas: Memória. Comunicação. Computação. Otimize um e você embate os outros. A solução da NVIDIA é essencialmente um co-design full-stack de todo o pipeline de treinamento. Eles introduziram múltiplas otimizações em nível de sistema: • Recomputação detalhada e offloading de memória para controlar a pressão da memória da GPU • Despachantes de tokens otimizados para que os tokens possam ser roteados entre especialistas de forma eficiente • Gráficos GEMM + CUDA agrupados para maximizar a utilização de computação da GPU • Dobragem Paralela, permitindo paralelismo multidimensional flexível entre GPUs • Treinamento de baixa precisão (FP8 / NVFP4) para reduzir drasticamente o custo de computação Tudo isso roda dentro da pilha de treinamento open-source de modelos grandes da NVIDIA Megatron Core. Os números de desempenho são absurdos. Sobre os sistemas GPU mais recentes da NVIDIA: • 1.233 TFLOPS por GPU treinando DeepSeek-V3-685B • 974 TFLOPS por GPU treinando Qwen3-235B E o framework já escala para milhares de GPUs em clusters de produção. A história maior aqui não é apenas o treinamento mais rápido. É a direção da arquitetura de IA. Modelos densos escalam linearmente com o cálculo. Modelos MoE escalam quase exponencialmente com os parâmetros, mantendo o cálculo gerenciável. É assim que se obtém: Modelos de parâmetros 100B → 1T → 10T. Mesmo orçamento de computação. Apenas roteamento mais inteligente. Se a próxima onda de modelos de fronteira explodir novamente, este artigo explica exatamente como eles serão treinados. Artigo: Treinamento Escalável de Modelos Misturados de Especialistas com Núcleo Megatron

Melhores

Classificação

Favoritos