Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ihtesham
Investidor, escritor, educador e fã 🐉 de Dragon Ball
Um estudante de Ciência da Computação do MIT terminou seu último semestre com um GPA de 4.0.
Encontrei o fluxo de trabalho dele no NotebookLM escondido em um tópico do Reddit às 2 da manhã. Ele apagou uma hora depois.
Era exatamente isso que ele estava fazendo.
Ele nunca enviou slides de aula nem pediu um resumo.
Seu primeiro prompt sempre era: "Aqui estão minhas anotações, o capítulo do livro didático e os trabalhos anteriores do ano passado. Me dê as 3 formas como os professores enganam os alunos nas provas com esse conceito. Depois, gerar um problema que combine tudo com tudo das últimas 3 semanas."
Ele não estava estudando o material.
Ele estava estudando como o material é usado como arma contra você.
Mas o movimento que me fez fechar o laptop e olhar para o teto foi o segundo dele.
Ele enviou todas as tarefas erradas que errou o semestre todo.
Depois perguntou: "Encontre o padrão nos meus erros. Qual é o conceito que eu sempre entendo errado em diferentes formas?"
Todos os outros alunos usavam o NotebookLM como mecanismo de busca.
Ele estava usando isso como espelho.
O terceiro prompt foi salvo como um atalho no celular.
"Com base nas minhas anotações e nesses trabalhos anteriores, para qual assunto estou menos preparado agora? Me dê as 5 perguntas mais prováveis de aparecer na minha prova final que ainda não posso responder."
Três sugestões. Toda semana.
Enquanto seus colegas reliam slides na noite anterior às provas finais, ele já sabia exatamente onde iria falhar.
Então ele consertou.
Ele não estudou mais.
Ele simplesmente nunca se permitia se sentir confortável.

24
🚨 A NVIDIA acabou de lançar um plano para treinar modelos de IA com trilhões de parâmetros.
E explica discretamente como a próxima geração de modelos vai escalar muito além dos LLMs atuais.
O artigo apresenta um sistema para treinamento de modelos Mistura de Especialistas (MoE) usando o Núcleo Megatron, a mesma família de infraestruturas usada para treinar alguns dos maiores modelos do mundo.
A ideia principal por trás do MoE é simples, mas poderosa:
Em vez de ativar todo o modelo para cada token, o sistema direciona cada token para apenas alguns "especialistas" especializados.
Isso significa que você pode escalar os parâmetros totais massivamente sem aumentar o cálculo para cada token.
Em teoria, isso te dá:
• Capacidade de trilhões de parâmetros
• Computação em nível de modelo denso por token
• Ganhos massivos de eficiência
Mas, na prática, isso quebra tudo.
Treinar modelos MoE cria um pesadelo em três camadas de sistemas:
Memória. Comunicação. Computação.
Otimize um e você embate os outros.
A solução da NVIDIA é essencialmente um co-design full-stack de todo o pipeline de treinamento.
Eles introduziram múltiplas otimizações em nível de sistema:
• Recomputação detalhada e offloading de memória para controlar a pressão da memória da GPU
• Despachantes de tokens otimizados para que os tokens possam ser roteados entre especialistas de forma eficiente
• Gráficos GEMM + CUDA agrupados para maximizar a utilização de computação da GPU
• Dobragem Paralela, permitindo paralelismo multidimensional flexível entre GPUs
• Treinamento de baixa precisão (FP8 / NVFP4) para reduzir drasticamente o custo de computação
Tudo isso roda dentro da pilha de treinamento open-source de modelos grandes da NVIDIA Megatron Core.
Os números de desempenho são absurdos.
Sobre os sistemas GPU mais recentes da NVIDIA:
• 1.233 TFLOPS por GPU treinando DeepSeek-V3-685B
• 974 TFLOPS por GPU treinando Qwen3-235B
E o framework já escala para milhares de GPUs em clusters de produção.
A história maior aqui não é apenas o treinamento mais rápido.
É a direção da arquitetura de IA.
Modelos densos escalam linearmente com o cálculo.
Modelos MoE escalam quase exponencialmente com os parâmetros, mantendo o cálculo gerenciável.
É assim que se obtém:
Modelos de parâmetros 100B → 1T → 10T.
Mesmo orçamento de computação.
Apenas roteamento mais inteligente.
Se a próxima onda de modelos de fronteira explodir novamente, este artigo explica exatamente como eles serão treinados.
Artigo: Treinamento Escalável de Modelos Misturados de Especialistas com Núcleo Megatron

37
Melhores
Classificação
Favoritos

