Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Connor Davis

Fundador da @getoutbox_ai Aprenda a construir Agentes de IA GRATUITAMENTE 👉 https://t.co/q9zPwlldZ4

O MIT acaba de publicar um artigo que explica discretamente por que o raciocínio dos LLM atinge um impasse e como superá-lo. A história habitual é que os modelos falham em problemas difíceis porque carecem de escala, dados ou inteligência. Este artigo argumenta algo muito mais estrutural: os modelos param de melhorar porque o sinal de aprendizagem desaparece. Uma vez que uma tarefa se torna demasiado difícil, as taxas de sucesso colapsam para zero, o aprendizado por reforço não tem nada para otimizar e o raciocínio estagna. A falha não é cognitiva, é pedagógica. Os autores propõem uma reformulação simples, mas radical. Em vez de perguntar como fazer os modelos resolverem problemas mais difíceis, eles perguntam como os modelos podem gerar problemas que os ensinem. O sistema deles, SOAR, divide um único modelo pré-treinado em dois papéis: um estudante que tenta tarefas-alvo extremamente difíceis e um professor que gera novos problemas de treino. O detalhe é que o professor não é recompensado por produzir perguntas inteligentes ou realistas. Ele é recompensado apenas se o desempenho do estudante melhorar em um conjunto fixo de problemas de avaliação reais. Nenhuma melhoria significa zero recompensa. Esse incentivo transforma tudo. O professor aprende a gerar problemas intermediários, de degrau, que estão apenas dentro do limite atual de capacidade do estudante. Esses problemas não são versões simplificadas da tarefa-alvo e, de forma impressionante, nem mesmo requerem soluções corretas. O que importa é que sua estrutura força o estudante a praticar o tipo certo de raciocínio, permitindo que o sinal de gradiente emerja mesmo quando a supervisão direta falha. Os resultados experimentais tornam o ponto dolorosamente claro. Em benchmarks onde os modelos começam com zero sucesso e o aprendizado por reforço padrão completamente estagna, o SOAR quebra o impasse e melhora o desempenho de forma constante. O modelo escapa da borda da aprendibilidade não pensando mais, mas construindo um melhor ambiente de aprendizagem para si mesmo. A implicação mais profunda é desconfortável. Muitos supostos "limites de raciocínio" podem não ser limites de inteligência de forma alguma. Eles são artefatos de configurações de treino que assumem que o mundo fornece problemas aprendíveis de graça. Este artigo sugere que, se os modelos podem moldar seu próprio currículo, os platôs de raciocínio tornam-se problemas de engenharia, não barreiras fundamentais. Sem novas arquiteturas, sem dados humanos extras, sem modelos maiores. Apenas uma mudança no que recompensamos: progresso de aprendizagem em vez de respostas.

Caramba... Este artigo explica silenciosamente por que a maioria dos modelos de “raciocínio” desmorona no momento em que você os desconecta de benchmarks limpos e os coloca no mundo real. A equipe do LongCat aborda uma questão que o campo continua a evitar: se os modelos de hoje são tão bons em raciocinar, por que ainda falham em comportamentos básicos de agente uma vez que as ferramentas falham, as instruções ficam confusas ou os ambientes reagem? A resposta deles é desconfortável. O raciocínio não falha porque as cadeias de pensamento são muito curtas. Ele falha porque treinamos o pensamento sem consequências. O artigo apresenta o LongCat-Flash-Thinking-2601, um modelo Mixture-of-Experts de 560B parâmetros construído em torno de uma ideia simples, mas radical: o raciocínio só se torna confiável quando é forçado a agir, observar falhas e se adaptar dentro de ambientes reais. Em vez de tratar o raciocínio como geração de texto, eles o enquadram como um loop: observar → planejar → agir → obter feedback → revisar. Essa mudança reverbera em todos os lugares. Os dados não são mais prompts estáticos. O treinamento não é mais trajetórias limpas. A avaliação não é mais respostas de uma única tentativa. Uma das contribuições mais importantes é a escalabilidade do ambiente. Os autores geram automaticamente mais de 10.000 ambientes executáveis em mais de 20 domínios, cada um fundamentado em ferramentas reais, bancos de dados reais e múltiplos caminhos de solução válidos. A dificuldade aumenta estruturalmente, não por truques de prompt inteligentes. Crucialmente, eles não sanitizam o mundo. Falhas de ferramentas, instruções ambíguas, saídas parciais e feedback ruidoso são deliberadamente injetados. O ruído não é um bug. É o currículo. Para manter o treinamento estável nessa escala, eles estendem o RL assíncrono (DORA) para lidar com interações de longo prazo e múltiplas turnos com dezenas de milhares de ambientes concorrentes sem colapsar. No momento da inferência, eles introduzem o Modo de Pensamento Pesado. Em vez de uma longa cadeia de pensamento, o modelo executa caminhos de raciocínio paralelos e depois reflete sobre eles antes de agir. Isso consistentemente supera a auto-consistência em tarefas complexas e agentivas. Os resultados falam alto. Desempenho de ponta no BrowseComp, τ²-Bench e VitaBench. Resultados fortes em matemática, codificação e busca. E, mais importante, muito menos degradação em condições ruidosas. A verdadeira lição é mais aguda do que qualquer número de benchmark: A qualidade do raciocínio não é mais o gargalo. A generalização é. E a generalização não vem de melhores prompts ou pensamentos mais longos. Ela vem de ambientes que reagem. Se quisermos agentes que funcionem fora de demonstrações, precisamos parar de treiná-los em mundos limpos e imaginários. A inteligência não é forjada onde tudo dá certo. É forjada onde as coisas quebram. Artigo: Relatório Técnico do LongCat-Flash-Thinking-2601 Leia o artigo completo aqui em:

Top

Classificação

Favoritos