Provavelmente este é o primeiro trabalho de RL sobre OpenClaw 🔥 MetaClaw: Apenas converse com seu agente e deixe a evolução automática. Github: A maioria dos agentes de IA fica congelada no momento em que embarca. Cada erro que eles cometerem, vão cometer de novo amanhã. MetaClaw resolve isso. É uma camada de RL online construída sobre o OpenClaw que permite aos agentes aprender com suas próprias interações — sem cluster de GPU, sem conjunto de dados offline, sem equipe de engenharia necessária. O ciclo é simples: toda conversa é registrada como uma trajetória de treinamento. Quando o agente falha, ele analisa o que deu errado e propõe uma nova habilidade reutilizável. O LoRA atualiza o train de forma assíncrona em segundo plano. Na próxima vez que uma situação semelhante ocorrer, a habilidade relevante é automaticamente recuperada no prompt. O agente não apenas acumula conversas. Ele acumula capacidade. O que diferencia isso do ajuste fino: não há pipeline de rotulagem humana, nem execuções de treinamento em lote, nem ciclo de implantação. A melhoria acontece continuamente e invisivelmente na produção. Interação → aprendizado → melhoria, em um ciclo. Sem conjunto de dados offline. Não é necessário programar. Sem cluster de GPU. A parte que vale a pena prestar atenção: isso transforma toda interação do usuário em um sinal de treinamento. O agente que você envia no primeiro dia não é o que você tem no dia trinta. Foi moldado por tudo que errou e corrigiu. Ótimo trabalho de @HuaxiuYaoML!