Você pode simplesmente fazer coisas no prime-rl - como ensinar o GLM5 a responder matemática em <2000 tokens usando 16 nós para treinar e 12 nós para fazer inferência com configuração 2P4D com apenas uv run rl @ rl.toml ( @samsja19 me disse que eu deveria tweetar mais coisas)