Anda dapat melakukan hal-hal di prime-rl - seperti mengajari GLM5 untuk menjawab matematika dalam token <2000 menggunakan 16 node untuk melatih dan 12 node untuk melakukan inferensi dengan konfigurasi 2P4D dengan hanya uv run rl @ rl.toml (@samsja19 memberi tahu saya bahwa saya harus men-tweet lebih banyak hal)