Vous pouvez simplement faire des choses dans prime-rl - comme enseigner à GLM5 à répondre à des mathématiques en <2000 tokens en utilisant 16 nœuds pour l'entraînement et 12 nœuds pour faire de l'inférence avec une configuration 2P4D avec seulement uv run rl @ rl.toml ( @samsja19 m'a dit que je devrais tweeter plus de choses)