Вы можете просто делать вещи в prime-rl - например, обучить GLM5 отвечать на математические вопросы в <2000 токенов, используя 16 узлов для обучения и 12 узлов для вывода с конфигурацией 2P4D, всего лишь с uv run rl @ rl.toml ( @samsja19 сказал мне, что я должен больше твитить)