caramba, o prime-rl pode treinar o GLM-5 com ep e pd em desacordo