Chcete získat LLM agenta, aby uspěl v prostředí OOD? Nejtěžší případ řešíme pomocí SPA (Self-Play Agent). Žádná další data, nástroje ani silnější modely. Čistá hra na vlastní kůži. Nejprve si osvojíme model světa prostřednictvím Self-Play, poté se naučíme, jak vyhrát pomocí RL. Jako dítě, které si hraje s env, aby se jednoduše naučilo "co když udělám tohle?" Níže uvádíme naše zjištění na téma: Co je špatného na prostředích OOD? Jaké jsou klíčové faktory, které umožňují úspěch ve hře self-play? (1/8)