Vill du få en LLM-agent att lyckas i en OOD-miljö? Vi tar oss an det svåraste fallet med SPA (Self-Play Agent). Inga extra data, verktyg eller starkare modeller. Rent självspel. Vi internaliserar först en världsmodell via Self-Play, sedan lär vi oss hur man vinner med RL. Som ett barn som leker med miljön för att helt enkelt lära sig om "vad händer om jag gör det här?" Nedan visar vi våra resultat om: Vad är det för fel på OOD-miljöer? Vilka är de viktigaste faktorerna som gör att självspel kan lyckas? (1/8)