Vil du få en LLM-agent til å lykkes i et OOD-miljø? Vi takler den vanskeligste saken med SPA (Self-Play Agent). Ingen ekstra data, verktøy eller sterkere modeller. Ren selvlek. Vi internaliserer først en verdensmodell via Self-Play, deretter lærer vi hvordan vi kan vinne på RL. Som et barn som leker med env for å bare lære om "hva om jeg gjør dette?" Nedenfor viser vi funnene våre om: Hva er galt med OOD-miljøer? Hva er nøkkelfaktorene som gjør at selvlek lykkes? (1/8)