Ingin mendapatkan agen LLM untuk berhasil di lingkungan OOD? Kami menangani kasus tersulit dengan SPA (Self-Play Agent). Tidak ada data tambahan, alat, atau model yang lebih kuat. Permainan diri murni. Pertama-tama kita menginternalisasi model dunia melalui Self-Play, kemudian kita belajar cara menang dengan RL. Seperti seorang anak yang bermain dengan env untuk sekadar belajar tentang "bagaimana jika saya melakukan ini?" Di bawah ini, kami menunjukkan temuan kami tentang: Apa yang salah dengan lingkungan OOD? Apa faktor kunci yang memungkinkan permainan diri berhasil? (1/8)