Bir LLM temsilcisinin OOD ortamında başarılı olmasını mı istiyorsunuz? SPA (Self-Play Agent) ile en zor vakayı ele alıyoruz. Ekstra veri, araç veya daha güçlü modeller yok. Tamamen kendi kendine oynama. Önce Self-Play ile bir dünya modelini içselleştiriyoruz, sonra RL ile nasıl kazanacağımızı öğreniyoruz. Bir çocuğun basitçe "ya bunu yaparsam?" diye öğrenmek için env ile oynaması gibi. Aşağıda, şu konulardaki bulgularımızı gösteriyoruz: OOD ortamlarında yanlış olan nedir? Kendi kendine oynamanın başarılı olmasını sağlayan temel faktörler nelerdir? (1/8)