Doriți să obțineți un agent LLM să aibă succes într-un mediu OOD? Abordăm cel mai greu caz cu SPA (Self-Play Agent). Fără date suplimentare, instrumente sau modele mai puternice. Joc de sine pur. Mai întâi internalizăm un model de lume prin Self-Play, apoi învățăm cum să câștigăm prin RL. Ca un copil care se joacă cu mediul mediu pentru a învăța pur și simplu despre "ce se întâmplă dacă fac asta?" Mai jos, vă arătăm constatările noastre despre: Ce este în neregulă cu mediile OOD? Care sunt factorii cheie care permit jocului de sine să reușească? (1/8)