Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Doriți să obțineți un agent LLM să aibă succes într-un mediu OOD?
Abordăm cel mai greu caz cu SPA (Self-Play Agent). Fără date suplimentare, instrumente sau modele mai puternice. Joc de sine pur.
Mai întâi internalizăm un model de lume prin Self-Play, apoi învățăm cum să câștigăm prin RL.
Ca un copil care se joacă cu mediul mediu pentru a învăța pur și simplu despre "ce se întâmplă dacă fac asta?"
Mai jos, vă arătăm constatările noastre despre: Ce este în neregulă cu mediile OOD? Care sunt factorii cheie care permit jocului de sine să reușească?
(1/8)

Limită superioară
Clasament
Favorite
