Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vil du få en LLM-agent til å lykkes i et OOD-miljø?
Vi takler den vanskeligste saken med SPA (Self-Play Agent). Ingen ekstra data, verktøy eller sterkere modeller. Ren selvlek.
Vi internaliserer først en verdensmodell via Self-Play, deretter lærer vi hvordan vi kan vinne på RL.
Som et barn som leker med env for å bare lære om "hva om jeg gjør dette?"
Nedenfor viser vi funnene våre om: Hva er galt med OOD-miljøer? Hva er nøkkelfaktorene som gjør at selvlek lykkes?
(1/8)

Topp
Rangering
Favoritter
