Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vous voulez obtenir un agent LLM pour réussir dans un environnement OOD ?
Nous abordons le cas le plus difficile avec le SPA (Self-Play Agent). Pas de données supplémentaires, d'outils ou de modèles plus puissants. Du pur auto-jeu.
Nous internalisons d'abord un modèle du monde via l'auto-jeu, puis nous apprenons à gagner par RL.
Comme un enfant jouant avec l'environnement pour simplement apprendre "que se passe-t-il si je fais ça ?"
Ci-dessous, nous montrons nos découvertes sur : Qu'est-ce qui ne va pas avec les environnements OOD ? Quels sont les facteurs clés qui permettent à l'auto-jeu de réussir ?
(1/8)

Meilleurs
Classement
Favoris
