一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

想要讓 LLM 代理在 OOD 環境中成功嗎？我們用 SPA（自我遊玩代理）來解決最困難的案例。沒有額外的數據、工具或更強的模型。純粹的自我遊玩。我們首先通過自我遊玩內化一個世界模型，然後通過強化學習學習如何獲勝。就像孩子在環境中玩耍，單純地學習「如果我這樣做會怎樣？」下面，我們展示了我們的發現：OOD 環境中出了什麼問題？哪些關鍵因素使自我遊玩能夠成功？ (1/8)