想要讓 LLM 代理在 OOD 環境中成功嗎? 我們用 SPA(自我遊玩代理)來解決最困難的案例。沒有額外的數據、工具或更強的模型。純粹的自我遊玩。 我們首先通過自我遊玩內化一個世界模型,然後通過強化學習學習如何獲勝。 就像孩子在環境中玩耍,單純地學習「如果我這樣做會怎樣?」 下面,我們展示了我們的發現:OOD 環境中出了什麼問題?哪些關鍵因素使自我遊玩能夠成功? (1/8)