想要让 LLM 代理在 OOD 环境中成功吗? 我们用 SPA(自我游戏代理)来解决最困难的案例。没有额外的数据、工具或更强的模型。纯粹的自我游戏。 我们首先通过自我游戏内化一个世界模型,然后通过强化学习学习如何获胜。 就像孩子在环境中玩耍,简单地学习“如果我这样做会怎样?” 下面,我们展示了我们的发现:OOD 环境有什么问题?哪些关键因素使自我游戏能够成功? (1/8)