热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
想要让 LLM 代理在 OOD 环境中成功吗?
我们用 SPA(自我游戏代理)来解决最困难的案例。没有额外的数据、工具或更强的模型。纯粹的自我游戏。
我们首先通过自我游戏内化一个世界模型,然后通过强化学习学习如何获胜。
就像孩子在环境中玩耍,简单地学习“如果我这样做会怎样?”
下面,我们展示了我们的发现:OOD 环境有什么问题?哪些关键因素使自我游戏能够成功?
(1/8)

热门
排行
收藏
