热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我认为,具有可验证奖励的强化学习将在推动大型语言模型(LLMs)走向它们自己的“AlphaZero时刻”方面变得越来越重要。这可能会从编码开始,然后扩展到数学、物理和其他模型可以自我探索的领域,发现人类可能从未想象过的分布外解决方案,并使用绝对奖励信号(0/1)进行验证。
这也让我想起了@elonmusk谈论的一个未来,在这个未来中,程序可以直接生成二进制文件,而无需经过传统的编译过程。如果大型语言模型能够生成二进制代码,然后直接执行它以获得可验证的奖励,这实际上是可能的。
热门
排行
收藏
