karpathy 的自动研究是个大事。 630 行 Python。一个 GPU。一个指标。 你在一个 markdown 文件中写指令。一个 AI 代理修改训练代码,运行 5 分钟的实验,检查分数是否提高,保留或丢弃,重复。 每小时 ~12 次实验。过夜 ~100 次。 你去睡觉。你醒来时会看到一个更好的模型。 我把这个指向我的记忆系统。让它在我睡觉时优化回忆评分和置信阈值。 有趣的部分不是自动化,而是 karpathy 说的角色转变。你不再写 Python 了。你在为一个代理写 markdown 指令。你的指令越好,结果就越好。 如果你一直在与代理一起构建,这听起来很熟悉。 tobi lutke 已经在一个较小的模型上运行了它。提高了 19%。这个代理优化的小模型击败了一个更大的手动配置模型。 我们正在实时观察研究循环的闭合。 在 @modernmarket_ 上讨论过这个。