一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

Andrej Karpathy

我喜欢训练大型深度神经网络。曾任AI @ Tesla董事、创始团队@ OpenAI、博士 @ 斯坦福。

三天前，我让自动研究调整 nanochat 运行了大约 2 天，使用 depth=12 模型。它发现了大约 20 个改动，改善了验证损失。我昨天测试了这些改动，所有改动都是累加的，并且可以转移到更大的（depth=24）模型上。将所有这些改动叠加起来，今天我测量到排行榜的 "Time to GPT-2" 从 2.02 小时降至 1.80 小时（约 11% 的改善），这将是新的排行榜条目。所以，是的，这些是真实的改进，并且确实产生了实际的差异。我有点惊讶，我的第一次简单尝试在我认为已经相当手动调优的项目上效果如此之好。这是我第一次，因为我非常习惯手动进行神经网络训练的迭代优化。你想出想法，实施它们，检查它们是否有效（更好的验证损失），根据这些想法提出新想法，阅读一些论文以获取灵感，等等。这是我每天工作 20 年的基本内容。看到代理人独立完成整个工作流程并且大约自主处理了 700 个改动，真是太疯狂了。它确实查看了实验结果的序列，并利用这些结果来规划下一个实验。这还不是新颖的、突破性的 "研究"（还没有），但所有的调整都是 "真实的"，我之前没有手动发现它们，它们叠加在一起并且确实改善了 nanochat。在更大的事情中，例如： - 它注意到我没有附加缩放乘数的无参数 QKnorm 的一个疏忽，因此我的注意力过于分散。代理人找到了缩放因子来使其更清晰，指向未来的工作。 - 它发现值嵌入非常喜欢正则化，而我没有应用任何（哎呀）。 - 它发现我的带状注意力过于保守（我忘了调整它）。 - 它发现 AdamW 的 beta 全部搞乱了。 - 它调整了权重衰减计划。 - 它调整了网络初始化。这是在我已经花费大量时间进行的所有调优之上。确切的提交在这里，来自这次 "第一轮" 的自动研究。我将启动 "第二轮"，同时我在考虑多个代理如何协作以解锁并行性。所有 LLM 前沿实验室都会这样做。这是最终的 Boss 战斗。当然，在规模上要复杂得多——你不仅仅有一个单一的 train.py 文件可以调整。但这样做 "只是工程"，并且它会奏效。你启动一群代理，让它们协作调整较小的模型，推广最有前景的想法到越来越大的规模，而人类（可选）在边缘贡献。更一般地说，*任何* 你关心的合理高效评估的指标（或具有更高效代理指标的指标，例如训练较小的网络）都可以通过代理群体进行自动研究。值得思考一下你的问题是否也属于这个范畴。