跳转至主要内容
行情
扫链
策略
追踪
追踪聪明钱地址,实时监控动态
跟单
探索链上交易,一键跟单获取收益
信号
关注聪明钱信号,发现早期机会
兑换
资产
邀请计划
Onchain OS
开发者中心
文档
API Key 管理
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
区块链浏览器
更多
DeFi
市场
安全中心
Boost
X Launch
参与 X Launch,抢先赚新币
X Campaign
参与活动,赢取丰厚奖励
奖励中心
领取奖励和空投
预警
语言
货币
DEX 功能
颜色设置
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
学院
帮助中心
返回
自动翻译代币名称
自动翻译 X 内容
悬停显示代币卡片
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
-5.15%
USELESS
-3.75%
IKUN
-5.84%
gib
-2.96%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-2.19%
ALON
-3.02%
LAUNCHCOIN
+6.79%
GOONC
-2.56%
KLED
-1.79%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-0.45%
Boopa
-6.39%
PORK
0.00%
主页
Andrej Karpathy
我喜欢训练大型深度神经网络。曾任AI @ Tesla董事、创始团队@ OpenAI、博士 @ 斯坦福。
查看原文
Andrej Karpathy
3月10日 06:28
三天前,我让自动研究调整 nanochat 运行了大约 2 天,使用 depth=12 模型。它发现了大约 20 个改动,改善了验证损失。我昨天测试了这些改动,所有改动都是累加的,并且可以转移到更大的(depth=24)模型上。将所有这些改动叠加起来,今天我测量到排行榜的 "Time to GPT-2" 从 2.02 小时降至 1.80 小时(约 11% 的改善),这将是新的排行榜条目。所以,是的,这些是真实的改进,并且确实产生了实际的差异。我有点惊讶,我的第一次简单尝试在我认为已经相当手动调优的项目上效果如此之好。 这是我第一次,因为我非常习惯手动进行神经网络训练的迭代优化。你想出想法,实施它们,检查它们是否有效(更好的验证损失),根据这些想法提出新想法,阅读一些论文以获取灵感,等等。这是我每天工作 20 年的基本内容。看到代理人独立完成整个工作流程并且大约自主处理了 700 个改动,真是太疯狂了。它确实查看了实验结果的序列,并利用这些结果来规划下一个实验。这还不是新颖的、突破性的 "研究"(还没有),但所有的调整都是 "真实的",我之前没有手动发现它们,它们叠加在一起并且确实改善了 nanochat。在更大的事情中,例如: - 它注意到我没有附加缩放乘数的无参数 QKnorm 的一个疏忽,因此我的注意力过于分散。代理人找到了缩放因子来使其更清晰,指向未来的工作。 - 它发现值嵌入非常喜欢正则化,而我没有应用任何(哎呀)。 - 它发现我的带状注意力过于保守(我忘了调整它)。 - 它发现 AdamW 的 beta 全部搞乱了。 - 它调整了权重衰减计划。 - 它调整了网络初始化。 这是在我已经花费大量时间进行的所有调优之上。确切的提交在这里,来自这次 "第一轮" 的自动研究。我将启动 "第二轮",同时我在考虑多个代理如何协作以解锁并行性。 所有 LLM 前沿实验室都会这样做。这是最终的 Boss 战斗。当然,在规模上要复杂得多——你不仅仅有一个单一的 train.py 文件可以调整。但这样做 "只是工程",并且它会奏效。你启动一群代理,让它们协作调整较小的模型,推广最有前景的想法到越来越大的规模,而人类(可选)在边缘贡献。 更一般地说,*任何* 你关心的合理高效评估的指标(或具有更高效代理指标的指标,例如训练较小的网络)都可以通过代理群体进行自动研究。值得思考一下你的问题是否也属于这个范畴。
517
Andrej Karpathy
3月8日 03:53
我将“autoresearch”项目打包成一个新的自包含的最小仓库,如果人们想在周末玩玩的话。它基本上是nanochat LLM训练核心,简化为一个单GPU、一个文件版本,约630行代码,然后: - 人类迭代提示(.md) - AI代理迭代训练代码(.py) 目标是设计你的代理,使其在没有你任何参与的情况下无限制地快速推进研究。在图像中,每个点都是一个完整的LLM训练运行,持续正好5分钟。代理在git功能分支上以自主循环工作,并在找到更好的设置(到最后的验证损失更低)时,将git提交累积到训练脚本中,包括神经网络架构、优化器、所有超参数等。你可以想象比较不同提示、不同代理等的研究进展。 部分代码,部分科幻,还有一点精神病 :)
1.51K
热门
排行
收藏