跳转至主要内容
行情
扫链
策略
追踪
追踪聪明钱地址,实时监控动态
跟单
探索链上交易,一键跟单获取收益
信号
关注聪明钱信号,发现早期机会
兑换
资产
邀请计划
Onchain OS
开发者中心
文档
API Key 管理
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
区块链浏览器
更多
DeFi
市场
安全中心
Boost
X Launch
参与 X Launch,抢先赚新币
X Campaign
参与活动,赢取丰厚奖励
奖励中心
领取奖励和空投
预警
语言
货币
DEX 功能
颜色设置
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
学院
帮助中心
返回
自动翻译代币名称
自动翻译 X 内容
悬停显示代币卡片
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
-5.15%
USELESS
-3.63%
IKUN
-5.84%
gib
-2.96%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-2.12%
ALON
-3.02%
LAUNCHCOIN
+6.79%
GOONC
-2.56%
KLED
-1.98%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-0.45%
Boopa
-6.39%
PORK
0.00%
主页
Ihtesham
投资者、作家、教育者和龙珠迷 🐉
查看原文
Ihtesham
5 小时前
一名麻省理工学院的计算机科学学生以4.0的GPA完成了他的最后一个学期。 我在凌晨2点的Reddit帖子中发现了他的NotebookLM工作流程。他一个小时后就删除了它。 他到底在做什么。 他从未上传讲义,并要求总结。 他的第一个提示总是:“这是我的笔记、教科书章节和去年的往年试卷。给我3种教授在考试中用这个概念欺骗学生的方法。然后生成一个结合过去3周所有内容的问题。” 他并没有学习材料。 他在研究材料如何被用来对付你。 但让我合上笔记本电脑,盯着天花板的举动是他的第二个提示。 他上传了整个学期所有做错的作业。 然后问:“找出我错误中的模式。我在不同形式中一直误解的一个概念是什么?” 其他学生都在把NotebookLM当作搜索引擎。 他把它当作一面镜子。 他的第三个提示被保存在手机的快捷方式中。 “根据我的笔记和这些往年试卷,我现在最不准备的主题是什么?给我5个我还无法回答的最有可能出现在期末考试中的问题。” 每周三个提示。 当他的同学在期末考试前一晚重读幻灯片时,他已经确切知道自己将在哪些地方失败。 然后他解决了这个问题。 他并没有更努力地学习。 他只是从未让自己感到舒适。
15
Ihtesham
7 小时前
🚨 NVIDIA 刚刚发布了一份用于训练万亿参数 AI 模型的蓝图。 它悄悄地解释了下一代模型将如何远远超越今天的 LLM。 该论文介绍了一种使用 Megatron Core 训练专家混合模型(MoE)的方法,这也是用于训练世界上一些最大模型的基础设施的同一家族。 MoE 背后的关键思想简单但强大: 系统不是为每个令牌激活整个模型,而是将每个令牌路由到仅几个专门的“专家”。 这意味着你可以在不增加每个令牌计算的情况下大幅扩展总参数。 理论上,这给你带来了: • 万亿参数容量 • 每个令牌的密集模型级计算 • 巨大的效率提升 但在实践中,这会破坏一切。 训练 MoE 模型在三个系统层面上造成了噩梦: 内存。通信。计算。 优化一个就会瓶颈其他。 NVIDIA 的解决方案本质上是对整个训练管道的全栈协同设计。 他们引入了多种系统级优化: • 细粒度重计算和内存卸载以控制 GPU 内存压力 • 优化的令牌调度器,以便令牌可以高效地在专家之间路由 • 分组 GEMM + CUDA 图以最大化 GPU 计算利用率 • 并行折叠,支持跨 GPU 的灵活多维并行性 • 低精度训练(FP8 / NVFP4)以显著降低计算成本 所有这些都在 Megatron Core NVIDIA 的开源大模型训练堆栈中运行。 性能数字令人难以置信。 在 NVIDIA 最新的 GPU 系统上: • 每个 GPU 训练 DeepSeek-V3-685B 时达到 1,233 TFLOPS • 每个 GPU 训练 Qwen3-235B 时达到 974 TFLOPS 而且该框架已经在生产集群中跨数千个 GPU 进行扩展。 这里更大的故事不仅仅是更快的训练。 而是 AI 架构的方向。 密集模型与计算线性扩展。 MoE 模型几乎以参数的指数方式扩展,同时保持计算可控。 这就是你如何获得: 100B → 1T → 10T 参数模型。 相同的计算预算。 只是更智能的路由。 如果下一波前沿模型再次爆炸性增长,这篇论文准确解释了它们将如何被训练。 论文:使用 Megatron Core 可扩展训练专家混合模型
29
Ihtesham
8 小时前
谷歌发布了一份64页的技术指南,用于构建AI代理。
31
热门
排行
收藏