热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我开源了 autokernel -- 针对 GPU 内核的自动研究
你可以给它任何 PyTorch 模型。它会分析模型,找到瓶颈内核,编写 Triton 替代品,并在一夜之间运行实验。编辑一个文件,基准测试,保留或恢复,永远重复。
与 @karpathy 的自动研究相同的循环,应用于内核优化
95 次实验。18 TFLOPS → 187 TFLOPS。与 cuBLAS 比较,提升 1.31 倍。全部自动化
9 种内核类型(矩阵乘法、闪存注意力、融合 MLP、层归一化、RMS 归一化、Softmax、绳索、交叉熵、归约)。阿姆达尔法则决定接下来优化什么。在任何加速计算之前进行 5 阶段的正确性检查
代理读取 program.md(“研究组织代码”),编辑、运行并选择保留或恢复。每小时约 40 次实验。过夜约 320 次
配备自包含的 GPT-2、LLaMA 和 BERT 定义,因此你无需 Transformers 库即可开始

热门
排行
收藏
