一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

我开源了 autokernel -- 针对 GPU 内核的自动研究你可以给它任何 PyTorch 模型。它会分析模型，找到瓶颈内核，编写 Triton 替代品，并在一夜之间运行实验。编辑一个文件，基准测试，保留或恢复，永远重复。与 @karpathy 的自动研究相同的循环，应用于内核优化 95 次实验。18 TFLOPS → 187 TFLOPS。与 cuBLAS 比较，提升 1.31 倍。全部自动化 9 种内核类型（矩阵乘法、闪存注意力、融合 MLP、层归一化、RMS 归一化、Softmax、绳索、交叉熵、归约）。阿姆达尔法则决定接下来优化什么。在任何加速计算之前进行 5 阶段的正确性检查代理读取 program.md（“研究组织代码”），编辑、运行并选择保留或恢复。每小时约 40 次实验。过夜约 320 次配备自包含的 GPT-2、LLaMA 和 BERT 定义，因此你无需 Transformers 库即可开始