天哪……微软开源了一个推理框架,可以在单个 CPU 上运行一个 1000 亿参数的 LLM。 它叫 BitNet。它做到了被认为不可能的事情。 没有 GPU。没有云。没有 1 万美元的硬件设置。只需你的笔记本电脑就能以人类阅读速度运行一个 1000 亿参数的模型。 它是如何工作的: 其他 LLM 都以 32 位或 16 位浮点数存储权重。 BitNet 使用 1.58 位。 权重是三元的,仅有 -1、0 或 +1。就这样。没有浮点数。没有昂贵的矩阵运算。纯整数运算,你的 CPU 本来就为此而设计。 结果: - 100B 模型在单个 CPU 上以 5-7 个 token/秒运行 - 比 x86 上的 llama.cpp 快 2.37 倍到 6.17 倍 - x86 CPU 的能耗降低 82% - 在 ARM(你的 MacBook)上加速 1.37 倍到 5.07 倍 - 内存比全精度模型减少 16-32 倍 最疯狂的部分: 准确性几乎没有变化。 BitNet b1.58 2B4T 他们的旗舰模型是在 4 万亿个 token 上训练的,并且在同等大小的全精度模型中具有竞争力。量化并没有破坏质量。它只是去除了冗余。 这实际上意味着: ...