一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

天哪……微软开源了一个推理框架，可以在单个 CPU 上运行一个 1000 亿参数的 LLM。它叫 BitNet。它做到了被认为不可能的事情。没有 GPU。没有云。没有 1 万美元的硬件设置。只需你的笔记本电脑就能以人类阅读速度运行一个 1000 亿参数的模型。它是如何工作的：其他 LLM 都以 32 位或 16 位浮点数存储权重。 BitNet 使用 1.58 位。权重是三元的，仅有 -1、0 或 +1。就这样。没有浮点数。没有昂贵的矩阵运算。纯整数运算，你的 CPU 本来就为此而设计。结果： - 100B 模型在单个 CPU 上以 5-7 个 token/秒运行 - 比 x86 上的 llama.cpp 快 2.37 倍到 6.17 倍 - x86 CPU 的能耗降低 82% - 在 ARM（你的 MacBook）上加速 1.37 倍到 5.07 倍 - 内存比全精度模型减少 16-32 倍最疯狂的部分：准确性几乎没有变化。 BitNet b1.58 2B4T 他们的旗舰模型是在 4 万亿个 token 上训练的，并且在同等大小的全精度模型中具有竞争力。量化并没有破坏质量。它只是去除了冗余。这实际上意味着： ...