天啊……微軟開源了一個推理框架,可以在單個 CPU 上運行 100B 參數的 LLM。 它叫做 BitNet。它實現了原本被認為不可能的事情。 不需要 GPU。不需要雲端。不需要 10,000 美元的硬體設置。只需你的筆記本電腦以人類閱讀速度運行一個 1000 億參數的模型。 它是如何運作的: 其他 LLM 都以 32 位或 16 位浮點數存儲權重。 BitNet 使用 1.58 位。 權重是三元的,只有 -1、0 或 +1。就這樣。沒有浮點數。沒有昂貴的矩陣運算。純整數運算,你的 CPU 本來就為此而設計。 結果: - 100B 模型在單個 CPU 上以 5-7 個標記/秒運行 - 比 llama.cpp 在 x86 上快 2.37 倍到 6.17 倍 - 在 x86 CPU 上能耗降低 82% - 在 ARM(你的 MacBook)上速度提升 1.37 倍到 5.07 倍 - 記憶體比全精度模型降低 16-32 倍 最瘋狂的部分: 準確性幾乎沒有變化。 BitNet b1.58 2B4T,他們的旗艦模型是在 4 兆個標記上訓練的,並且在同等大小的全精度模型中具有競爭力的基準。量化並沒有破壞質量。它只是去除了冗餘。 這實際上意味著: ...