熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
天啊……微軟開源了一個推理框架,可以在單個 CPU 上運行 100B 參數的 LLM。
它叫做 BitNet。它實現了原本被認為不可能的事情。
不需要 GPU。不需要雲端。不需要 10,000 美元的硬體設置。只需你的筆記本電腦以人類閱讀速度運行一個 1000 億參數的模型。
它是如何運作的:
其他 LLM 都以 32 位或 16 位浮點數存儲權重。
BitNet 使用 1.58 位。
權重是三元的,只有 -1、0 或 +1。就這樣。沒有浮點數。沒有昂貴的矩陣運算。純整數運算,你的 CPU 本來就為此而設計。
結果:
- 100B 模型在單個 CPU 上以 5-7 個標記/秒運行
- 比 llama.cpp 在 x86 上快 2.37 倍到 6.17 倍
- 在 x86 CPU 上能耗降低 82%
- 在 ARM(你的 MacBook)上速度提升 1.37 倍到 5.07 倍
- 記憶體比全精度模型降低 16-32 倍
最瘋狂的部分:
準確性幾乎沒有變化。
BitNet b1.58 2B4T,他們的旗艦模型是在 4 兆個標記上訓練的,並且在同等大小的全精度模型中具有競爭力的基準。量化並沒有破壞質量。它只是去除了冗餘。
這實際上意味著:
...
熱門
排行
收藏
