なんてこった...Microsoftは1つのCPU上で100BパラメータのLLMを動かす推論フレームワークをオープンソース化しました。 それはBitNetと呼ばれています。そして、不可能とされていたことを成し遂げました。 GPUは使えません。雲はない。1万ドルのハードウェアセットアップもなし。ただあなたのノートパソコンが1000億のパラメータモデルを人間の読書速度で動かしているだけです。 仕組みは以下の通りです: 他のすべてのLLMは、重みを32ビットまたは16ビットの浮動時点で格納しています。 BitNetは1.58ビットを使用します。 重みは三進法で、単に-1、0、または+1です。それだけです。フロートもなし。高価な行列計算も不要です。純粋な整数演算は、CPUがすでに対応しているものでした。 その結果: - 100Bモデルは1つのCPUで5〜7トークン/秒で動作します - x86の2.37倍から6.17倍の速度llama.cpp速度 - x86 CPUでの消費エネルギーが82%低下 - ARM(あなたのMacBook)で1.37倍から5.07倍の高速化 - フルシシオモデルと比べてメモリが16〜32倍低下します 最も衝撃的な部分: 命中率はほとんど動かない。 BitNet b1.58 2B4Tは、彼らの旗艦モデルとして4兆トークンで訓練され、同サイズの全精度モデルと競合してベンチマークを行っています。量子化は品質を損なっているわけではありません。ただ膨満感を取り除くだけです。 これが実際に意味することは: ...