DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Herregud... Microsoft har öppet källkodat ett inferensramverk som kör en 100B parameter LLM på en enda CPU. Den heter BitNet. Och den gör det som skulle vara omöjligt. Ingen GPU. Inget moln. Ingen hårdvaruinstallation för 10 000 dollar. Bara din laptop som kör en modell med 100 miljarder parametrar i mänsklig läshastighet. Så här fungerar det: Varannan LLM lagrar vikter i 32-bitars eller 16-bitars floats. BitNet använder 1,58 bitar. Vikterna är bara -1, 0 eller +1. Det är allt. Inga flottörer. Ingen dyr matrismatematik. Rena heltalsoperationer som din CPU redan var byggd för. Resultatet: - 100B-modellen körs på en enda CPU med 5–7 tokens/sekund - 2,37x till 6,17x snabbare än llama.cpp på x86 - 82 % lägre energiförbrukning på x86-processorer - 1,37x till 5,07x hastighetsökning på ARM (din MacBook) - Minnesminskningar med 16–32x jämfört med modeller med full precision Det vildaste av allt: Precision förändras knappt. BitNet b1.58 2B4T, deras flaggskeppsmodell, tränades på 4 biljoner tokens och jämför med fullprecisionsmodeller av samma storlek. Kvantiseringen förstör inte kvaliteten. Det är bara att ta bort uppblåstheten. Vad detta faktiskt betyder: ...

Topp

Rankning

Favoriter