DApp Store | Web3 Hub for hendelser og spill

Populære emner

Herregud... Microsoft åpnet et inferensrammeverk som kjører en LLM med 100B parametere på én enkelt CPU. Den heter BitNet. Og den gjør det som skulle være umulig. Ingen GPU. Ingen sky. Ingen maskinvareoppsett til 10 000 dollar. Bare laptopen din som kjører en modell med 100 milliarder parametere i menneskelig lesehastighet. Slik fungerer det: Alle andre LLM-er lagrer vekter i 32-bits eller 16-bits flyter. BitNet bruker 1,58 biter. Vektene er ternære, bare -1, 0 eller +1. Det er det. Ingen flytere. Ingen dyr matrisematematikk. Rene heltallsoperasjoner som CPU-en din allerede var bygget for. Resultatet: - 100B-modellen kjører på én CPU med 5-7 tokens/sekund - 2,37x til 6,17x raskere enn llama.cpp på x86 - 82 % lavere energiforbruk på x86-CPU-er - 1,37x til 5,07x hastighetsøkning på ARM (din MacBook) - Minnetap med 16-32x sammenlignet med modeller med full presisjon Den villeste delen: Presisjonen beveger seg knapt. BitNet b1.58 2B4T, deres flaggskipmodell, ble trent på 4 billioner tokens og tester konkurransedyktig mot fullpresisjonsmodeller av samme størrelse. Kvantiseringen ødelegger ikke kvaliteten. Det fjerner bare oppblåstheten. Hva dette faktisk betyr: ...

Topp

Rangering

Favoritter