Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Święty Boże... Microsoft udostępnił framework do wnioskowania, który uruchamia model LLM o 100 miliardach parametrów na pojedynczym CPU.
Nazywa się BitNet. I robi to, co miało być niemożliwe.
Bez GPU. Bez chmury. Bez zestawu sprzętowego za 10 000 dolarów. Tylko twój laptop uruchamiający model o 100 miliardach parametrów z prędkością ludzkiego czytania.
Oto jak to działa:
Każdy inny LLM przechowuje wagi w 32-bitowych lub 16-bitowych floatach.
BitNet używa 1,58 bitów.
Wagi są ternarne -1, 0 lub +1. To wszystko. Żadne floaty. Żadne drogie obliczenia macierzowe. Czyste operacje całkowite, do których twój CPU był już zaprojektowany.
Rezultat:
- Model 100B działa na pojedynczym CPU z prędkością 5-7 tokenów/sekundę
- 2,37x do 6,17x szybszy niż llama.cpp na x86
- 82% niższe zużycie energii na CPU x86
- 1,37x do 5,07x przyspieszenie na ARM (twój MacBook)
- Pamięć spada o 16-32x w porównaniu do modeli o pełnej precyzji
Najdziksza część:
Dokładność ledwo się zmienia.
BitNet b1.58 2B4T, ich flagowy model, został wytrenowany na 4 bilionach tokenów i benchmarkuje konkurencyjnie w porównaniu do modeli o pełnej precyzji tej samej wielkości. Kwantyzacja nie niszczy jakości. Po prostu usuwa nadmiar.
Co to właściwie oznacza:
...
Najlepsze
Ranking
Ulubione
