Święty Boże... Microsoft udostępnił framework do wnioskowania, który uruchamia model LLM o 100 miliardach parametrów na pojedynczym CPU. Nazywa się BitNet. I robi to, co miało być niemożliwe. Bez GPU. Bez chmury. Bez zestawu sprzętowego za 10 000 dolarów. Tylko twój laptop uruchamiający model o 100 miliardach parametrów z prędkością ludzkiego czytania. Oto jak to działa: Każdy inny LLM przechowuje wagi w 32-bitowych lub 16-bitowych floatach. BitNet używa 1,58 bitów. Wagi są ternarne -1, 0 lub +1. To wszystko. Żadne floaty. Żadne drogie obliczenia macierzowe. Czyste operacje całkowite, do których twój CPU był już zaprojektowany. Rezultat: - Model 100B działa na pojedynczym CPU z prędkością 5-7 tokenów/sekundę - 2,37x do 6,17x szybszy niż llama.cpp na x86 - 82% niższe zużycie energii na CPU x86 - 1,37x do 5,07x przyspieszenie na ARM (twój MacBook) - Pamięć spada o 16-32x w porównaniu do modeli o pełnej precyzji Najdziksza część: Dokładność ledwo się zmienia. BitNet b1.58 2B4T, ich flagowy model, został wytrenowany na 4 bilionach tokenów i benchmarkuje konkurencyjnie w porównaniu do modeli o pełnej precyzji tej samej wielkości. Kwantyzacja nie niszczy jakości. Po prostu usuwa nadmiar. Co to właściwie oznacza: ...