Sakra... Microsoft otevřel jako open source inferenční framework, který spouští LLM s 100B parametry na jednom CPU. Jmenuje se BitNet. A dělá to, co mělo být nemožné. Žádná grafická karta. Žádný cloud. Žádné hardwarové nastavení za 10 000 dolarů. Jen váš notebook běžící na modelu se 100 miliardami parametrů při lidské čtecí rychlosti. Takto to funguje: Každý jiný LLM ukládá váhy v 32bitových nebo 16bitových floatech. BitNet používá 1,58 bitu. Váhy jsou ternární pouze -1, 0 nebo +1. To je vše. Žádné plováky. Žádná drahá maticová matematika. Čistě celočíselné operace, na které už byl váš CPU stavěný. Výsledek: - Model 100B běží na jednom CPU rychlostí 5-7 tokenů za sekundu - 2,37x až 6,17x rychlejší než llama.cpp na x86 - O 82 % nižší spotřeba energie u procesorů x86 - 1,37x až 5,07x zrychlení na ARM (tvém MacBooku) - Pokles paměti o 16–32x oproti plně přesným modelům Nejdivočejší část: Přesnost se téměř nehýbe. BitNet b1.58 2B4T, jejich vlajkový model, byl trénován na 4 biliony tokenů a měřil benchmarky proti plně přesným modelům stejné velikosti. Kvantování kvalitu neničí. Jde jen o odstranění nadýmání. Co to vlastně znamená: ...