Святі небеса... Microsoft створила відкритий код фреймворк інференції, який запускає LLM з параметрами 100 Б на одному процесорі. Це називається BitNet. І він робить те, що мало бути неможливим. Без відеокарти. Жодної хмари. Жодного обладнання за $10 тисяч. Просто ваш ноутбук із моделлю на 100 мільярдах параметрів на людській швидкості читання. Ось як це працює: Кожна друга LLM зберігає ваги у 32- або 16-бітних float-файлах. BitNet використовує 1,58 біти. Ваги тритернарні, лише -1, 0 або +1. Ось і все. Жодних платформ. Жодної дорогої матричної математики. Чисто цілочисельні операції, для яких ваш процесор вже був створений. Результат: - Модель 100B працює на одному процесорі зі швидкістю 5-7 токенів на секунду - 2,37–6,17 рази швидше, ніж llama.cpp на x86 - На 82% менше енергоспоживання процесорів x86 - Прискорення від 1.37x до 5.07x на ARM (ваш MacBook) - Зниження пам'яті на 16-32 рази порівняно з моделями з повною точністю Найдикіша частина: Точність майже не рухається. BitNet b1.58 2B4T, їхня флагманська модель, була навчена на 4 трильйонах токенів і тести конкурентоспроможно конкурувати з моделями повної точності такого ж розміру. Квантування не руйнує якість. Це просто видалення здуття. Що це насправді означає: ...