Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Святі небеса... Microsoft створила відкритий код фреймворк інференції, який запускає LLM з параметрами 100 Б на одному процесорі.
Це називається BitNet. І він робить те, що мало бути неможливим.
Без відеокарти. Жодної хмари. Жодного обладнання за $10 тисяч. Просто ваш ноутбук із моделлю на 100 мільярдах параметрів на людській швидкості читання.
Ось як це працює:
Кожна друга LLM зберігає ваги у 32- або 16-бітних float-файлах.
BitNet використовує 1,58 біти.
Ваги тритернарні, лише -1, 0 або +1. Ось і все. Жодних платформ. Жодної дорогої матричної математики. Чисто цілочисельні операції, для яких ваш процесор вже був створений.
Результат:
- Модель 100B працює на одному процесорі зі швидкістю 5-7 токенів на секунду
- 2,37–6,17 рази швидше, ніж llama.cpp на x86
- На 82% менше енергоспоживання процесорів x86
- Прискорення від 1.37x до 5.07x на ARM (ваш MacBook)
- Зниження пам'яті на 16-32 рази порівняно з моделями з повною точністю
Найдикіша частина:
Точність майже не рухається.
BitNet b1.58 2B4T, їхня флагманська модель, була навчена на 4 трильйонах токенів і тести конкурентоспроможно конкурувати з моделями повної точності такого ж розміру. Квантування не руйнує якість. Це просто видалення здуття.
Що це насправді означає:
...
Найкращі
Рейтинг
Вибране
