Vay canına... Microsoft, tek bir CPU'da 100B parametre LLM çalıştıran bir çıkarım çerçevesini açık kaynak olarak geliştirdi. Buna BitNet deniyor. Ve imkansız olması gerekeni yapıyor. GPU yok. Bulut yok. 10 bin dolarlık donanım kurulumu yok. Sadece dizüstü bilgisayarınız, insan okuma hızında 100 milyar parametrelik bir model çalıştırıyor. İşte nasıl çalışıyor: Diğer tüm LLM'ler ağırlıkları 32-bit veya 16-bit float'larda saklar. BitNet 1.58 bit kullanıyor. Ağırlıklar üçlü olarak sadece -1, 0 veya +1. Hepsi bu. Şaman yok. Pahalı matris matematiği yok. CPU'nuzun zaten tasarlandığı saf tam sayı işlemleri. Sonuç: - 100B modeli, tek bir CPU üzerinde saniyede 5-7 token hızında çalışır - x86'daki llama.cpp'den 2.37x'e 6.17x daha hızlı - x86 işlemcilerde %82 daha düşük enerji tüketimi - ARM'de (MacBook'unuzda) 1.37x'ten 5.07x'e hızlanma - Tam hassasiyetli modellere göre bellek sayısı 16-32 kat azaldı En çılgın kısmı: Doğruluk neredeyse hiç hareket etmiyor. BitNet b1.58 2B4T, amiral gemisi modeli 4 trilyon token üzerinde eğitildi ve aynı boyuttaki tam hassasiyetli modellerle rekabet ederek kıyaslama yaptı. Kuantizasyon kaliteyi yok etmiyor. Sadece şişkinliği gideriyor. Bu aslında ne anlama geliyor: ...