Astaga... Microsoft membuka sumber kerangka kerja inferensi yang menjalankan LLM parameter 100B pada satu CPU. Ini disebut BitNet. Dan itu melakukan apa yang seharusnya mustahil. Tidak ada GPU. Tidak ada awan. Tidak ada pengaturan perangkat keras $10K. Hanya laptop Anda yang menjalankan model 100 miliar parameter dengan kecepatan membaca manusia. Begini cara kerjanya: Setiap LLM lainnya menyimpan bobot dalam float 32-bit atau 16-bit. BitNet menggunakan 1,58 bit. Bobot terner hanya -1, 0, atau +1. Itu saja. Tidak ada pelampung. Tidak ada matematika matriks yang mahal. Operasi bilangan bulat murni CPU Anda sudah dibuat. Hasilnya: - Model 100B berjalan pada satu CPU pada 5-7 token/detik - 2,37x hingga 6,17x lebih cepat dari llama.cpp pada x86 - Konsumsi energi 82% lebih rendah pada CPU x86 - Peningkatan 1,37x hingga 5,07x pada ARM (MacBook Anda) - Penurunan memori sebesar 16-32x vs model presisi penuh Bagian terliar: Akurasi hampir tidak bergerak. BitNet b1.58 2B4T model andalan mereka dilatih pada 4 triliun token dan tolok ukur secara kompetitif terhadap model presisi penuh dengan ukuran yang sama. Kuantisasi tidak merusak kualitas. Itu hanya menghilangkan kembung. Apa artinya sebenarnya: ...