Chúa ơi... Microsoft đã mở mã nguồn một khung suy diễn có thể chạy một mô hình LLM 100B tham số trên một CPU đơn. Nó được gọi là BitNet. Và nó làm những gì mà người ta cho là không thể. Không GPU. Không đám mây. Không cần thiết lập phần cứng 10.000 đô la. Chỉ cần laptop của bạn chạy một mô hình 100 tỷ tham số với tốc độ đọc của con người. Đây là cách nó hoạt động: Mọi LLM khác lưu trữ trọng số dưới dạng số thực 32-bit hoặc 16-bit. BitNet sử dụng 1,58 bit. Trọng số là nhị phân chỉ -1, 0 hoặc +1. Chỉ vậy thôi. Không có số thực. Không toán ma trận đắt tiền. Chỉ các phép toán nguyên mà CPU của bạn đã được thiết kế sẵn. Kết quả: - Mô hình 100B chạy trên một CPU với tốc độ 5-7 token/giây - Nhanh hơn 2,37x đến 6,17x so với llama.cpp trên x86 - Tiêu thụ năng lượng thấp hơn 82% trên CPU x86 - Tăng tốc từ 1,37x đến 5,07x trên ARM (MacBook của bạn) - Bộ nhớ giảm 16-32x so với các mô hình độ chính xác đầy đủ Phần điên rồ nhất: Độ chính xác hầu như không thay đổi. Mô hình BitNet b1.58 2B4T, mô hình chủ lực của họ, đã được huấn luyện trên 4 nghìn tỷ token và so sánh cạnh tranh với các mô hình độ chính xác đầy đủ cùng kích thước. Việc lượng tử hóa không làm giảm chất lượng. Nó chỉ loại bỏ sự phình to. Điều này thực sự có nghĩa là: ...