Cazzo santo... Microsoft ha open-sourcato un framework di inferenza che esegue un LLM da 100 miliardi di parametri su una singola CPU. Si chiama BitNet. E fa ciò che si pensava fosse impossibile. Niente GPU. Niente cloud. Niente setup hardware da $10K. Solo il tuo laptop che esegue un modello da 100 miliardi di parametri alla velocità di lettura umana. Ecco come funziona: Ogni altro LLM memorizza i pesi in float a 32 bit o 16 bit. BitNet utilizza 1,58 bit. I pesi sono ternari: solo -1, 0 o +1. Questo è tutto. Niente float. Niente costosa matematica delle matrici. Operazioni intere pure per cui la tua CPU è già stata progettata. Il risultato: - Il modello da 100B gira su una singola CPU a 5-7 token/secondo - 2,37x a 6,17x più veloce di llama.cpp su x86 - Consumo energetico inferiore dell'82% su CPU x86 - 1,37x a 5,07x di accelerazione su ARM (il tuo MacBook) - La memoria diminuisce di 16-32x rispetto ai modelli a precisione completa La parte più incredibile: L'accuratezza si muove a malapena. BitNet b1.58 2B4T, il loro modello di punta, è stato addestrato su 4 trilioni di token e si confronta competitivamente con i modelli a precisione completa della stessa dimensione. La quantizzazione non distrugge la qualità. Sta solo rimuovendo il superfluo. Cosa significa realmente: ...