Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Cazzo santo... Microsoft ha open-sourcato un framework di inferenza che esegue un LLM da 100 miliardi di parametri su una singola CPU.
Si chiama BitNet. E fa ciò che si pensava fosse impossibile.
Niente GPU. Niente cloud. Niente setup hardware da $10K. Solo il tuo laptop che esegue un modello da 100 miliardi di parametri alla velocità di lettura umana.
Ecco come funziona:
Ogni altro LLM memorizza i pesi in float a 32 bit o 16 bit.
BitNet utilizza 1,58 bit.
I pesi sono ternari: solo -1, 0 o +1. Questo è tutto. Niente float. Niente costosa matematica delle matrici. Operazioni intere pure per cui la tua CPU è già stata progettata.
Il risultato:
- Il modello da 100B gira su una singola CPU a 5-7 token/secondo
- 2,37x a 6,17x più veloce di llama.cpp su x86
- Consumo energetico inferiore dell'82% su CPU x86
- 1,37x a 5,07x di accelerazione su ARM (il tuo MacBook)
- La memoria diminuisce di 16-32x rispetto ai modelli a precisione completa
La parte più incredibile:
L'accuratezza si muove a malapena.
BitNet b1.58 2B4T, il loro modello di punta, è stato addestrato su 4 trilioni di token e si confronta competitivamente con i modelli a precisione completa della stessa dimensione. La quantizzazione non distrugge la qualità. Sta solo rimuovendo il superfluo.
Cosa significa realmente:
...
Principali
Ranking
Preferiti
