Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Joder... Microsoft ha abierto un framework de inferencia que ejecuta un LLM de 100B parámetros en una sola CPU.
Se llama BitNet. Y hace lo que se suponía que era imposible.
Sin GPU. Sin nube. No hay hardware de 10.000 dólares. Solo tu portátil ejecutando un modelo de 100.000 millones de parámetros a velocidad de lectura humana.
Así es como funciona:
Todos los demás LLM almacenan los pesos en floats de 32 o 16 bits.
BitNet utiliza 1,58 bits.
Los pesos son ternarios, solo -1, 0 o +1. Eso es todo. No hay carrozas. No hay matemáticas matriciales caras. Operaciones enteras puras para las que tu CPU ya estaba diseñada.
El resultado:
- El modelo 100B funciona con una sola CPU a 5-7 tokens/segundo
- 2,37x a 6,17x más rápido que llama.cpp en x86
- 82% menos consumo energético en CPUs x86
- Aceleración de 1,37x a 5,07x en ARM (tu MacBook)
- Caídas de memoria en 16-32x frente a modelos de máxima precisión
La parte más salvaje:
La precisión apenas mueve.
BitNet b1.58 2B4T, su modelo insignia, se entrenó con 4 billones de tokens y se compara con modelos de precisión total del mismo tamaño. La cuantización no está destruyendo la calidad. Solo es eliminar la hinchazón.
Lo que esto realmente significa:
...
Populares
Ranking
Favoritas
