Joder... Microsoft ha abierto un framework de inferencia que ejecuta un LLM de 100B parámetros en una sola CPU. Se llama BitNet. Y hace lo que se suponía que era imposible. Sin GPU. Sin nube. No hay hardware de 10.000 dólares. Solo tu portátil ejecutando un modelo de 100.000 millones de parámetros a velocidad de lectura humana. Así es como funciona: Todos los demás LLM almacenan los pesos en floats de 32 o 16 bits. BitNet utiliza 1,58 bits. Los pesos son ternarios, solo -1, 0 o +1. Eso es todo. No hay carrozas. No hay matemáticas matriciales caras. Operaciones enteras puras para las que tu CPU ya estaba diseñada. El resultado: - El modelo 100B funciona con una sola CPU a 5-7 tokens/segundo - 2,37x a 6,17x más rápido que llama.cpp en x86 - 82% menos consumo energético en CPUs x86 - Aceleración de 1,37x a 5,07x en ARM (tu MacBook) - Caídas de memoria en 16-32x frente a modelos de máxima precisión La parte más salvaje: La precisión apenas mueve. BitNet b1.58 2B4T, su modelo insignia, se entrenó con 4 billones de tokens y se compara con modelos de precisión total del mismo tamaño. La cuantización no está destruyendo la calidad. Solo es eliminar la hinchazón. Lo que esto realmente significa: ...