DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Putain... Microsoft a open source un cadre d'inférence qui exécute un LLM de 100 milliards de paramètres sur un seul CPU. Ça s'appelle BitNet. Et il fait ce qui était censé être impossible. Pas de GPU. Pas de cloud. Pas de configuration matérielle à 10 000 $. Juste votre ordinateur portable exécutant un modèle de 100 milliards de paramètres à la vitesse de lecture humaine. Voici comment ça fonctionne : Tous les autres LLM stockent les poids en flottants 32 bits ou 16 bits. BitNet utilise 1,58 bits. Les poids sont ternaires : juste -1, 0 ou +1. C'est tout. Pas de flottants. Pas de mathématiques matricielles coûteuses. Des opérations pures en entier pour lesquelles votre CPU a déjà été conçu. Le résultat : - Le modèle de 100B fonctionne sur un seul CPU à 5-7 tokens/seconde - 2,37x à 6,17x plus rapide que llama.cpp sur x86 - 82 % de consommation d'énergie en moins sur les CPU x86 - 1,37x à 5,07x d'accélération sur ARM (votre MacBook) - La mémoire diminue de 16 à 32 fois par rapport aux modèles à pleine précision La partie la plus folle : La précision bouge à peine. BitNet b1.58 2B4T, leur modèle phare, a été entraîné sur 4 trillions de tokens et se classe de manière compétitive par rapport aux modèles à pleine précision de la même taille. La quantification ne détruit pas la qualité. Elle supprime juste le superflu. Ce que cela signifie réellement : ...

Meilleurs

Classement

Favoris