Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ihtesham
Investisseur, écrivain, éducateur et fan 🐉 de Dragon Ball
Un étudiant en CS au MIT a terminé son dernier semestre avec une moyenne de 4.0.
J'ai trouvé son flux NotebookLM enfoui dans un fil Reddit à 2h du matin. Il l'a supprimé une heure plus tard.
Voici exactement ce qu'il faisait.
Il n'a jamais téléchargé les diapositives de cours et a demandé un résumé.
Son premier prompt était toujours : "Voici mes notes, le chapitre du manuel, et les examens de l'année dernière. Donnez-moi les 3 façons dont les professeurs piègent les étudiants lors des examens avec ce concept. Ensuite, générez un problème qui combine cela avec tout ce que j'ai appris au cours des 3 dernières semaines."
Il n'étudiait pas le matériel.
Il étudiait comment le matériel était utilisé contre lui.
Mais le mouvement qui m'a fait fermer mon ordinateur portable et regarder le plafond était son deuxième.
Il a téléchargé chaque devoir qu'il avait raté tout le semestre.
Puis a demandé : "Trouvez le schéma dans mes erreurs. Quel est le concept que je continue à mal comprendre sous différentes formes ?"
Tous les autres étudiants utilisaient NotebookLM comme un moteur de recherche.
Il l'utilisait comme un miroir.
Son troisième prompt était enregistré comme un raccourci sur son téléphone.
"En fonction de mes notes et de ces examens passés, quel sujet suis-je le moins préparé en ce moment ? Donnez-moi les 5 questions les plus susceptibles d'apparaître à mon examen final auxquelles je ne peux pas encore répondre."
Trois prompts. Chaque semaine.
Alors que ses camarades relisaient les diapositives la veille des examens, il savait déjà exactement où il allait échouer.
Puis il a corrigé cela.
Il n'a pas étudié plus dur.
Il ne s'est tout simplement jamais laissé se sentir à l'aise.

20
🚨 NVIDIA vient de publier un plan pour entraîner des modèles d'IA à un trillion de paramètres.
Et il explique discrètement comment la prochaine génération de modèles va évoluer bien au-delà des LLM d'aujourd'hui.
Le document introduit un système pour entraîner des modèles Mixture-of-Experts (MoE) en utilisant Megatron Core, la même famille d'infrastructure utilisée pour entraîner certains des plus grands modèles au monde.
L'idée clé derrière MoE est simple mais puissante :
Au lieu d'activer l'ensemble du modèle pour chaque token, le système dirige chaque token vers seulement quelques "experts" spécialisés.
Cela signifie que vous pouvez augmenter massivement le nombre total de paramètres sans augmenter le calcul pour chaque token.
En théorie, cela vous donne :
• Une capacité d'un trillion de paramètres
• Un calcul de niveau modèle dense par token
• Des gains d'efficacité massifs
Mais en pratique, cela casse tout.
L'entraînement des modèles MoE crée un cauchemar à travers trois couches de systèmes :
Mémoire. Communication. Calcul.
Optimisez l'un et vous créez un goulot d'étranglement pour les autres.
La solution de NVIDIA est essentiellement une co-conception complète de l'ensemble du pipeline d'entraînement.
Ils ont introduit plusieurs optimisations au niveau système :
• Recalcul fin et déchargement de mémoire pour contrôler la pression mémoire GPU
• Dispatchers de tokens optimisés afin que les tokens puissent être dirigés entre les experts de manière efficace
• GEMM groupé + Graphes CUDA pour maximiser l'utilisation du calcul GPU
• Pliage parallèle, permettant un parallélisme multidimensionnel flexible à travers les GPU
• Entraînement à faible précision (FP8 / NVFP4) pour réduire considérablement le coût de calcul
Tout cela fonctionne à l'intérieur de Megatron Core, la pile d'entraînement de grands modèles open-source de NVIDIA.
Les chiffres de performance sont absurdes.
Sur les nouveaux systèmes GPU de NVIDIA :
• 1 233 TFLOPS par GPU en entraînant DeepSeek-V3-685B
• 974 TFLOPS par GPU en entraînant Qwen3-235B
Et le cadre évolue déjà à travers des milliers de GPU dans des clusters de production.
L'histoire plus grande ici n'est pas seulement un entraînement plus rapide.
C'est la direction de l'architecture de l'IA.
Les modèles denses évoluent linéairement avec le calcul.
Les modèles MoE évoluent presque exponentiellement avec les paramètres tout en gardant le calcul gérable.
C'est ainsi que vous obtenez :
100B → 1T → 10T modèles de paramètres.
Même budget de calcul.
Juste un routage plus intelligent.
Si la prochaine vague de modèles de pointe explose à nouveau en taille, ce document explique exactement comment ils seront entraînés.
Document : Entraînement évolutif des modèles Mixture-of-Experts avec Megatron Core

34
Meilleurs
Classement
Favoris

