Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ihtesham
Investitor, scriitor, educator și fan 🐉 Dragon Ball
Un student la informatică de la MIT și-a terminat ultimul semestru cu o medie de 4.0.
Am găsit fluxul lui de lucru NotebookLM ascuns într-un thread de pe Reddit la ora 2 dimineața. A șters-o o oră mai târziu.
Iată exact ce făcea.
Nu încărca niciodată slide-uri de curs și nu cerea un rezumat.
Prima lui provocare a fost întotdeauna: "Iată notițele mele, capitolul din manual și lucrările anterioare de anul trecut. Dă-mi cele 3 moduri în care profesorii păcălesc studenții la examene cu acest concept. Apoi generează o problemă care să combine totul cu tot ce s-a întâmplat în ultimele 3 săptămâni."
Nu studia materialul.
Studia cum materialul devine folosit ca armă împotriva ta.
Dar mișcarea care m-a făcut să închid laptopul și să mă uit la tavan a fost a doua lui mișcare.
A încărcat fiecare temă pe care o greșise în tot semestrul.
Apoi a întrebat: "Găsește tiparul în greșelile mele. Care este conceptul pe care îl înțeleg greșit în diferite forme?"
Toți ceilalți elevi foloseau NotebookLM ca motor de căutare.
O folosea ca pe o oglindă.
Al treilea prompt a fost salvat ca scurtături pe telefon.
"Pe baza notițelor mele și a acestor lucrări anterioare, pentru ce subiect sunt cel mai puțin pregătit acum? Dă-mi cele 5 întrebări care vor apărea cel mai probabil la finalul meu și la care încă nu pot răspunde."
Trei sugestii. În fiecare săptămână.
În timp ce colegii lui reciteau slide-uri cu o seară înainte de examenele finale, el știa deja exact unde avea să pice.
Apoi a reparat-o.
Nu a învățat mai mult.
Pur și simplu nu și-a permis niciodată să se simtă confortabil.

1
🚨 NVIDIA tocmai a lansat un plan pentru antrenarea modelelor AI cu trilioane de parametri.
Și explică discret cum următoarea generație de modele va scala mult dincolo de LLM-urile de astăzi.
Lucrarea introduce un sistem pentru antrenarea modelelor Mix-of-Experts (MoE) folosind Megatron Core, aceeași familie de infrastructuri folosite pentru antrenarea unora dintre cele mai mari modele din lume.
Ideea cheie din spatele MoE este simplă, dar puternică:
În loc să activeze întregul model pentru fiecare token, sistemul direcționează fiecare token către doar câțiva "experți" specializați.
Asta înseamnă că poți scala masiv parametrii totali fără să crești calculul pentru fiecare token.
Teoretic, acest lucru îți oferă:
• Capacitate de un trilion de parametri
• Calcul la nivel de model dens per token
• Câștiguri masive de eficiență
Dar în practică, strică totul.
Antrenarea modelelor MoE creează un coșmar în trei straturi de sisteme:
Memorie. Comunicare. Calcul.
Optimizează unul și blochezi celelalte.
Soluția NVIDIA este practic co-proiectarea full-stack a întregului flux de antrenament.
Au introdus multiple optimizări la nivel de sistem:
• Recalcul detaliat și deconectare a memoriei pentru controlul presiunii memoriei pe GPU
• Dispecererii de tokenuri optimizați astfel încât tokenurile să poată fi rutate eficient între experți
• Grafice GEMM + CUDA grupate pentru maximizarea utilizării calculului GPU
• Pliere paralelă, care permite paralelism multidimensional flexibil între GPU-uri
• Antrenament de precizie redusă (FP8 / NVFP4) pentru a reduce dramatic costurile de calcul
Toate acestea se desfășoară în cadrul stack-ului open-source de antrenament pentru modele mari de la Megatron Core, de la NVIDIA.
Cifrele de performanță sunt absurde.
Despre cele mai noi sisteme GPU NVIDIA:
• 1.233 TFLOPS per GPU antrenând DeepSeek-V3-685B
• 974 TFLOPS per GPU Training Qwen3-235B
Și cadrul se scalează deja pe mii de GPU-uri în clustere de producție.
Povestea mai mare aici nu este doar antrenamentul mai rapid.
Este direcția arhitecturii AI.
Modelele dense scalează liniar cu calculul.
Modelele MoE scalează aproape exponențial cu parametrii, păstrând totodată calculul gestionabil.
Așa se obține:
Modele cu parametri 100B → 1T → 10T.
Același buget de calcul.
Doar o rutare mai inteligentă.
Dacă următorul val de modele de frontieră va exploda din nou în dimensiune, această lucrare explică exact cum vor fi instruite.
Lucrare: Antrenament scalabil al modelelor de amestec de experți cu nucleul Megatron

3
Limită superioară
Clasament
Favorite

