Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ihtesham
Investor, forfatter, pedagog og Dragon Ball-fan 🐉
En informatikkstudent ved MIT fullførte sitt siste semester med et snitt på 4,0.
Jeg fant arbeidsflyten hans i NotebookLM gjemt i en Reddit-tråd klokken 2 om natten. Han slettet den en time senere.
Her er akkurat hva han gjorde.
Han lastet aldri opp forelesningsslides og ba om et sammendrag.
Hans første prompt var alltid: «Her er notatene mine, lærebokkapitlet og fjorårets tidligere prøver. Gi meg de tre måtene professorer lurer studenter på eksamener med dette konseptet. Deretter lager du et problem som kombinerer det med alt fra de siste 3 ukene."
Han studerte ikke stoffet.
Han studerte hvordan materialet blir brukt som våpen mot deg.
Men bevegelsen som fikk meg til å lukke laptopen og stirre i taket var hans andre.
Han lastet opp hver eneste oppgave han hadde fått feil på hele semesteret.
Så spurte han: «Finn mønsteret i mine feil. Hva er det ene konseptet jeg stadig misforstår i ulike former?"
Alle andre studenter brukte NotebookLM som søkemotor.
Han brukte det som et speil.
Hans tredje prompt ble lagret som en snarvei på telefonen hans.
"Basert på notatene mine og disse tidligere oppgavene, hvilket tema er jeg minst forberedt på akkurat nå? Gi meg de 5 spørsmålene som mest sannsynlig vil dukke opp på eksamenen min, men som jeg ikke kan svare på ennå."
Tre prompts. Hver eneste uke.
Mens klassekameratene leste lysbilder på nytt kvelden før eksamen, visste han allerede nøyaktig hvor han kom til å stryke.
Så fikset han det.
Han studerte ikke hardere.
Han lot seg bare aldri føle seg komfortabel.

2
🚨 NVIDIA har nettopp sluppet en plan for trening av billion-parameter AI-modeller.
Og den forklarer stille hvordan neste generasjon modeller vil skalere langt utover dagens LLM-er.
Artikkelen introduserer et system for å trene Mixture-of-Experts (MoE)-modeller ved bruk av Megatron Core, den samme infrastrukturfamilien som brukes til å trene noen av verdens største modeller.
Hovedideen bak MoE er enkel, men kraftfull:
I stedet for å aktivere hele modellen for hver token, ruter systemet hver token til bare noen få spesialiserte «eksperter».
Det betyr at du kan skalere totale parametere massivt uten å øke beregningen for hver token.
I teorien gir dette deg:
• Billion-parameter kapasitet
• Beregning på tettmodellnivå per token
• Store effektivitetsgevinster
Men i praksis ødelegger det alt.
Trening av MoE-modeller skaper et mareritt på tvers av tre systemlag:
Minne. Kommunikasjon. Beregning.
Optimaliser du én, får du flaskehals på de andre.
NVIDIAs løsning er i bunn og grunn fullstack co-design av hele treningspipelinen.
De introduserte flere optimaliseringer på systemnivå:
• Finkornet omberegning og minneavlasting for å kontrollere GPU-minnetrykket
• Optimaliserte token-dispatchere slik at tokens kan rutes effektivt mellom eksperter
• Grupperte GEMM + CUDA-grafer for å maksimere GPU-beregningsutnyttelsen
• Parallellfolding, som muliggjør fleksibel flerdimensjonal parallellisme på tvers av GPU-er
• Lavpresisjonstrening (FP8 / NVFP4) for dramatisk å redusere beregningskostnadene
Alt dette kjører inne i Megatron Core NVIDIAs åpne kildekode-treningsstakk for store modeller.
Ytelsestallene er absurde.
Om NVIDIAs nyeste GPU-systemer:
• 1 233 TFLOPS per GPU-trening DeepSeek-V3-685B
• 974 TFLOPS per GPU-trening Qwen3-235B
Og rammeverket skalerer allerede over tusenvis av GPU-er i produksjonsklynger.
Den større historien her handler ikke bare om raskere trening.
Det er retningen for AI-arkitektur.
Tette modeller skalerer lineært med beregning.
MoE-modeller skalerer nesten eksponentielt med parametere samtidig som beregningen holdes håndterbar.
Slik får du:
100B → 1T → 10T parametermodeller.
Samme beregningsbudsjett.
Bare smartere ruting.
Hvis neste bølge av frontier-modeller eksploderer i størrelse igjen, forklarer denne artikkelen nøyaktig hvordan de vil bli trent.
Artikkel: Skalerbar trening av blandingsmodeller med Megatron-kjerne

4
Topp
Rangering
Favoritter

