Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
otworzyłem kod źródłowy autokernel -- autoresearch dla rdzeni GPU
dajesz mu dowolny model pytorch. profiluje model, znajduje wąskie gardła rdzeni, pisze zamienniki w tritonie i przeprowadza eksperymenty przez noc. edytujesz jeden plik, benchmarkujesz, zachowujesz lub cofasz, powtarzasz w nieskończoność.
ta sama pętla co @karpathy autoresearch, zastosowana do optymalizacji rdzeni
95 eksperymentów. 18 TFLOPS → 187 TFLOPS. 1.31x w porównaniu do cuBLAS. wszystko autonomiczne
9 typów rdzeni (matmul, flash attention, fused mlp, layernorm, rmsnorm, softmax, rope, cross entropy, reduce). prawo amdahla decyduje, co optymalizować następnie. 5-etapowe kontrole poprawności przed tym, jak jakiekolwiek przyspieszenie się liczy
agent czyta program.md ("kod organizacji badawczej"), edytuje, uruchamia i albo zachowuje, albo cofa. ~40 eksperymentów/godzinę. ~320 przez noc
wysyłany z samodzielnymi definicjami GPT-2, LLaMA i BERT, więc nie potrzebujesz biblioteki transformers, aby zacząć

Najlepsze
Ranking
Ulubione
