i åpen kildekode autokernel – autoresearch for GPU-kjerner Du gir den hvilken som helst Pytorch-modell. Den profilerer modellen, finner flaskehalskjernene, skriver tritonerstatninger og kjører eksperimenter over natten. Rediger én fil, benchmark, behold eller tilbakestil, gjenta for alltid. samme løkke som @karpathy autoresearch, anvendt på kjerneoptimalisering 95 eksperimenter. 18 TFLOPS → 187 TFLOPS. 1,31x vs cuBLAS. helt autonomt 9 kjernetyper (matmul, flash attention, fused mlp, layernorm, rmsnorm, softmax, rope, cross entropy, reduce). Amdahls lov avgjør hva som skal optimaliseres neste gang. 5-trinns korrekthetskontroller før noen hastighetsøkning teller Agenten leser program.md ("Research Org-koden"), redigerer, kjører og beholder eller tilbakefører. ~40 eksperimenter i timen. ~320 over natten leveres med selvstendige GPT-2, LLaMA og BERT-definisjoner, så du trenger ikke transformers-biblioteket for å komme i gang