ik heb autokernel open-source gemaakt -- autoresearch voor GPU-kernels je geeft het een willekeurig pytorch-model. het profileert het model, vindt de knelpunten in de kernels, schrijft triton-vervangers en voert experimenten 's nachts uit. bewerk één bestand, benchmark, houd vast of keer terug, herhaal voor altijd. dezelfde cyclus als @karpathy autoresearch, toegepast op kerneloptimalisatie 95 experimenten. 18 TFLOPS → 187 TFLOPS. 1.31x vs cuBLAS. volledig autonoom 9 kerneltypes (matmul, flash attention, fused mlp, layernorm, rmsnorm, softmax, rope, cross entropy, reduce). de wet van Amdahl bepaalt wat als volgende geoptimaliseerd moet worden. 5-fasen correctheidscontroles voordat enige versnelling telt de agent leest program.md (de "research org code"), bewerkt, voert uit en houdt of keert terug. ~40 experimenten/uur. ~320 's nachts wordt geleverd met zelfvoorzienende GPT-2, LLaMA en BERT-definities, zodat je niet de transformers-bibliotheek nodig hebt om te beginnen.