Otevřel jsem autokernel – autoresearch pro GPU jádra Dej mu jakýkoli model Pytorch. Profiluje model, najde jádra úzkého hrdla, nahradí tritonové náhrady a provádí experimenty přes noc. Upravit jeden soubor, benchmarkovat, zachovat nebo vrátit, opakovat donekonečna. Stejný cyklus jako @karpathy autoresearch, aplikovaný na optimalizaci jádra 95 experimentů. 18 TFLOPS → 187 TFLOPS. 1,31x vs cuBLAS. Vše autonomní 9 typů jader (matmul, flash attention, fused mlp, layernorm, rmsnorm, softmax, rope, cross entropy, reduce). Amdahlov zákon rozhoduje, co optimalizovat dál. Pětistupňové kontroly správnosti před započítáním zrychlení agent čte program.md ("kód výzkumné organizace"), upravuje a buď ponechá, nebo vrátí zpět. ~40 experimentů za hodinu. ~320 přes noc Obsahuje samostatné definice GPT-2, LLaMA a BERT, takže k začátku nepotřebujete knihovnu transformers