he publicado el código de autokernel -- autoresearch para núcleos de GPU tu le das cualquier modelo de pytorch. perfila el modelo, encuentra los núcleos que son cuellos de botella, escribe reemplazos en triton y ejecuta experimentos durante la noche. edita un archivo, mide el rendimiento, conserva o revierte, repite para siempre. mismo bucle que @karpathy autoresearch, aplicado a la optimización de núcleos 95 experimentos. 18 TFLOPS → 187 TFLOPS. 1.31x frente a cuBLAS. todo autónomo 9 tipos de núcleos (matmul, atención flash, mlp fusionado, layernorm, rmsnorm, softmax, rope, entropía cruzada, reducción). la ley de Amdahl decide qué optimizar a continuación. 5 etapas de verificación de corrección antes de que cualquier aumento de velocidad cuente el agente lee program.md (el "código de organización de investigación"), edita, ejecuta y conserva o revierte. ~40 experimentos/hora. ~320 durante la noche se envía con definiciones de GPT-2, LLaMA y BERT auto-contenidas para que no necesites la biblioteca de transformers para comenzar.