я опубликовал autokernel с открытым исходным кодом -- автоисследование для GPU ядер вы даете ему любую модель pytorch. он профилирует модель, находит узкие места в ядрах, пишет замены на triton и проводит эксперименты за ночь. редактируйте один файл, проводите бенчмаркинг, сохраняйте или откатывайте, повторяйте вечно. тот же цикл, что и у @karpathy в автоисследовании, примененный к оптимизации ядер 95 экспериментов. 18 TFLOPS → 187 TFLOPS. 1.31x по сравнению с cuBLAS. все автономно 9 типов ядер (умножение матриц, быстрая внимательность, объединенный mlp, нормализация по слоям, rmsnorm, softmax, rope, кросс-энтропия, редукция). закон Амдала решает, что оптимизировать дальше. 5 этапов проверок корректности перед тем, как любой прирост скорости будет засчитан агент читает program.md ("код исследовательской организации"), редактирует, запускает и либо сохраняет, либо откатывает. ~40 экспериментов в час. ~320 за ночь поставляется с самодостаточными определениями GPT-2, LLaMA и BERT, так что вам не нужна библиотека transformers, чтобы начать