tôi đã mã nguồn mở autokernel -- nghiên cứu tự động cho các kernel GPU bạn chỉ cần cung cấp bất kỳ mô hình pytorch nào. nó sẽ phân tích mô hình, tìm các kernel tắc nghẽn, viết các thay thế triton và thực hiện các thí nghiệm qua đêm. chỉnh sửa một tệp, đo hiệu suất, giữ lại hoặc hoàn tác, lặp lại mãi mãi. cùng một vòng lặp như @karpathy autoresearch, áp dụng cho tối ưu hóa kernel 95 thí nghiệm. 18 TFLOPS → 187 TFLOPS. 1.31x so với cuBLAS. hoàn toàn tự động 9 loại kernel (matmul, flash attention, fused mlp, layernorm, rmsnorm, softmax, rope, cross entropy, reduce). định luật amdahl quyết định cái gì sẽ được tối ưu hóa tiếp theo. 5 giai đoạn kiểm tra độ chính xác trước khi bất kỳ sự tăng tốc nào được tính đại lý đọc program.md ("mã tổ chức nghiên cứu"), chỉnh sửa, chạy và giữ lại hoặc hoàn tác. ~40 thí nghiệm/giờ. ~320 qua đêm đi kèm với định nghĩa GPT-2, LLaMA và BERT tự chứa để bạn không cần thư viện transformers để bắt đầu