Các tiêu chuẩn đánh giá tương ứng với khả năng thực tế như thế nào? Để nghiên cứu điều này, chúng tôi đã thuê 4 người duy trì các kho lưu trữ được sử dụng trong SWE-bench Verified để xem xét mã của tác nhân. Trong số các PR của tác nhân đã vượt qua trình chấm điểm của SWE-bench, các người duy trì sẽ hợp nhất khoảng một nửa. Điều này vẫn đúng khi tính đến sự nhiễu trong quyết định của người duy trì.