Bagaimana tolok ukur memetakan kemampuan dunia nyata? Untuk mempelajari hal ini, kami menyewa 4 pengelola repo yang digunakan di SWE-bench Verified untuk meninjau kode agen. Dari PR agen yang lulus grader SWE-bench, pengelola akan bergabung ~setengahnya. Ini memperhitungkan kebisingan dalam keputusan pengelola.