Comment les benchmarks se traduisent-ils en capacités réelles ? Pour étudier cela, nous avons engagé 4 responsables de dépôts utilisés dans SWE-bench Verified pour examiner le code des agents. Parmi les PR des agents qui ont réussi le correcteur de SWE-bench, les responsables fusionneraient environ la moitié. Cela reste vrai en tenant compte du bruit dans les décisions des responsables.