Hur kopplas benchmarks till verkliga kapaciteter? För att studera detta anställde vi fyra underhållare av repoer som används i SWE-bench Verified för att granska agentkod. Av agent-PR:er som klarade SWE-bench:s grader skulle underhållare slå ihop ~hälften. Detta tar hänsyn till brus i underhållarbeslut.