Hvordan samsvarer benchmarks med reelle kapabiliteter? For å studere dette ansatte vi 4 vedlikeholdere av repos brukt i SWE-bench Verified for å gjennomgå agentkode. Av agent-PR-er som bestod SWE-bench sin grader, ville vedlikeholderne slå sammen ~halvparten. Dette tar hensyn til støy i vedlikeholdernes beslutninger.