Wie korrelieren Benchmarks mit realen Fähigkeiten? Um dies zu untersuchen, haben wir 4 Betreuer von Repos, die in SWE-bench Verified verwendet werden, engagiert, um den Agenten-Code zu überprüfen. Von den Agenten-PRs, die den Prüfer von SWE-bench bestanden haben, würden die Betreuer etwa die Hälfte zusammenführen. Dies gilt unter Berücksichtigung von Störungen in den Entscheidungen der Betreuer.