¿Cómo se relacionan los benchmarks con las capacidades del mundo real? Para estudiar esto, contratamos a 4 mantenedores de repositorios utilizados en SWE-bench Verified para revisar el código del agente. De los PRs del agente que pasaron el evaluador de SWE-bench, los mantenedores fusionarían aproximadamente la mitad. Esto se mantiene teniendo en cuenta el ruido en las decisiones de los mantenedores.