¿Cómo se relacionan los benchmarks con las capacidades del mundo real? Para estudiar esto, contratamos a 4 mantenedores de repositorios usados en SWE-bench Verified para revisar el código de los agentes. De los PR de los agentes que pasaban la calificación de SWE-bench, los mantenedores se fusionaban ~ la mitad. Esto tiene en cuenta el ruido en las decisiones del mantenedor.