¡Nueva suite de referencia para agentes de codificación AI: SWE-Atlas! el esfuerzo es medir algo diferente de la clásica SWE-bench de corrección de parches, básicamente la comprensión profunda de la base de código (análisis en tiempo de ejecución + razonamiento multi-archivo). en Codebase QnA, es bastante difícil con los mejores modelos que solo tenían una tasa de aprobación estricta de alrededor del ~30%.