Nowa zestaw benchmarków dla agentów kodowania AI: SWE-Atlas! Celem jest zmierzenie czegoś innego niż klasyczne poprawianie łatek SWE-bench, zasadniczo głębokie zrozumienie bazy kodu (analiza w czasie rzeczywistym + rozumienie wielu plików). W pytaniach i odpowiedziach dotyczących bazy kodu jest to dość trudne, ponieważ najlepsze modele miały tylko około ~30% wskaźnika ścisłego zaliczenia.