Nová sada benchmarků pro agenty kódování AI: SWE-Atlas! cílem je měřit něco jiného než klasické SWE-bench opravy záplat, v podstatě hluboké porozumění kódu (analýza za běhu + vícesouborové uvažování). v Codebase QnA je to docela těžké, protože top modely měly jen kolem ~30 % přísné úspěšnosti.