針對 AI 編碼代理的新基準套件:SWE-Atlas! 這項努力旨在測量與經典的 SWE-bench 補丁修復不同的東西,基本上是深度代碼庫理解(運行時分析 + 多檔案推理)。 在代碼庫問答中,使用頂尖模型的通過率大約只有 ~30%。