AI 编码代理的新基准套件:SWE-Atlas! 这个努力旨在测量与经典的 SWE-bench 补丁修复不同的内容,基本上是深度代码库理解(运行时分析 + 多文件推理)。 在代码库问答中,顶级模型的严格通过率仅约为 ~30%,这非常困难。