Neue Benchmark-Suite für KI-Coding-Agenten: SWE-Atlas! das Ziel ist es, etwas anderes zu messen als das klassische SWE-Bench-Patch-Fixing, nämlich das tiefgehende Verständnis von Codebasen (Laufzeitanalyse + Mehrdatei-Argumentation). In der Codebase QnA ist es ziemlich schwierig, da die besten Modelle nur eine strikte Bestehensquote von etwa ~30 % hatten.