Ny benchmark-suite for AI-kodingsagenter: SWE-Atlas! målet er å måle noe annet enn klassisk SWE-bench patch-fixing, i bunn og grunn dyp kodebaseforståelse (kjøretidsanalyse + flerfil-resonnement). i Codebase QnA er det ganske vanskelig, med toppmodellene som bare var rundt ~30 % streng beståttprosent.