Uusi testipaketti tekoälykoodausagenteille: SWE-Atlas! tavoitteena on mitata jotain erilaista kuin klassinen SWE-bench-patch-fixing, käytännössä syvällinen koodipohjan ymmärrys (ajonaikainen analyysi + monitiedostopäättely). Codebase QnA:ssa se on melko vaikeaa, kun huippumallit olivat vain noin ~30 % tiukkoja läpäisyprosentteja.