Nuovo benchmark per agenti di codifica AI: SWE-Atlas! l'obiettivo è misurare qualcosa di diverso rispetto al classico patch-fixing di SWE-bench, fondamentalmente una comprensione profonda del codice sorgente (analisi in tempo reale + ragionamento su più file). nella QnA del codice sorgente, è piuttosto difficile con i modelli migliori che avevano solo circa il ~30% di tasso di superamento rigoroso.