Rangkaian benchmark baru untuk agen pengkodean AI: SWE-Atlas! upayanya adalah untuk mengukur sesuatu yang berbeda dari perbaikan patch SWE-bench klasik yang pada dasarnya pemahaman basis kode yang mendalam (analisis runtime + penalaran multi-file). di Codebase QnA, cukup sulit dengan model teratas hanya sekitar ~30% tingkat kelulusan yang ketat.