Новый эталонный набор для AI-кодирующих агентов: SWE-Atlas! усилие направлено на измерение чего-то отличного от классического SWE-bench, исправления патчей, в основном глубокого понимания кодовой базы (анализ в реальном времени + многопольное рассуждение). в Codebase QnA довольно сложно, так как у лучших моделей только около ~30% строгий проходной балл.