DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Neue Benchmark-Suite für KI-Coding-Agenten: SWE-Atlas! das Ziel ist es, etwas anderes zu messen als das klassische SWE-Bench-Patch-Fixing, nämlich das tiefgehende Verständnis von Codebasen (Laufzeitanalyse + Mehrdatei-Argumentation). In der Codebase QnA ist es ziemlich schwierig, da die besten Modelle nur eine strikte Bestehensquote von etwa ~30 % hatten.

Top

Ranking

Favoriten