Harness
元基准想法:一个基本代理工具的集合(AGENTS.md,文档,技能,钩子),封装了非平凡的应用程序,每个应用程序都有一个单一的提示,可以从头开始一次性构建应用程序。当新的编码代理或模型发布时,我们可以对照工具直接与之前的模型版本进行比较。“这个模型从标准浏览器工具中从头编写了一个浏览器,功能完整性为X%,仅用Y行代码在Z小时内完成,费用为$XYZ。”
想象一下,通过每次后续模型更新的视角看到Cursor开发的那个浏览器。代码有多好?渲染器有多快?功能集有多完整?代理运行了多长时间?代币的总成本是多少?
有点像CSS Zen Garden(它在推动浏览器标准方面做了很多工作)为代理工具。
我觉得我们所有人都体验过Codex 5.4 Extra High的不同(如果没有,请立即停止阅读这篇文章并尝试一下),但我们仍然没有办法在基准中捕捉到作为开发者使用它的定性体验,特别是在架构和代码质量等度量方面。