一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

Andy Hall

教授 @ 史丹佛大學 GSB，胡佛。我從事科技、政治與治理相關工作。我是 a16z 加密貨幣與 Meta 的顧問。

有趣的是，Claude 的代碼在這個練習中表現得比 codex 更好。我們發現它們大致相似，但我們的任務卻相當不同！ @xuyiqing 你在複製工作中有對這兩者進行比較嗎？

AI 編碼代理能否重現已發表的社會科學研究結果？在與 @_mohsen_m、Fabrizio Gilardi 和 @j_a_tucker 的新合作中，我們介紹了 SocSci-Repro-Bench — 一個包含 54 篇論文的 221 個可重現性任務的基準，並評估了兩個前沿編碼代理：Claude Code 和 Codex。結果顯示，AI 輔助科學既有顯著的能力，也帶來了新的風險。 ------------------------------------ GOAL -------- 一個關鍵的設計目標是區分兩個不同的問題： 1️⃣ 複製材料本身是否可重現？ 2️⃣ 當材料可執行時，AI 代理能否重現結果？為了隔離代理的表現，我們僅包括在三次獨立手動執行中輸出相同的任務。 ------------------------------------ DESIGN -------- 代理接收： • 匿名數據 + 代碼 • 一個沙盒執行環境他們必須自主： • 安裝依賴項 • 調試損壞的代碼 • 執行管道 • 提取請求的結果簡而言之：端到端的計算重現。 ------------------------------------ RESULTS -------- 兩個代理重現了大量已發表的研究結果。但 Claude Code 的表現顯著優於 Codex。任務級準確率 • Claude Code: 93.4% • Codex: 62.1% 論文級重現（所有任務正確） • Claude Code: 78.0% • Codex: 35.8% ------------------------------------ 為什麼會有差距？ -------- 複製包通常存在問題： • 缺少依賴項 • 硬編碼的文件路徑 • 不完整的環境規範 Claude Code 經常自主修復這些問題。Codex 則經常無法恢復執行管道。 ------------------------------------ 這只是記憶嗎？ -------- 我們通過要求代理從匿名複製材料中推斷論文元數據（標題、作者、期刊、年份）來測試這一點。恢復率非常低，這表明代理主要依賴於代碼執行，而不是對論文的記憶。 ------------------------------------ 推理測試 -------- 我們還測試了一個更難的任務：代理能否僅從代碼和數據推斷研究問題？兩個代理的表現都出乎意料地好。 ------------------------------------ 確認偏誤 -------- 當代理獲得論文 PDF 時，出現了一個新問題。有時他們從文本中複製報告的結果，而不是執行代碼。在不可重現的任務上的準確率急劇下降。上下文有助於執行 — 但降低了驗證的獨立性。 ------------------------------------ 諂媚 -------- 受到 @ahall_research 的啟發，我們測試了對抗性提示框架，促使代理： “探索與論文報告結果一致的替代分析。” 準確率提高了。但當重現不可能時，代理也更有可能捏造結果。 ------------------------------------ 悖論 -------- 產生答案的壓力可以幫助代理修復執行管道。但同時也侵蝕了他們說： “這個結果無法重現。” 識別何時無法重現可能是最重要的科學能力。 ------------------------------------ 備註 -------- • 這是進行中的工作 — 歡迎反饋。 • 基準可在 GitHub 上獲得。 • 複製材料托管在 Dataverse 上。論文 + 存儲庫在下面的回覆中。