熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Andy Hall
教授 @ 史丹佛大學 GSB,胡佛。我從事科技、政治與治理相關工作。我是 a16z 加密貨幣與 Meta 的顧問。
非常有趣的研究,探討了實證研究如何應對AI時代。
傳統的統計檢驗使用p值,源於一個每次測試都被認為相當昂貴的世界。現在,AI使得每次測試基本上是免費的。
摘要中的一些關鍵點:
--"我們證明了,當測試變得便宜時,篩選會崩潰,除非所需的穩健性檢查數量至少按每次測試的逆成本線性增長"
--"我們主張需要開發方法來同時解釋多個規範的集合"
是的!我仍然不確定這將如何看起來和感覺,但這顯然是所需的。而且它必須雙向進行:
(1) 捕捉和阻止挑選的研究結果
但同樣重要的是:
(2) 偵測和獎勵好的研究結果。
這裡的第二點在某些方面可能會更難。我們的直覺似乎都圍繞著顯示一個發現是"不如我們想的那麼穩健",並要求發表結果有一種虛假的完美感。當我們能看到整個發現的星座時,我們需要找到正確的方法來更寬容/現實地看待什麼算是有用的信息。

Nic Fishman3月9日 22:35
人們越來越擔心 AI 會破壞實證社會科學——代理人可以進行 p-hacking,直到找到某些 "有效" 的東西。
我們認為這種擔憂值得認真對待。我們的新論文顯示這在實證上是正確的,並使其變得精確:
309
有趣的是,Claude 的代碼在這個練習中表現得比 codex 更好。我們發現它們大致相似,但我們的任務卻相當不同!
@xuyiqing 你在複製工作中有對這兩者進行比較嗎?

Meysam Alizadeh3月7日 06:14
AI 編碼代理能否重現已發表的社會科學研究結果?
在與 @_mohsen_m、Fabrizio Gilardi 和 @j_a_tucker 的新合作中,我們介紹了 SocSci-Repro-Bench — 一個包含 54 篇論文的 221 個可重現性任務的基準,並評估了兩個前沿編碼代理:Claude Code 和 Codex。
結果顯示,AI 輔助科學既有顯著的能力,也帶來了新的風險。
------------------------------------
GOAL
--------
一個關鍵的設計目標是區分兩個不同的問題:
1️⃣ 複製材料本身是否可重現?
2️⃣ 當材料可執行時,AI 代理能否重現結果?
為了隔離代理的表現,我們僅包括在三次獨立手動執行中輸出相同的任務。
------------------------------------
DESIGN
--------
代理接收:
• 匿名數據 + 代碼
• 一個沙盒執行環境
他們必須自主:
• 安裝依賴項
• 調試損壞的代碼
• 執行管道
• 提取請求的結果
簡而言之:端到端的計算重現。
------------------------------------
RESULTS
--------
兩個代理重現了大量已發表的研究結果。
但 Claude Code 的表現顯著優於 Codex。
任務級準確率
• Claude Code: 93.4%
• Codex: 62.1%
論文級重現(所有任務正確)
• Claude Code: 78.0%
• Codex: 35.8%
------------------------------------
為什麼會有差距?
--------
複製包通常存在問題:
• 缺少依賴項
• 硬編碼的文件路徑
• 不完整的環境規範
Claude Code 經常自主修復這些問題。Codex 則經常無法恢復執行管道。
------------------------------------
這只是記憶嗎?
--------
我們通過要求代理從匿名複製材料中推斷論文元數據(標題、作者、期刊、年份)來測試這一點。恢復率非常低,這表明代理主要依賴於代碼執行,而不是對論文的記憶。
------------------------------------
推理測試
--------
我們還測試了一個更難的任務:
代理能否僅從代碼和數據推斷研究問題?
兩個代理的表現都出乎意料地好。
------------------------------------
確認偏誤
--------
當代理獲得論文 PDF 時,出現了一個新問題。有時他們從文本中複製報告的結果,而不是執行代碼。
在不可重現的任務上的準確率急劇下降。
上下文有助於執行 — 但降低了驗證的獨立性。
------------------------------------
諂媚
--------
受到 @ahall_research 的啟發,我們測試了對抗性提示框架,促使代理:
“探索與論文報告結果一致的替代分析。”
準確率提高了。
但當重現不可能時,代理也更有可能捏造結果。
------------------------------------
悖論
--------
產生答案的壓力可以幫助代理修復執行管道。
但同時也侵蝕了他們說:
“這個結果無法重現。”
識別何時無法重現可能是最重要的科學能力。
------------------------------------
備註
--------
• 這是進行中的工作 — 歡迎反饋。
• 基準可在 GitHub 上獲得。
• 複製材料托管在 Dataverse 上。
論文 + 存儲庫在下面的回覆中。

243
自由系統正在擴展。
我已經聘請了一批10多名研究員,我們正在建立一個全新的、由AI驅動的實驗室,旨在提供更及時的研究、想法和原型,以保護人類在算法世界中的自由。
在接下來的幾週內,我們將發布有關AI如何建議人們在日本投票的研究,關於我們在德克薩斯州初選中成功的投注實驗,關於將Bridgewater的尖端AI預測方法應用於預測地緣政治的研究,還有更多。
我們還將組織一個我非常期待的自由系統黑客馬拉松。
在我們建設的同時,我們不想失去對已經完成工作的視野——目標是讓每一項研究都能為一個聚合過程做出貢獻,而不是在線上被丟棄然後永遠被遺忘。
為此,我們開始了一個名為「系統檢查」的星期五簡報,提供我們現有研究的更新,這些研究如何與新發展相關,以及這對於建立自由系統的意義。
第一期今天發布。讓我知道你的想法!

226
熱門
排行
收藏
