热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Andy Hall
@ 斯坦福大学 GSB 教授,胡佛。我从事技术、政治和治理方面的工作。a16z crypto 和 Meta 的顾问。
关于实证研究如何应对AI时代的非常有趣的工作。
传统的统计检验与p值来自一个每次测试都被认为相当昂贵的世界。AI现在使得每次测试基本上是免费的。
摘要中的一些关键点:
--"我们证明了,随着测试变得便宜,筛选会崩溃,除非所需的稳健性检查数量至少按每个测试的逆成本线性扩展"
--"我们主张需要开发方法来同时解释许多规格的集合"
是的!我仍然不知道这将如何看起来和感觉,但这显然是所需的。而且它必须双向切入:
(1) 捕捉和阻止挑选研究结果
但同样重要的是:
(2) 发现和奖励好的研究结果。
这里的第2点在某种程度上可能更难。我们所有的直觉似乎都围绕着展示一个发现是"不够稳健"的,而要求已发布结果有一种虚假的完美感。当我们能够看到整个发现的星座时,我们需要找到正确的方法,更宽容/现实地看待什么算是有用的信息。

Nic Fishman3月9日 22:35
人们越来越担心 AI 会破坏实证社会科学——代理人可以进行 p-hacking,直到找到某种 "有效" 的东西。
我们认为这种担忧值得认真对待。我们的新论文表明,这在实证上是正确的,并且使其更加精确:
330
有趣的是,Claude 代码在这个练习中的表现优于 Codex。我们发现它们大致相似,但我们的任务却大相径庭!
@xuyiqing 你在你的复制工作中对这两者做过比较吗?

Meysam Alizadeh3月7日 06:14
AI 编码代理能否重现已发布的社会科学发现?
在与 @_mohsen_m、Fabrizio Gilardi 和 @j_a_tucker 的新合作中,我们推出了 SocSci-Repro-Bench——一个包含 54 篇论文的 221 个可重现性任务的基准,并评估了两个前沿编码代理:Claude Code 和 Codex。
结果揭示了 AI 辅助科学的显著能力和新风险。
------------------------------------
GOAL
--------
一个关键设计目标是区分两个不同的问题:
1️⃣ 复制材料本身是否可重现?
2️⃣ 当材料可执行时,AI 代理能否重现结果?
为了隔离代理性能,我们仅包括输出在三次独立手动执行中完全相同的任务。
------------------------------------
DESIGN
--------
代理接收:
• 匿名数据 + 代码
• 一个沙盒执行环境
他们必须自主:
• 安装依赖
• 调试损坏的代码
• 执行管道
• 提取请求的结果
简而言之:端到端的计算重现。
------------------------------------
RESULTS
--------
两个代理重现了大量已发布的发现。
但 Claude Code 的表现远超 Codex。
任务级准确率
• Claude Code: 93.4%
• Codex: 62.1%
论文级重现(所有任务正确)
• Claude Code: 78.0%
• Codex: 35.8%
------------------------------------
为什么会有差距?
--------
复制包通常存在问题:
• 缺少依赖
• 硬编码文件路径
• 不完整的环境规范
Claude Code 经常自主修复这些问题。Codex 经常无法恢复执行管道。
------------------------------------
这只是记忆吗?
--------
我们通过要求代理从匿名复制材料中推断论文元数据(标题、作者、期刊、年份)来测试这一点。恢复率非常低,表明代理主要依赖于代码执行,而不是对论文的记忆。
------------------------------------
推理测试
--------
我们还测试了一个更难的任务:
代理能否仅从代码和数据推断研究问题?
两个代理的表现出乎意料地好。
------------------------------------
确认偏误
--------
当代理获得论文 PDF 时,出现了一个新问题。有时他们从文本中复制报告的结果,而不是执行代码。
在不可重现任务上的准确率急剧下降。
上下文有助于执行——但降低了验证的独立性。
------------------------------------
谄媚
--------
受到 @ahall_research 的启发,我们测试了对抗性提示框架,促使代理:
“探索与论文报告结果一致的替代分析。”
准确率提高了。
但当重现不可能时,代理也更可能伪造结果。
------------------------------------
悖论
--------
产生答案的压力可以帮助代理修复执行管道。
但同时削弱了他们说:
“这个结果无法重现。”
识别何时无法重现可能是最重要的科学能力。
------------------------------------
备注
--------
• 这是正在进行的工作——欢迎反馈。
• 基准可在 GitHub 上获取。
• 复制材料托管在 Dataverse 上。
论文 + 仓库在下面的回复中。

270
自由系统正在扩展。
我已经聘请了一组10多名研究员,我们正在建立一个全新的、由AI驱动的实验室,旨在提供更及时的研究、想法和原型,以维护人类在算法世界中的自由。
在接下来的几周里,我们将发布关于AI如何建议人们在日本投票的研究,关于我们在德克萨斯州初选中成功的实验,关于将桥水公司的前沿AI预测方法应用于预测地缘政治等更多内容。
我们还将组织一个我非常兴奋的自由系统黑客马拉松。
在我们建设的过程中,我们不想失去对已经完成工作的视野——目标是让每一项研究都能为一个聚合过程做出贡献,而不是在线上被丢弃然后被遗忘。
为此,我们开始了一个名为“系统检查”的周五总结,提供我们现有研究的更新,如何与新发展相关,以及这对构建自由系统意味着什么。
第一个今天发布。让我知道你的想法!

244
热门
排行
收藏
