关于实证研究如何应对AI时代的非常有趣的工作。 传统的统计检验与p值来自一个每次测试都被认为相当昂贵的世界。AI现在使得每次测试基本上是免费的。 摘要中的一些关键点: --"我们证明了,随着测试变得便宜,筛选会崩溃,除非所需的稳健性检查数量至少按每个测试的逆成本线性扩展" --"我们主张需要开发方法来同时解释许多规格的集合" 是的!我仍然不知道这将如何看起来和感觉,但这显然是所需的。而且它必须双向切入: (1) 捕捉和阻止挑选研究结果 但同样重要的是: (2) 发现和奖励好的研究结果。 这里的第2点在某种程度上可能更难。我们所有的直觉似乎都围绕着展示一个发现是"不够稳健"的,而要求已发布结果有一种虚假的完美感。当我们能够看到整个发现的星座时,我们需要找到正确的方法,更宽容/现实地看待什么算是有用的信息。