非常有趣的研究,探討了實證研究如何應對AI時代。 傳統的統計檢驗使用p值,源於一個每次測試都被認為相當昂貴的世界。現在,AI使得每次測試基本上是免費的。 摘要中的一些關鍵點: --"我們證明了,當測試變得便宜時,篩選會崩潰,除非所需的穩健性檢查數量至少按每次測試的逆成本線性增長" --"我們主張需要開發方法來同時解釋多個規範的集合" 是的!我仍然不確定這將如何看起來和感覺,但這顯然是所需的。而且它必須雙向進行: (1) 捕捉和阻止挑選的研究結果 但同樣重要的是: (2) 偵測和獎勵好的研究結果。 這裡的第二點在某些方面可能會更難。我們的直覺似乎都圍繞著顯示一個發現是"不如我們想的那麼穩健",並要求發表結果有一種虛假的完美感。當我們能看到整個發現的星座時,我們需要找到正確的方法來更寬容/現實地看待什麼算是有用的信息。