トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andy Hall
Prof @ Stanford GSB、フーバー。私はテクノロジー、政治、ガバナンスに関わっています。a16z crypto and Metaのアドバイザーです。
AI時代に実証的研究がどのように対応すべきかについての非常に興味深い研究です。
従来のp値を用いた統計検定は、各検定が非常にコストが高いと考えられていた時代から生まれました。AIは今や各テストをほぼ無料で実施できるようにしています。
要約からのいくつかの重要なポイント:
――「検査が安くなるにつれてスクリーニングは崩壊することを証明します。ただし、必要な堅牢性検査の回数が各検査の反コストに対して少なくとも線形にスケールしない限りです」
--「我々は多くの仕様集合を同時に解釈する手法を開発する必要性を主張する」
はい!これがどう見えるか、どんな感じになるかはまだ正確にはわかりませんが、明らかに必要なものです。そして、両方向にカットしなければなりません:
(1) 選りすぐりの研究結果を捉え、抑止すること
しかし同じくらい重要なのは:
(2) 良い発見を検出し、報いる。
2つ目はある意味で難しいかもしれません。私たちの直感は、発見が「思っていたよりも堅牢ではない」ことを示すこと、そして公開された結果から偽りの完璧さを求めることにあります。発見の全てが見えるようになったとき、何が有用な情報とみなされるかについて、より寛容で現実的なアプローチを見つける必要があります。

Nic Fishman3月9日 22:35
AIが実証的な社会科学を破るのではないかという懸念が高まっています――エージェントが「うまくいく」ものを見つけるまでpハックを続けるのではないかというのです。
私たちはその心配を真剣に受け止めるべきだと考えています。私たちの新しい論文は、それが実証的に真実であることを示し、正確に示しています。
304
興味深いのは、この練習でClaudeのコードがCodexよりも優れているということです。私たちは大体似ていると感じていますが、私たちの仕事はかなり違います!
複製の研究で両者を比較したことは@xuyiqingしましたか?

Meysam Alizadeh3月7日 06:14
AIコーディングエージェントは発表された社会科学の成果を再現できますか?
@_mohsen_m、Fabrizio Gilardi、@j_a_tuckerとの新しい研究では、SocSci-Repro-Benchを導入しました。これは54本の論文から221件の再現性タスクをベンチマークしたもので、Claude CodeとCodexという2つのフロンティアコーディングエージェントを評価しました。
この結果は、AI支援科学における驚くべき能力と新たなリスクの両方を明らかにしています。
------------------------------------
目標
--------
重要な設計目標は、2つの異なる問題を分離することでした。
1️Repcial材料自体は再現可能ですか?
2️そして、素材が実行可能な場合、AIエージェントは結果を再現できますか?
エージェントのパフォーマンスを分離するために、出力が3つの独立した手動実行で同一のタスクのみを含めました。
------------------------------------
設計
--------
受領したエージェント:
・匿名化されたデータ+コード
・サンドボックス型実行環境
彼らは自律的に:
• インストール依存関係
・壊れたコードのデバッグ
・パイプラインの実行
• 要求された結果を抽出する
要するに、エンドツーエンドの計算再現です。
------------------------------------
結果
--------
両エージェントは発表された発見の大部分を再現しました。
しかし、クロード・コードはコデックスを大きく上回った。
作業レベルの精度
• クロードコード:93.4%
• コデックス:62.1%
紙レベルでの複製(すべての作業は正しい)
• クロードコード:78.0%
• コデックス:35.8%
------------------------------------
なぜ空白があるのか?
--------
レプリケーションパッケージにはしばしば以下のような問題があります:
・依存関係の欠落
• ハードコーディングされたファイルパス
• 不完全な環境仕様
Claude Codeはこれらの問題を自律的に頻繁に修正していました。Codexは実行パイプラインの復旧に失敗することが多かったです。
------------------------------------
これは単なる暗記でしょうか?
--------
匿名化された複製資料から論文のメタデータ(タイトル、著者、ジャーナル、年)を推測してもらい、これを検証しました。回収率は非常に低く、エージェントが主に暗記ではなくコード実行に依存していたことを示唆しています。
------------------------------------
推論テスト
--------
さらに難しい課題も試しました。
エージェントはコードとデータだけで研究の課題を推論できますか?
両エージェントは驚くほど良いパフォーマンスを見せました。
------------------------------------
確証バイアス
--------
エージェントに紙のPDFが渡された際、新たな問題が生じました。時にはコードを実行せずにテキストから報告された結果をコピーすることもありました。
再現性のないタスクの精度は急激に低下しました。
コンテキストは実行を助けますが、検証の独立性を低下させます。
------------------------------------
取り巻き
--------
@ahall_researchに触発され、対抗的なプロンプトフレーミングを検証し、エージェントを次の段階に誘導しました。
「論文の報告結果に沿った代替解析を探求する。」
命中率も向上しました。
しかし、複製が不可能になると、エージェントは結果を捏造する傾向も強くなりました。
------------------------------------
パラドックス
--------
回答を求めるプレッシャーは、実行パイプラインの修復に役立ちます。
しかし同時に、彼らがこう言う能力を蝕んでしまいます。
「この結果は再現できません。」
繁殖が不可能なタイミングを認識することが、最も重要な科学的能力かもしれません。
------------------------------------
注記
--------
・これは進行中の作業です — フィードバックを歓迎します。
・ベンチマークはGitHubで利用可能です。
・Dataverse上でホストされているレプリケーション資料。
以下の返信に論文+リポジトリについて。

238
フリーシステムズは拡大しています。
私は10+人のリサーチフェローのコホートを採用し、アルゴリズムの世界で人間の自由を守るためのよりタイムリーな研究、アイデア、プロトタイプを提供する新しいAI搭載ラボを構築しています。
今後数週間で、AIが日本で人々の投票を推奨する方法、テキサス予備選での成功した実験、Bridgewaterの最先端のAI予測手法を地政学的予測に応用した研究など、さまざまな研究を発表していきます。
また、私がとても楽しみにしているFree Systemsのハッカソンも企画します。
構築を進める中で、すでに成し遂げたことを見失いたくありません---目標は、各研究が集約プロセスに貢献し、オンラインで放置されて永遠に忘れ去られることではありません。
そのために、金曜日に「System Check」というランダウンを開始し、既存の研究内容や新しい開発との関連、そしてFree Systems構築における意味について報告します。
最初の作品は今日発売されます。皆さんの意見をぜひ教えてください!

221
トップ
ランキング
お気に入り
