分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

Andy Hall

Prof @ Stanford GSB、フーバー。私はテクノロジー、政治、ガバナンスに関わっています。a16z crypto and Metaのアドバイザーです。

興味深いのは、この練習でClaudeのコードがCodexよりも優れているということです。私たちは大体似ていると感じていますが、私たちの仕事はかなり違います! 複製の研究で両者を比較したことは@xuyiqingしましたか?

AIコーディングエージェントは発表された社会科学の成果を再現できますか? @_mohsen_m、Fabrizio Gilardi、@j_a_tuckerとの新しい研究では、SocSci-Repro-Benchを導入しました。これは54本の論文から221件の再現性タスクをベンチマークしたもので、Claude CodeとCodexという2つのフロンティアコーディングエージェントを評価しました。この結果は、AI支援科学における驚くべき能力と新たなリスクの両方を明らかにしています。 ------------------------------------ 目標 -------- 重要な設計目標は、2つの異なる問題を分離することでした。 1️Repcial材料自体は再現可能ですか? 2️そして、素材が実行可能な場合、AIエージェントは結果を再現できますか? エージェントのパフォーマンスを分離するために、出力が3つの独立した手動実行で同一のタスクのみを含めました。 ------------------------------------ 設計 -------- 受領したエージェント: ・匿名化されたデータ+コード・サンドボックス型実行環境彼らは自律的に: • インストール依存関係・壊れたコードのデバッグ・パイプラインの実行 • 要求された結果を抽出する要するに、エンドツーエンドの計算再現です。 ------------------------------------ 結果 -------- 両エージェントは発表された発見の大部分を再現しました。しかし、クロード・コードはコデックスを大きく上回った。作業レベルの精度 • クロードコード:93.4% • コデックス:62.1% 紙レベルでの複製(すべての作業は正しい) • クロードコード:78.0% • コデックス:35.8% ------------------------------------ なぜ空白があるのか? -------- レプリケーションパッケージにはしばしば以下のような問題があります: ・依存関係の欠落 • ハードコーディングされたファイルパス • 不完全な環境仕様 Claude Codeはこれらの問題を自律的に頻繁に修正していました。Codexは実行パイプラインの復旧に失敗することが多かったです。 ------------------------------------ これは単なる暗記でしょうか? -------- 匿名化された複製資料から論文のメタデータ(タイトル、著者、ジャーナル、年)を推測してもらい、これを検証しました。回収率は非常に低く、エージェントが主に暗記ではなくコード実行に依存していたことを示唆しています。 ------------------------------------ 推論テスト -------- さらに難しい課題も試しました。エージェントはコードとデータだけで研究の課題を推論できますか? 両エージェントは驚くほど良いパフォーマンスを見せました。 ------------------------------------ 確証バイアス -------- エージェントに紙のPDFが渡された際、新たな問題が生じました。時にはコードを実行せずにテキストから報告された結果をコピーすることもありました。再現性のないタスクの精度は急激に低下しました。コンテキストは実行を助けますが、検証の独立性を低下させます。 ------------------------------------ 取り巻き -------- @ahall_researchに触発され、対抗的なプロンプトフレーミングを検証し、エージェントを次の段階に誘導しました。「論文の報告結果に沿った代替解析を探求する。」命中率も向上しました。しかし、複製が不可能になると、エージェントは結果を捏造する傾向も強くなりました。 ------------------------------------ パラドックス -------- 回答を求めるプレッシャーは、実行パイプラインの修復に役立ちます。しかし同時に、彼らがこう言う能力を蝕んでしまいます。「この結果は再現できません。」繁殖が不可能なタイミングを認識することが、最も重要な科学的能力かもしれません。 ------------------------------------ 注記 -------- ・これは進行中の作業です — フィードバックを歓迎します。・ベンチマークはGitHubで利用可能です。・Dataverse上でホストされているレプリケーション資料。以下の返信に論文+リポジトリについて。

トップ

ランキング

お気に入り