DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Andy Hall

Prof @ Stanford GSB, Hoover. Je travaille sur la technologie, la politique et la gouvernance. Conseiller chez a16z crypto et Meta.

Intéressant que le code de Claude fonctionne mieux que Codex dans cet exercice. Nous avons constaté qu'ils sont à peu près similaires, mais nos tâches sont assez différentes ! @xuyiqing as-tu fait des comparaisons entre les deux dans ton travail de réplication ?

Les agents de codage AI peuvent-ils reproduire des résultats publiés en sciences sociales ? Dans un nouveau travail avec @_mohsen_m, Fabrizio Gilardi et @j_a_tucker, nous introduisons SocSci-Repro-Bench — un benchmark de 221 tâches de reproductibilité provenant de 54 articles — et évaluons deux agents de codage de pointe : Claude Code et Codex. Les résultats révèlent à la fois des capacités remarquables et de nouveaux risques pour la science assistée par l'IA. ------------------------------------ GOAL -------- Un objectif clé de conception était de séparer deux problèmes différents : 1️⃣ Les matériaux de réplication eux-mêmes sont-ils reproductibles ? 2️⃣ Les agents AI peuvent-ils reproduire des résultats lorsque les matériaux sont exécutables ? Pour isoler la performance des agents, nous avons uniquement inclus des tâches dont les résultats étaient identiques lors de trois exécutions manuelles indépendantes. ------------------------------------ DESIGN -------- Les agents ont reçu : • des données anonymisées + du code • un environnement d'exécution en bac à sable Ils devaient de manière autonome : • installer des dépendances • déboguer le code défectueux • exécuter le pipeline • extraire les résultats demandés En résumé : reproduction computationnelle de bout en bout. ------------------------------------ RESULTATS -------- Les deux agents ont reproduit une grande part des résultats publiés. Mais Claude Code a largement surpassé Codex. Précision au niveau des tâches • Claude Code : 93,4 % • Codex : 62,1 % Reproduction au niveau des articles (toutes les tâches correctes) • Claude Code : 78,0 % • Codex : 35,8 % ------------------------------------ POURQUOI L'ÉCART ? -------- Les paquets de réplication contiennent souvent des problèmes : • dépendances manquantes • chemins de fichiers codés en dur • spécifications d'environnement incomplètes Claude Code a fréquemment réparé ces problèmes de manière autonome. Codex a souvent échoué à récupérer le pipeline d'exécution. ------------------------------------ EST-CE QUE C'EST JUSTE DE LA MÉMORISATION ? -------- Nous avons testé cela en demandant aux agents d'inférer les métadonnées de l'article (titre, auteurs, revue, année) à partir des matériaux de réplication anonymisés. Les taux de récupération étaient très bas, suggérant que les agents s'appuyaient principalement sur l'exécution du code, et non sur la mémorisation des articles. ------------------------------------ TEST DE RAISONNEMENT -------- Nous avons également testé une tâche plus difficile : Les agents peuvent-ils inférer la question de recherche d'une étude à partir du code et des données seules ? Les deux agents ont étonnamment bien performé. ------------------------------------ BIAIS DE CONFIRMATION -------- Lorsque les agents ont reçu le PDF de l'article, un nouveau problème est apparu. Parfois, ils copiaient les résultats rapportés du texte au lieu d'exécuter le code. La précision sur les tâches non reproductibles a chuté brusquement. Le contexte aide à l'exécution — mais réduit l'indépendance de la vérification. ------------------------------------ SYCOPHANTIE -------- Inspirés par @ahall_research, nous avons testé le cadrage d'invite adversarial, incitant les agents à : "explorer des analyses alternatives qui s'alignent avec les résultats rapportés de l'article." La précision a augmenté. Mais les agents sont également devenus plus susceptibles de fabriquer des résultats lorsque la reproduction était impossible. ------------------------------------ LE PARADOXE -------- La pression pour produire une réponse peut aider les agents à réparer les pipelines d'exécution. Mais cela érode simultanément leur capacité à dire : "Ce résultat ne peut pas être reproduit." Reconnaître quand la reproduction est impossible peut être la capacité scientifique la plus importante. ------------------------------------ NOTES -------- • Ceci est un travail en cours — les retours sont les bienvenus. • Benchmark disponible sur GitHub. • Matériaux de réplication hébergés sur Dataverse. Article + dépôt dans la réponse ci-dessous.

Meilleurs

Classement

Favoris