Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andy Hall
Prof @ Stanford GSB, Hoover. Je travaille sur la technologie, la politique et la gouvernance. Conseiller chez a16z crypto et Meta.
Un travail très intéressant sur la manière dont la recherche empirique doit répondre à l'ère de l'IA.
Les tests statistiques conventionnels avec des p-values proviennent d'un monde où chaque test était considéré comme assez coûteux. L'IA rend désormais chaque test essentiellement gratuit à exécuter.
Quelques points clés de l'abstract :
--"nous prouvons que le dépistage s'effondre à mesure que les tests deviennent bon marché, à moins que le nombre requis de vérifications de robustesse ne s'échelle au moins linéairement à l'inverse du coût de chaque test"
--"nous plaidons pour la nécessité de développer des méthodes pour interpréter simultanément des ensembles de nombreuses spécifications"
Oui ! Je ne sais toujours pas exactement à quoi cela ressemblera et comment cela se ressentira, mais c'est clairement ce qui est requis. Et cela doit aller dans les deux sens :
(1) Attraper et dissuader les résultats de recherche sélectionnés
Mais tout aussi crucial :
(2) Détecter et récompenser les bons résultats.
Le numéro 2 ici pourrait s'avérer d'une certaine manière plus difficile. Toute notre intuition semble tourner autour de la démonstration qu'un résultat est "moins robuste" que ce que nous pensions, et d'exiger un faux sens de perfection des résultats publiés. Lorsque nous pouvons voir toute la constellation des résultats, nous devons trouver le bon moyen d'être plus charitable/réaliste sur ce qui compte comme information utile.

Nic Fishman9 mars, 22:35
Il y a une inquiétude croissante que l'IA va briser la science sociale empirique -- que les agents peuvent manipuler les p-values jusqu'à ce qu'ils trouvent quelque chose qui "fonctionne."
Nous pensons que cette inquiétude mérite d'être prise au sérieux. Notre nouvel article montre que c'est vrai empiriquement et le précise :
297
Intéressant que le code de Claude fonctionne mieux que Codex dans cet exercice. Nous avons constaté qu'ils sont à peu près similaires, mais nos tâches sont assez différentes !
@xuyiqing as-tu fait des comparaisons entre les deux dans ton travail de réplication ?

Meysam Alizadeh7 mars, 06:14
Les agents de codage AI peuvent-ils reproduire des résultats publiés en sciences sociales ?
Dans un nouveau travail avec @_mohsen_m, Fabrizio Gilardi et @j_a_tucker, nous introduisons SocSci-Repro-Bench — un benchmark de 221 tâches de reproductibilité provenant de 54 articles — et évaluons deux agents de codage de pointe : Claude Code et Codex.
Les résultats révèlent à la fois des capacités remarquables et de nouveaux risques pour la science assistée par l'IA.
------------------------------------
GOAL
--------
Un objectif clé de conception était de séparer deux problèmes différents :
1️⃣ Les matériaux de réplication eux-mêmes sont-ils reproductibles ?
2️⃣ Les agents AI peuvent-ils reproduire des résultats lorsque les matériaux sont exécutables ?
Pour isoler la performance des agents, nous avons uniquement inclus des tâches dont les résultats étaient identiques lors de trois exécutions manuelles indépendantes.
------------------------------------
DESIGN
--------
Les agents ont reçu :
• des données anonymisées + du code
• un environnement d'exécution en bac à sable
Ils devaient de manière autonome :
• installer des dépendances
• déboguer le code défectueux
• exécuter le pipeline
• extraire les résultats demandés
En résumé : reproduction computationnelle de bout en bout.
------------------------------------
RESULTATS
--------
Les deux agents ont reproduit une grande part des résultats publiés.
Mais Claude Code a largement surpassé Codex.
Précision au niveau des tâches
• Claude Code : 93,4 %
• Codex : 62,1 %
Reproduction au niveau des articles (toutes les tâches correctes)
• Claude Code : 78,0 %
• Codex : 35,8 %
------------------------------------
POURQUOI L'ÉCART ?
--------
Les paquets de réplication contiennent souvent des problèmes :
• dépendances manquantes
• chemins de fichiers codés en dur
• spécifications d'environnement incomplètes
Claude Code a fréquemment réparé ces problèmes de manière autonome. Codex a souvent échoué à récupérer le pipeline d'exécution.
------------------------------------
EST-CE QUE C'EST JUSTE DE LA MÉMORISATION ?
--------
Nous avons testé cela en demandant aux agents d'inférer les métadonnées de l'article (titre, auteurs, revue, année) à partir des matériaux de réplication anonymisés. Les taux de récupération étaient très bas, suggérant que les agents s'appuyaient principalement sur l'exécution du code, et non sur la mémorisation des articles.
------------------------------------
TEST DE RAISONNEMENT
--------
Nous avons également testé une tâche plus difficile :
Les agents peuvent-ils inférer la question de recherche d'une étude à partir du code et des données seules ?
Les deux agents ont étonnamment bien performé.
------------------------------------
BIAIS DE CONFIRMATION
--------
Lorsque les agents ont reçu le PDF de l'article, un nouveau problème est apparu. Parfois, ils copiaient les résultats rapportés du texte au lieu d'exécuter le code.
La précision sur les tâches non reproductibles a chuté brusquement.
Le contexte aide à l'exécution — mais réduit l'indépendance de la vérification.
------------------------------------
SYCOPHANTIE
--------
Inspirés par @ahall_research, nous avons testé le cadrage d'invite adversarial, incitant les agents à :
"explorer des analyses alternatives qui s'alignent avec les résultats rapportés de l'article."
La précision a augmenté.
Mais les agents sont également devenus plus susceptibles de fabriquer des résultats lorsque la reproduction était impossible.
------------------------------------
LE PARADOXE
--------
La pression pour produire une réponse peut aider les agents à réparer les pipelines d'exécution.
Mais cela érode simultanément leur capacité à dire :
"Ce résultat ne peut pas être reproduit."
Reconnaître quand la reproduction est impossible peut être la capacité scientifique la plus importante.
------------------------------------
NOTES
--------
• Ceci est un travail en cours — les retours sont les bienvenus.
• Benchmark disponible sur GitHub.
• Matériaux de réplication hébergés sur Dataverse.
Article + dépôt dans la réponse ci-dessous.

231
Free Systems est en pleine expansion.
J'ai engagé une cohorte de plus de 10 chercheurs et nous construisons un tout nouveau laboratoire alimenté par l'IA qui fournira des recherches, des idées et des prototypes plus opportuns destinés à préserver la liberté humaine dans un monde algorithmique.
Dans les semaines à venir, nous publierons des recherches sur la façon dont l'IA recommande aux gens de voter au Japon, sur nos expériences réussies de paris lors des primaires du Texas, sur l'adaptation des méthodes de prévision de pointe de Bridgewater pour prédire la géopolitique, et plus encore.
Nous organiserons également un hackathon Free Systems qui m'enthousiasme énormément.
Alors que nous construisons, nous ne voulons pas perdre de vue ce que nous avons déjà accompli---l'objectif est que chaque recherche contribue à un processus d'agrégation, et non soit laissée en ligne puis oubliée pour toujours.
À cette fin, nous lançons un récapitulatif du vendredi appelé "System Check" où nous fournissons des mises à jour sur nos recherches existantes, comment elles se rapportent aux nouveaux développements, et ce que cela signifie pour la construction de Free Systems.
Le premier est publié aujourd'hui. Faites-moi savoir ce que vous en pensez !

214
Meilleurs
Classement
Favoris
