DApp Store | Web3 Hub for hendelser og spill

Populære emner

Andy Hall

Prof @ Stanford GSB, Hoover. Jeg jobber med teknologi, politikk og styring. Rådgiver hos a16z crypto og Meta.

Interessant at Claude Code fungerer bedre enn codex i denne øvelsen. Vi har funnet ut at de er omtrent like, men oppgavene våre er ganske forskjellige! @xuyiqing gjorde du noen sammenligninger mellom de to i replikasjonsarbeidet ditt?

Kan AI-kodingsagenter gjenskape publiserte samfunnsvitenskapelige funn? I nytt arbeid med @_mohsen_m, Fabrizio Gilardi og @j_a_tucker introduserer vi SocSci-Repro-Bench — en referanse med 221 reproduserbarhetsoppgaver fra 54 artikler — og evaluerer to ledende kodingsagenter: Claude Code og Codex. Resultatene avslører både bemerkelsesverdige evner og nye risikoer for AI-assistert vitenskap. ------------------------------------ MÅL -------- Et sentralt designmål var å skille to forskjellige problemer: 1️⃣ Er replikasjonsmaterialene selv reproduserbare? 2️⃣ Kan AI-agenter gjenskape resultater når materialer er kjørbare? For å isolere agentens ytelse inkluderte vi kun oppgaver med identiske utdata på tvers av tre uavhengige manuelle utførelser. ------------------------------------ DESIGN -------- Agenter mottok: • anonymiserte data + kode • et sandkassebasert kjøringsmiljø De måtte autonomt: • installere avhengigheter • feilsøke ødelagt kode • kjøre pipelinen • hente ut de forespurte resultatene Kort sagt: ende-til-ende beregningsreproduksjon. ------------------------------------ RESULTATER -------- Begge agentene gjenskapte en stor andel av de publiserte funnene. Men Claude Code presterte betydelig bedre enn Codex. Nøyaktighet på oppgavenivå • Claude Code: 93,4 % • Codex: 62,1 % Reproduksjon på papirnivå (alle oppgaver korrekte) • Claude Code: 78,0 % • Codex: 35,8 % ------------------------------------ HVORFOR GAPET? -------- Replikasjonspakker inneholder ofte problemer: • manglende avhengigheter • hardkodede filstier • ufullstendige miljøspesifikasjoner Claude Code reparerte ofte disse problemene på egen hånd. Codex klarte ofte ikke å gjenopprette kjøreledningen. ------------------------------------ ER DETTE BARE PUGGING? -------- Vi testet dette ved å be agenter om å utlede metadata fra artikkelen (tittel, forfattere, tidsskrift, år) fra anonymiserte replikasjonsmaterialer. Gjenopprettingsratene var svært lave, noe som tyder på at agentene hovedsakelig stolte på kodeutførelse, ikke pugging av artikler. ------------------------------------ RESONNEMENTSTEST -------- Vi testet også en vanskeligere oppgave: Kan agenter utlede forskningsspørsmålet i en studie kun ut fra kode og data? Begge agentene presterte overraskende bra. ------------------------------------ BEKREFTELSESBIAS -------- Da agentene fikk papir-PDF-en, oppsto et nytt problem. Noen ganger kopierte de rapporterte resultater fra teksten i stedet for å kjøre koden. Nøyaktigheten på ikke-reproduserbare oppgaver falt kraftig. Kontekst hjelper utførelsen — men reduserer uavhengigheten av verifisering. ------------------------------------ SMISKERI -------- Inspirert av @ahall_research testet vi adversarial prompt framing, og dyttet agentene til å: "Utforsk alternative analyser som samsvarer med artikkelens rapporterte resultater." Nøyaktigheten økte. Men agenter ble også mer tilbøyelige til å fabrikere resultater når reproduksjon var umulig. ------------------------------------ PARADOKSET -------- Press for å gi et svar kan hjelpe agenter med å reparere gjennomføringsprosessene. Men samtidig undergraver det deres evne til å si: "Dette resultatet kan ikke gjenskapes." Å gjenkjenne når reproduksjon er umulig kan være den viktigste vitenskapelige evnen. ------------------------------------ NOTER -------- • Dette er et pågående arbeid — tilbakemeldinger er velkomne. • Benchmark tilgjengelig på GitHub. • Replikasjonsmateriale hostet på Dataverse. Artikkel + arkiv i svaret nedenfor.

Topp

Rangering

Favoritter