DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Andy Hall

Prof @ Stanford GSB, Hoover. Jag arbetar med teknik, politik och styrning. Rådgivare på a16z crypto och Meta.

Intressant att Claudes kod presterar bättre än codex i denna övning. Vi har märkt att de är ungefär lika men våra uppgifter är ganska olika! @xuyiqing gjorde du några jämförelser mellan de två i ditt replikationsarbete?

Kan AI-kodningsagenter reproducera publicerade samhällsvetenskapliga fynd? I nytt arbete med @_mohsen_m, Fabrizio Gilardi och @j_a_tucker introducerar vi SocSci-Repro-Bench — en referenspunkt med 221 reproducerbarhetsuppgifter från 54 artiklar — och utvärderar två frontier coding agents: Claude Code och Codex. Resultaten visar både på anmärkningsvärda förmågor och nya risker för AI-assisterad vetenskap. ------------------------------------ MÅL -------- Ett viktigt designmål var att separera två olika problem: 1️⃣ Är replikationsmaterial själva reproducerbara? 2️⃣ Kan AI-agenter reproducera resultat när material är exekverbart? För att isolera agentens prestanda inkluderade vi endast uppgifter vars utdata var identiska över tre oberoende manuella körningar. ------------------------------------ DESIGN -------- Agenter mottog: • anonymiserad data + kod • en sandboxad exekveringsmiljö De var tvungna att autonomt: • installationsberoenden • felsöka trasig kod • köra pipelinen • extrahera de begärda resultaten Kort sagt: beräkningsreproduktion från början till slut. ------------------------------------ RESULTAT -------- Båda agenterna återgav en stor andel av de publicerade resultaten. Men Claude Code presterade betydligt bättre än Codex. Uppgiftsnivåns noggrannhet • Claude-kod: 93,4 % • Codex: 62,1 % Pappersnivåreproduktion (alla uppgifter korrekta) • Claude Code: 78,0 % • Codex: 35,8 % ------------------------------------ VARFÖR GAPET? -------- Replikationspaket innehåller ofta problem: • saknade beroenden • hårdkodade filvägar • ofullständiga miljöspecifikationer Claude Code reparerade ofta dessa problem självständigt. Codex misslyckades ofta med att återställa exekveringspipelinen. ------------------------------------ ÄR DET BARA MEMORERING? -------- Vi testade detta genom att be agenter att dra slutsatser om artikelmetadata (titel, författare, tidskrift, år) från anonymiserade replikationsmaterial. Återhämtningsgraden var mycket låg, vilket tyder på att agenterna främst förlitade sig på kodexekvering, inte memorering av artiklar. ------------------------------------ RESONEMANGSTEST -------- Vi testade också en svårare uppgift: Kan agenter dra slutsatser om forskningsfrågan i en studie enbart utifrån kod och data? Båda agenterna presterade förvånansvärt bra. ------------------------------------ BEKRÄFTELSEBIAS -------- När agenterna fick pappers-PDF:en uppstod ett nytt problem. Ibland kopierade de rapporterade resultat från texten istället för att köra koden. Noggrannheten på icke-reproducerbara uppgifter sjönk kraftigt. Kontexten underlättar utförandet – men minskar oberoende av verifiering. ------------------------------------ FJÄSKARE -------- Inspirerade av @ahall_research testade vi adversarial prompt framing och fick agenter att: "Utforska alternativa analyser som stämmer överens med artikelns rapporterade resultat." Noggrannheten ökade. Men agenter blev också mer benägna att fabricera resultat när reproduktion var omöjlig. ------------------------------------ PARADOXEN -------- Trycket att ta fram ett svar kan hjälpa agenter att reparera utförandepipelines. Men samtidigt urholkar det deras förmåga att säga: "Detta resultat kan inte återskapas." Att känna igen när reproduktion är omöjlig kan vara den viktigaste vetenskapliga förmågan. ------------------------------------ NOTER -------- • Detta är ett pågående arbete — feedback är välkommet. • Benchmark tillgängligt på GitHub. • Replikationsmaterial som finns på Dataverse. Paper + repository i svaret nedan.

Topp

Rankning

Favoriter