DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Andy Hall

Prof @ Stanford GSB, Hoover. Lucrez în domenii tehnologice, politică și guvernanță. Consilier la a16z crypto și Meta.

Interesant că codul Claude performează mai bine decât codex în acest exercițiu. Am constatat că sunt aproximativ similare, dar sarcinile noastre sunt destul de diferite! @xuyiqing ai făcut vreo comparație între cele două în munca ta de replicare?

Pot agenții de codare AI să reproducă descoperirile publicate în științele sociale? În lucrări noi cu @_mohsen_m, Fabrizio Gilardi și @j_a_tucker, introducem SocSci-Repro-Bench — un reper pentru 221 de sarcini de reproducibilitate din 54 de articole — și evaluăm doi agenți de codare de frontieră: Claude Code și Codex. Rezultatele dezvăluie atât capabilități remarcabile, cât și noi riscuri pentru știința asistată de IA. ------------------------------------ OBIECTIV -------- Un obiectiv cheie al designului a fost separarea a două probleme diferite: 1️⃣ Materialele de replicare sunt ele însele reproductibile? 2️⃣ Pot agenții AI să reproducă rezultate atunci când materialele sunt executabile? Pentru a izola performanța agentului, am inclus doar sarcini ale căror ieșiri au fost identice în trei execuții manuale independente. ------------------------------------ DESIGN -------- Agenții primiți: • date anonimizate + cod • un mediu de execuție sandboxed Acestea trebuiau să fie autonome: • instalarea dependențelor • depanarea codului defect • executarea conductei • extragerea rezultatelor solicitate Pe scurt: reproducere computațională end-to-end. ------------------------------------ REZULTATE -------- Ambii agenți au reprodus o mare parte din descoperirile publicate. Dar Claude Code a depășit semnificativ pe Codex. Acuratețea la nivel de sarcină • Cod Claude: 93,4% • Codex: 62,1% Reproducere la nivel de hârtie (toate sarcinile corecte) • Cod Claude: 78,0% • Codex: 35,8% ------------------------------------ DE CE ACEASTĂ PAUZĂ? -------- Pachetele de replicare conțin adesea probleme: • dependențe lipsă • căi de fișiere codificate fix • specificații de mediu incomplete Claude Code remedia frecvent aceste probleme autonom. Codex adesea nu reușea să recupereze pipeline-ul de execuție. ------------------------------------ ESTE DOAR MEMORARE? -------- Am testat acest lucru cerând agenților să deducă metadatele lucrărilor (titlu, autori, jurnal, an) din materiale de replicare anonimizate. Ratele de recuperare erau foarte scăzute, sugerând că agenții se bazau în principal pe execuția codului, nu pe memorarea lucrărilor. ------------------------------------ TESTUL DE RAȚIONAMENT -------- Am testat și o sarcină mai dificilă: Pot agenții să deducă întrebarea de cercetare a unui studiu doar din cod și date? Ambii agenți s-au descurcat surprinzător de bine. ------------------------------------ BIAS CONFIRMARE -------- Când agenților li s-a dat PDF-ul pe hârtie, a apărut o nouă problemă. Uneori copiau rezultatele raportate din text în loc să execute codul. Acuratețea la sarcinile nereproductibile a scăzut brusc. Contextul ajută la execuție — dar reduce independența de verificare. ------------------------------------ LINGUȘITOR -------- Inspirați de @ahall_research, am testat provocarea adversarială, împingând agenții la: "Explorează analize alternative care să se alinieze cu rezultatele raportate de articol." Acuratețea a crescut. Dar agenții au devenit și mai predispuși să producă rezultate atunci când reproducerea era imposibilă. ------------------------------------ PARADOXUL -------- Presiunea de a produce un răspuns poate ajuta agenții să repare canalele de execuție. Dar, în același timp, le erodează capacitatea de a spune: "Acest rezultat nu poate fi reprodus." Recunoașterea momentului când reproducerea este imposibilă poate fi cea mai importantă capacitate științifică. ------------------------------------ NOTE -------- • Aceasta este o lucrare în desfășurare — feedback-ul este binevenit. • Benchmark disponibil pe GitHub. • Materiale de replicare găzduite pe Dataverse. Hârtie + depozit în răspunsul de mai jos.

Limită superioară

Clasament

Favorite