DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Andy Hall

Prof @ Stanford GSB, Hoover. Ik werk op het gebied van technologie, politiek en bestuur. Adviseur bij a16z crypto en Meta.

Interessant dat de Claude-code beter presteert dan Codex in deze oefening. We hebben ontdekt dat ze ongeveer vergelijkbaar zijn, maar onze taken zijn behoorlijk verschillend! @xuyiqing heb je in je replicatiewerk vergelijkingen tussen de twee gemaakt?

Kunnen AI-coderingsagenten gepubliceerde bevindingen uit de sociale wetenschappen reproduceren? In nieuw werk met @_mohsen_m, Fabrizio Gilardi en @j_a_tucker, introduceren we SocSci-Repro-Bench — een benchmark van 221 reproduceerbaarheidstaken uit 54 artikelen — en evalueren we twee geavanceerde coderingsagenten: Claude Code en Codex. De resultaten onthullen zowel opmerkelijke mogelijkheden als nieuwe risico's voor AI-ondersteunde wetenschap. ------------------------------------ GOAL -------- Een belangrijk ontwerpgdoel was het scheiden van twee verschillende problemen: 1️⃣ Zijn de replicatiematerialen zelf reproduceerbaar? 2️⃣ Kunnen AI-agenten resultaten reproduceren wanneer materialen uitvoerbaar zijn? Om de prestaties van de agent te isoleren, hebben we alleen taken opgenomen waarvan de uitkomsten identiek waren bij drie onafhankelijke handmatige uitvoeringen. ------------------------------------ ONTWERP -------- Agenten ontvingen: • geanonimiseerde gegevens + code • een sandboxed uitvoeringsomgeving Ze moesten autonoom: • afhankelijkheden installeren • gebroken code debuggen • de pipeline uitvoeren • de gevraagde resultaten extraheren Kortom: end-to-end computationele reproductie. ------------------------------------ RESULTATEN -------- Beide agenten reproduceerden een groot deel van de gepubliceerde bevindingen. Maar Claude Code presteerde aanzienlijk beter dan Codex. Taakniveau nauwkeurigheid • Claude Code: 93,4% • Codex: 62,1% Paperniveau reproductie (alle taken correct) • Claude Code: 78,0% • Codex: 35,8% ------------------------------------ WAAROM DE KLOOF? -------- Replicatiepakketten bevatten vaak problemen: • ontbrekende afhankelijkheden • hard-coded bestandslocaties • onvolledige omgevingsspecificaties Claude Code repareerde deze problemen vaak autonoom. Codex faalde vaak om de uitvoeringspipeline te herstellen. ------------------------------------ IS DIT GEWOON GEHEUGEN? -------- We testten dit door agenten te vragen om papermetadata (titel, auteurs, tijdschrift, jaar) af te leiden uit geanonimiseerde replicatiematerialen. Herstelpercentages waren erg laag, wat suggereert dat agenten voornamelijk vertrouwden op code-uitvoering, niet op het memoriseren van artikelen. ------------------------------------ REDENERINGSTEST -------- We testten ook een moeilijkere taak: Kunnen agenten de onderzoeksvraag van een studie afleiden uit alleen code en gegevens? Beide agenten presteerden verrassend goed. ------------------------------------ BEVESTIGINGSVOOROORDEEL -------- Wanneer agenten de paper PDF kregen, ontstond er een nieuw probleem. Soms kopieerden ze gerapporteerde resultaten uit de tekst in plaats van de code uit te voeren. De nauwkeurigheid op niet-reproduceerbare taken daalde scherp. Context helpt bij de uitvoering — maar vermindert de onafhankelijkheid van verificatie. ------------------------------------ SYCOPHANTIE -------- Geïnspireerd door @ahall_research, testten we vijandige promptvorming, waarbij we agenten aanmoedigden om: "alternatieve analyses te verkennen die overeenkomen met de gerapporteerde resultaten van de paper." De nauwkeurigheid nam toe. Maar agenten werden ook waarschijnlijker om resultaten te fabriceren wanneer reproductie onmogelijk was. ------------------------------------ DE PARADOX -------- Druk om een antwoord te produceren kan agenten helpen om uitvoeringspipelines te repareren. Maar het ondermijnt tegelijkertijd hun vermogen om te zeggen: "Dit resultaat kan niet worden gereproduceerd." Erkennen wanneer reproductie onmogelijk is, kan de belangrijkste wetenschappelijke vaardigheid zijn. ------------------------------------ NOTITIES -------- • Dit is een werk in uitvoering — feedback is welkom. • Benchmark beschikbaar op GitHub. • Replicatiematerialen gehost op Dataverse. Paper + repository in de reactie hieronder.

Boven

Positie

Favorieten