Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andy Hall
Prof @ Stanford GSB, Hoover. Jeg jobber med teknologi, politikk og styring. Rådgiver hos a16z crypto og Meta.
Veldig interessant arbeid om hvordan empirisk forskning må svare på AI-æraen.
Konvensjonell statistisk testing med p-verdier kommer fra en verden der hver test ble ansett som ganske kostbar. AI gjør nå hver test i praksis gratis å kjøre.
Noen viktige punkter fra sammendraget:
--"Vi beviser at screening kollapser når testing blir billig med mindre det nødvendige antallet robusthetssjekker skalerer i det minste lineært i den inverse kostnaden for hver test"
--"Vi argumenterer for behovet for å utvikle metoder for å tolke sett med mange spesifikasjoner samtidig"
Ja! Jeg vet fortsatt ikke helt hvordan dette vil se ut og føles, men det er tydeligvis det som kreves. Og den må kutte i begge retninger:
(1) Fange og avskrekke utvalgte forskningsfunn
Men like viktig:
(2) Oppdage og belønne gode funn.
Nummer 2 her kan på noen måter vise seg å være vanskeligere. All intuisjonen vår ser ut til å handle om å vise at et funn er «mindre robust» enn vi trodde, og krever en falsk følelse av perfeksjon ut fra publiserte resultater. Når vi kan se hele konstellasjonen av funn, må vi finne riktig måte å være mer velvillige/realistiske rundt hva som regnes som nyttig informasjon.

Nic Fishman9. mars, 22:35
Det er en økende bekymring for at AI vil bryte empirisk samfunnsvitenskap – at agenter kan p-hacke til de finner noe som "fungerer."
Vi mener at denne bekymringen fortjener å bli tatt på alvor. Vår nye artikkel viser at dette er sant empirisk og gjør det presist:
301
Interessant at Claude Code fungerer bedre enn codex i denne øvelsen. Vi har funnet ut at de er omtrent like, men oppgavene våre er ganske forskjellige!
@xuyiqing gjorde du noen sammenligninger mellom de to i replikasjonsarbeidet ditt?

Meysam Alizadeh7. mars, 06:14
Kan AI-kodingsagenter gjenskape publiserte samfunnsvitenskapelige funn?
I nytt arbeid med @_mohsen_m, Fabrizio Gilardi og @j_a_tucker introduserer vi SocSci-Repro-Bench — en referanse med 221 reproduserbarhetsoppgaver fra 54 artikler — og evaluerer to ledende kodingsagenter: Claude Code og Codex.
Resultatene avslører både bemerkelsesverdige evner og nye risikoer for AI-assistert vitenskap.
------------------------------------
MÅL
--------
Et sentralt designmål var å skille to forskjellige problemer:
1️⃣ Er replikasjonsmaterialene selv reproduserbare?
2️⃣ Kan AI-agenter gjenskape resultater når materialer er kjørbare?
For å isolere agentens ytelse inkluderte vi kun oppgaver med identiske utdata på tvers av tre uavhengige manuelle utførelser.
------------------------------------
DESIGN
--------
Agenter mottok:
• anonymiserte data + kode
• et sandkassebasert kjøringsmiljø
De måtte autonomt:
• installere avhengigheter
• feilsøke ødelagt kode
• kjøre pipelinen
• hente ut de forespurte resultatene
Kort sagt: ende-til-ende beregningsreproduksjon.
------------------------------------
RESULTATER
--------
Begge agentene gjenskapte en stor andel av de publiserte funnene.
Men Claude Code presterte betydelig bedre enn Codex.
Nøyaktighet på oppgavenivå
• Claude Code: 93,4 %
• Codex: 62,1 %
Reproduksjon på papirnivå (alle oppgaver korrekte)
• Claude Code: 78,0 %
• Codex: 35,8 %
------------------------------------
HVORFOR GAPET?
--------
Replikasjonspakker inneholder ofte problemer:
• manglende avhengigheter
• hardkodede filstier
• ufullstendige miljøspesifikasjoner
Claude Code reparerte ofte disse problemene på egen hånd. Codex klarte ofte ikke å gjenopprette kjøreledningen.
------------------------------------
ER DETTE BARE PUGGING?
--------
Vi testet dette ved å be agenter om å utlede metadata fra artikkelen (tittel, forfattere, tidsskrift, år) fra anonymiserte replikasjonsmaterialer. Gjenopprettingsratene var svært lave, noe som tyder på at agentene hovedsakelig stolte på kodeutførelse, ikke pugging av artikler.
------------------------------------
RESONNEMENTSTEST
--------
Vi testet også en vanskeligere oppgave:
Kan agenter utlede forskningsspørsmålet i en studie kun ut fra kode og data?
Begge agentene presterte overraskende bra.
------------------------------------
BEKREFTELSESBIAS
--------
Da agentene fikk papir-PDF-en, oppsto et nytt problem. Noen ganger kopierte de rapporterte resultater fra teksten i stedet for å kjøre koden.
Nøyaktigheten på ikke-reproduserbare oppgaver falt kraftig.
Kontekst hjelper utførelsen — men reduserer uavhengigheten av verifisering.
------------------------------------
SMISKERI
--------
Inspirert av @ahall_research testet vi adversarial prompt framing, og dyttet agentene til å:
"Utforsk alternative analyser som samsvarer med artikkelens rapporterte resultater."
Nøyaktigheten økte.
Men agenter ble også mer tilbøyelige til å fabrikere resultater når reproduksjon var umulig.
------------------------------------
PARADOKSET
--------
Press for å gi et svar kan hjelpe agenter med å reparere gjennomføringsprosessene.
Men samtidig undergraver det deres evne til å si:
"Dette resultatet kan ikke gjenskapes."
Å gjenkjenne når reproduksjon er umulig kan være den viktigste vitenskapelige evnen.
------------------------------------
NOTER
--------
• Dette er et pågående arbeid — tilbakemeldinger er velkomne.
• Benchmark tilgjengelig på GitHub.
• Replikasjonsmateriale hostet på Dataverse.
Artikkel + arkiv i svaret nedenfor.

235
Free Systems ekspanderer.
Jeg har ansatt en kohort på 10+ forskningsstipendiater, og vi bygger et helt nytt, AI-drevet laboratorium som skal levere mer tidsriktig forskning, ideer og prototyper ment å bevare menneskelig frihet i en algoritmisk verden.
I ukene som kommer vil vi publisere forskning på hvordan KI anbefaler folk å stemme i Japan, om våre vellykkede eksperimenter med å satse i Texas-primærvalgene, om å tilpasse Bridgewaters banebrytende AI-prognosemetoder for å forutsi geopolitikk, og mer.
Vi skal også arrangere en Free Systems hackathon som jeg gleder meg veldig til.
Når vi bygger, ønsker vi ikke å miste av syne det vi allerede har gjort--- målet er at hvert forskningsprosjekt skal bidra til en aggregasjonsprosess, ikke bli lagt på nettet og så glemt for alltid.
For å oppnå dette starter vi en fredagsoversikt kalt «System Check» hvor vi gir oppdateringer om vår eksisterende forskning, hvordan den relaterer seg til nye utviklinger, og hva det betyr for å bygge Free Systems.
Den første er ute i dag. Gi meg beskjed om hva du synes!

218
Topp
Rangering
Favoritter
