Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andy Hall
Prof @ Stanford GSB, Hoover. Jag arbetar med teknik, politik och styrning. Rådgivare på a16z crypto och Meta.
Mycket intressant arbete om hur empirisk forskning behöver svara på AI-eran.
Konventionell statistisk testning med p-värden kommer från en värld där varje test ansågs vara ganska kostsamt. AI gör nu varje test i princip gratis att köra.
Några viktiga punkter från sammanfattningen:
--"Vi bevisar att screening kollapsar när testning blir billig om inte det nödvändiga antalet robusthetskontroller åtminstone skalar linjärt i den omvända kostnaden för varje test"
--"Vi argumenterar för behovet av att utveckla metoder för att tolka mängder av många specifikationer samtidigt"
Ja! Jag vet fortfarande inte exakt hur det kommer att se ut och kännas, men det är tydligt vad som krävs. Och det måste gå åt båda hållen:
(1) Fånga och avskräcka utvalda forskningsresultat
Men minst lika avgörande:
(2) Upptäcka och belöna goda resultat.
Nummer 2 här kan på vissa sätt visa sig vara svårare. All vår intuition verkar handla om att visa att ett fynd är "mindre robust" än vi trodde, och kräver en falsk känsla av perfektion utifrån publicerade resultat. När vi kan se hela konstellationen av fynd måste vi hitta rätt sätt att vara mer generösa/realistiska kring vad som räknas som användbar information.

Nic Fishman9 mars 22:35
Det finns en växande oro för att AI ska bryta den empiriska samhällsvetenskapen – att agenter kan p-hacka tills de hittar något som "fungerar."
Vi tycker att den oron förtjänar att tas på allvar. Vår nya artikel visar att det är sant empiriskt och gör det precist:
308
Intressant att Claudes kod presterar bättre än codex i denna övning. Vi har märkt att de är ungefär lika men våra uppgifter är ganska olika!
@xuyiqing gjorde du några jämförelser mellan de två i ditt replikationsarbete?

Meysam Alizadeh7 mars 06:14
Kan AI-kodningsagenter reproducera publicerade samhällsvetenskapliga fynd?
I nytt arbete med @_mohsen_m, Fabrizio Gilardi och @j_a_tucker introducerar vi SocSci-Repro-Bench — en referenspunkt med 221 reproducerbarhetsuppgifter från 54 artiklar — och utvärderar två frontier coding agents: Claude Code och Codex.
Resultaten visar både på anmärkningsvärda förmågor och nya risker för AI-assisterad vetenskap.
------------------------------------
MÅL
--------
Ett viktigt designmål var att separera två olika problem:
1️⃣ Är replikationsmaterial själva reproducerbara?
2️⃣ Kan AI-agenter reproducera resultat när material är exekverbart?
För att isolera agentens prestanda inkluderade vi endast uppgifter vars utdata var identiska över tre oberoende manuella körningar.
------------------------------------
DESIGN
--------
Agenter mottog:
• anonymiserad data + kod
• en sandboxad exekveringsmiljö
De var tvungna att autonomt:
• installationsberoenden
• felsöka trasig kod
• köra pipelinen
• extrahera de begärda resultaten
Kort sagt: beräkningsreproduktion från början till slut.
------------------------------------
RESULTAT
--------
Båda agenterna återgav en stor andel av de publicerade resultaten.
Men Claude Code presterade betydligt bättre än Codex.
Uppgiftsnivåns noggrannhet
• Claude-kod: 93,4 %
• Codex: 62,1 %
Pappersnivåreproduktion (alla uppgifter korrekta)
• Claude Code: 78,0 %
• Codex: 35,8 %
------------------------------------
VARFÖR GAPET?
--------
Replikationspaket innehåller ofta problem:
• saknade beroenden
• hårdkodade filvägar
• ofullständiga miljöspecifikationer
Claude Code reparerade ofta dessa problem självständigt. Codex misslyckades ofta med att återställa exekveringspipelinen.
------------------------------------
ÄR DET BARA MEMORERING?
--------
Vi testade detta genom att be agenter att dra slutsatser om artikelmetadata (titel, författare, tidskrift, år) från anonymiserade replikationsmaterial. Återhämtningsgraden var mycket låg, vilket tyder på att agenterna främst förlitade sig på kodexekvering, inte memorering av artiklar.
------------------------------------
RESONEMANGSTEST
--------
Vi testade också en svårare uppgift:
Kan agenter dra slutsatser om forskningsfrågan i en studie enbart utifrån kod och data?
Båda agenterna presterade förvånansvärt bra.
------------------------------------
BEKRÄFTELSEBIAS
--------
När agenterna fick pappers-PDF:en uppstod ett nytt problem. Ibland kopierade de rapporterade resultat från texten istället för att köra koden.
Noggrannheten på icke-reproducerbara uppgifter sjönk kraftigt.
Kontexten underlättar utförandet – men minskar oberoende av verifiering.
------------------------------------
FJÄSKARE
--------
Inspirerade av @ahall_research testade vi adversarial prompt framing och fick agenter att:
"Utforska alternativa analyser som stämmer överens med artikelns rapporterade resultat."
Noggrannheten ökade.
Men agenter blev också mer benägna att fabricera resultat när reproduktion var omöjlig.
------------------------------------
PARADOXEN
--------
Trycket att ta fram ett svar kan hjälpa agenter att reparera utförandepipelines.
Men samtidigt urholkar det deras förmåga att säga:
"Detta resultat kan inte återskapas."
Att känna igen när reproduktion är omöjlig kan vara den viktigaste vetenskapliga förmågan.
------------------------------------
NOTER
--------
• Detta är ett pågående arbete — feedback är välkommet.
• Benchmark tillgängligt på GitHub.
• Replikationsmaterial som finns på Dataverse.
Paper + repository i svaret nedan.

242
Free Systems expanderar.
Jag har anställt en grupp på 10+ forskare och vi bygger ett helt nytt, AI-drivet laboratorium som kommer att leverera mer aktuell forskning, idéer och prototyper avsedda att bevara mänsklig frihet i en algoritmisk värld.
Under de kommande veckorna kommer vi att släppa forskning om hur AI rekommenderar att folk röstar i Japan, om våra framgångsrika experiment med att satsa i Texas primärval, om att anpassa Bridgewaters banbrytande AI-prognosmetoder för att förutsäga geopolitik, och mer.
Vi kommer också att organisera en Free Systems hackathon som jag är supertaggad på.
När vi bygger vill vi inte tappa bort det vi redan har gjort---målet är att varje forskningsbit ska bidra till en aggregerandeprocess, inte tappas online och sedan glömmas bort för alltid.
För detta ändamål startar vi en fredagsöversikt kallad "System Check" där vi ger uppdateringar om vår befintliga forskning, hur den relaterar till nya utvecklingar och vad det innebär för att bygga Free Systems.
Den första är ute idag. Låt mig veta vad du tycker!

225
Topp
Rankning
Favoriter
