Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andy Hall
Prof @ Stanford GSB, Hoover. Ik werk op het gebied van technologie, politiek en bestuur. Adviseur bij a16z crypto en Meta.
Zeer interessant werk over hoe empirisch onderzoek moet reageren op het AI-tijdperk.
Conventionele statistische tests met p-waarden komen uit een wereld waarin elke test als behoorlijk kostbaar werd beschouwd. AI maakt nu elke test in wezen gratis om uit te voeren.
Enkele belangrijke punten uit de samenvatting:
--"we bewijzen dat screening instort naarmate testen goedkoop worden, tenzij het vereiste aantal robuustheidscontroles ten minste lineair schaalt in de inverse kosten van elke test"
--"we pleiten voor de noodzaak om methoden te ontwikkelen om sets van veel specificaties tegelijkertijd te interpreteren"
Ja! Ik weet nog steeds niet precies hoe dit eruit zal zien en aanvoelen, maar het is duidelijk wat nodig is. En het moet in beide richtingen werken:
(1) Vang en ontmoedig cherry-picked onderzoeksresultaten
Maar even cruciaal:
(2) Detecteer en beloon goede bevindingen.
Nummer 2 hier kan op sommige manieren moeilijker blijken. Al onze intuïtie lijkt te draaien om te laten zien dat een bevinding "minder robuust" is dan we dachten, en een valse indruk van perfectie van gepubliceerde resultaten te eisen. Wanneer we de hele constellatie van bevindingen kunnen zien, moeten we de juiste manier vinden om meer genereus/realistisch te zijn over wat telt als nuttige informatie.

Nic Fishman9 mrt, 22:35
Er is een groeiende bezorgdheid dat AI de empirische sociale wetenschap zal verstoren - dat agenten kunnen p-hacken totdat ze iets vinden dat "werkt."
Wij denken dat deze bezorgdheid serieus genomen moet worden. Ons nieuwe paper toont aan dat dit empirisch waar is en maakt het precies:
299
Interessant dat de Claude-code beter presteert dan Codex in deze oefening. We hebben ontdekt dat ze ongeveer vergelijkbaar zijn, maar onze taken zijn behoorlijk verschillend!
@xuyiqing heb je in je replicatiewerk vergelijkingen tussen de twee gemaakt?

Meysam Alizadeh7 mrt, 06:14
Kunnen AI-coderingsagenten gepubliceerde bevindingen uit de sociale wetenschappen reproduceren?
In nieuw werk met @_mohsen_m, Fabrizio Gilardi en @j_a_tucker, introduceren we SocSci-Repro-Bench — een benchmark van 221 reproduceerbaarheidstaken uit 54 artikelen — en evalueren we twee geavanceerde coderingsagenten: Claude Code en Codex.
De resultaten onthullen zowel opmerkelijke mogelijkheden als nieuwe risico's voor AI-ondersteunde wetenschap.
------------------------------------
GOAL
--------
Een belangrijk ontwerpgdoel was het scheiden van twee verschillende problemen:
1️⃣ Zijn de replicatiematerialen zelf reproduceerbaar?
2️⃣ Kunnen AI-agenten resultaten reproduceren wanneer materialen uitvoerbaar zijn?
Om de prestaties van de agent te isoleren, hebben we alleen taken opgenomen waarvan de uitkomsten identiek waren bij drie onafhankelijke handmatige uitvoeringen.
------------------------------------
ONTWERP
--------
Agenten ontvingen:
• geanonimiseerde gegevens + code
• een sandboxed uitvoeringsomgeving
Ze moesten autonoom:
• afhankelijkheden installeren
• gebroken code debuggen
• de pipeline uitvoeren
• de gevraagde resultaten extraheren
Kortom: end-to-end computationele reproductie.
------------------------------------
RESULTATEN
--------
Beide agenten reproduceerden een groot deel van de gepubliceerde bevindingen.
Maar Claude Code presteerde aanzienlijk beter dan Codex.
Taakniveau nauwkeurigheid
• Claude Code: 93,4%
• Codex: 62,1%
Paperniveau reproductie (alle taken correct)
• Claude Code: 78,0%
• Codex: 35,8%
------------------------------------
WAAROM DE KLOOF?
--------
Replicatiepakketten bevatten vaak problemen:
• ontbrekende afhankelijkheden
• hard-coded bestandslocaties
• onvolledige omgevingsspecificaties
Claude Code repareerde deze problemen vaak autonoom. Codex faalde vaak om de uitvoeringspipeline te herstellen.
------------------------------------
IS DIT GEWOON GEHEUGEN?
--------
We testten dit door agenten te vragen om papermetadata (titel, auteurs, tijdschrift, jaar) af te leiden uit geanonimiseerde replicatiematerialen. Herstelpercentages waren erg laag, wat suggereert dat agenten voornamelijk vertrouwden op code-uitvoering, niet op het memoriseren van artikelen.
------------------------------------
REDENERINGSTEST
--------
We testten ook een moeilijkere taak:
Kunnen agenten de onderzoeksvraag van een studie afleiden uit alleen code en gegevens?
Beide agenten presteerden verrassend goed.
------------------------------------
BEVESTIGINGSVOOROORDEEL
--------
Wanneer agenten de paper PDF kregen, ontstond er een nieuw probleem. Soms kopieerden ze gerapporteerde resultaten uit de tekst in plaats van de code uit te voeren.
De nauwkeurigheid op niet-reproduceerbare taken daalde scherp.
Context helpt bij de uitvoering — maar vermindert de onafhankelijkheid van verificatie.
------------------------------------
SYCOPHANTIE
--------
Geïnspireerd door @ahall_research, testten we vijandige promptvorming, waarbij we agenten aanmoedigden om:
"alternatieve analyses te verkennen die overeenkomen met de gerapporteerde resultaten van de paper."
De nauwkeurigheid nam toe.
Maar agenten werden ook waarschijnlijker om resultaten te fabriceren wanneer reproductie onmogelijk was.
------------------------------------
DE PARADOX
--------
Druk om een antwoord te produceren kan agenten helpen om uitvoeringspipelines te repareren.
Maar het ondermijnt tegelijkertijd hun vermogen om te zeggen:
"Dit resultaat kan niet worden gereproduceerd."
Erkennen wanneer reproductie onmogelijk is, kan de belangrijkste wetenschappelijke vaardigheid zijn.
------------------------------------
NOTITIES
--------
• Dit is een werk in uitvoering — feedback is welkom.
• Benchmark beschikbaar op GitHub.
• Replicatiematerialen gehost op Dataverse.
Paper + repository in de reactie hieronder.

233
Free Systems breidt uit.
Ik heb een groep van meer dan 10 onderzoeksmedewerkers aangenomen en we bouwen een gloednieuwe, AI-gestuurde lab dat tijdigere onderzoeken, ideeën en prototypes zal leveren die bedoeld zijn om de menselijke vrijheid te behouden in een algoritmische wereld.
In de komende weken zullen we onderzoek publiceren over hoe AI mensen aanbeveelt om te stemmen in Japan, over onze succesvolle experimenten met wedden in de Texas primaries, over het aanpassen van Bridgewater's geavanceerde AI-voorspellingsmethoden om geopolitiek te voorspellen, en meer.
We zullen ook een Free Systems hackathon organiseren waar ik super enthousiast over ben.
Terwijl we bouwen, willen we niet uit het oog verliezen wat we al hebben gedaan---het doel is dat elk stuk onderzoek bijdraagt aan een aggregatieproces, en niet online wordt gedropt en dan voor altijd vergeten raakt.
Daarom beginnen we met een vrijdagse update genaamd "System Check" waarin we updates geven over ons bestaande onderzoek, hoe het zich verhoudt tot nieuwe ontwikkelingen, en wat het betekent voor het bouwen van Free Systems.
De eerste is vandaag uitgebracht. Laat me weten wat je ervan vindt!

216
Boven
Positie
Favorieten
