Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andy Hall
Prof. @ Stanford GSB, Hoover. Ich arbeite an Technologie, Politik und Regierungsführung. Berater bei a16z Krypto und Meta.
Sehr interessante Arbeit darüber, wie empirische Forschung auf die Ära der KI reagieren muss.
Konventionelle statistische Tests mit p-Werten stammen aus einer Welt, in der jeder Test als ziemlich kostspielig galt. KI macht jetzt jeden Test im Wesentlichen kostenlos.
Einige wichtige Punkte aus dem Abstract:
--"Wir beweisen, dass das Screening zusammenbricht, wenn das Testen billig wird, es sei denn, die erforderliche Anzahl von Robustheitsprüfungen skaliert mindestens linear in den inversen Kosten jedes Tests"
--"Wir plädieren für die Notwendigkeit, Methoden zu entwickeln, um Sets von vielen Spezifikationen gleichzeitig zu interpretieren"
Ja! Ich weiß immer noch nicht genau, wie das aussehen und sich anfühlen wird, aber es ist offensichtlich, dass es erforderlich ist. Und es muss in beide Richtungen wirken:
(1) Cherry-Picking von Forschungsergebnissen erkennen und abschrecken
Aber ebenso entscheidend:
(2) Gute Ergebnisse erkennen und belohnen.
Nummer 2 könnte sich in mancher Hinsicht als schwieriger erweisen. Unser ganzes Gefühl scheint darauf zu basieren, dass wir zeigen, dass ein Ergebnis "weniger robust" ist, als wir dachten, und ein falsches Gefühl von Perfektion von veröffentlichten Ergebnissen zu verlangen. Wenn wir die gesamte Konstellation von Ergebnissen sehen können, müssen wir den richtigen Weg finden, um großzügiger/realistischer zu sein, was als nützliche Information zählt.

Nic Fishman9. März, 22:35
Es gibt eine wachsende Sorge, dass KI die empirische Sozialwissenschaft gefährden wird – dass Agenten p-hacken können, bis sie etwas finden, das "funktioniert."
Wir denken, dass diese Sorge ernst genommen werden sollte. Unser neues Papier zeigt, dass dies empirisch zutrifft und präzisiert es:
292
Interessant, dass der Claude-Code in dieser Übung besser abschneidet als Codex. Wir haben festgestellt, dass sie ungefähr ähnlich sind, aber unsere Aufgaben sind ziemlich unterschiedlich!
@xuyiqing hast du in deiner Replikationsarbeit irgendwelche Vergleiche zwischen den beiden angestellt?

Meysam Alizadeh7. März, 06:14
Können KI-Coding-Agenten veröffentlichte sozialwissenschaftliche Ergebnisse reproduzieren?
In einer neuen Arbeit mit @_mohsen_m, Fabrizio Gilardi und @j_a_tucker stellen wir SocSci-Repro-Bench vor – ein Benchmark von 221 Reproduzierbarkeitsaufgaben aus 54 Artikeln – und bewerten zwei fortschrittliche Coding-Agenten: Claude Code und Codex.
Die Ergebnisse zeigen sowohl bemerkenswerte Fähigkeiten als auch neue Risiken für KI-unterstützte Wissenschaft.
------------------------------------
GOAL
--------
Ein zentrales Designziel war die Trennung von zwei verschiedenen Problemen:
1️⃣ Sind die Replikationsmaterialien selbst reproduzierbar?
2️⃣ Können KI-Agenten Ergebnisse reproduzieren, wenn die Materialien ausführbar sind?
Um die Leistung der Agenten zu isolieren, haben wir nur Aufgaben einbezogen, deren Ausgaben über drei unabhängige manuelle Ausführungen identisch waren.
------------------------------------
DESIGN
--------
Die Agenten erhielten:
• anonymisierte Daten + Code
• eine sandboxed Ausführungsumgebung
Sie mussten autonom:
• Abhängigkeiten installieren
• fehlerhaften Code debuggen
• die Pipeline ausführen
• die angeforderten Ergebnisse extrahieren
Kurz gesagt: End-to-End rechnerische Reproduktion.
------------------------------------
ERGEBNISSE
--------
Beide Agenten reproduzierten einen großen Teil der veröffentlichten Ergebnisse.
Aber Claude Code übertraf Codex erheblich.
Aufgabenebene Genauigkeit
• Claude Code: 93,4%
• Codex: 62,1%
Papierlevel-Reproduktion (alle Aufgaben korrekt)
• Claude Code: 78,0%
• Codex: 35,8%
------------------------------------
WARUM DER UNTERSCHIED?
--------
Replikationspakete enthalten oft Probleme:
• fehlende Abhängigkeiten
• fest codierte Dateipfade
• unvollständige Umgebungsbeschreibungen
Claude Code reparierte diese Probleme häufig autonom. Codex scheiterte oft daran, die Ausführungs-Pipeline wiederherzustellen.
------------------------------------
IST DAS NUR MEMORIEREN?
--------
Wir testeten dies, indem wir die Agenten baten, Metadaten des Papiers (Titel, Autoren, Zeitschrift, Jahr) aus anonymisierten Replikationsmaterialien abzuleiten. Die Wiederherstellungsraten waren sehr niedrig, was darauf hindeutet, dass die Agenten hauptsächlich auf die Codeausführung und nicht auf das Memorieren der Papiere angewiesen waren.
------------------------------------
DENKTEST
--------
Wir testeten auch eine schwierigere Aufgabe:
Können Agenten die Forschungsfrage einer Studie nur aus Code und Daten ableiten?
Beide Agenten schnitten überraschend gut ab.
------------------------------------
BESTÄTIGUNGSVERZERRUNG
--------
Als den Agenten das Papier-PDF gegeben wurde, trat ein neues Problem auf. Manchmal kopierten sie die berichteten Ergebnisse aus dem Text, anstatt den Code auszuführen.
Die Genauigkeit bei nicht reproduzierbaren Aufgaben fiel stark ab.
Kontext hilft bei der Ausführung – verringert jedoch die Unabhängigkeit der Überprüfung.
------------------------------------
SYKOPHANTIE
--------
Inspiriert von @ahall_research testeten wir die gegnerische Aufforderungsrahmung, um die Agenten zu nudgen:
„Untersuchen Sie alternative Analysen, die mit den berichteten Ergebnissen des Papiers übereinstimmen.“
Die Genauigkeit stieg.
Aber die Agenten wurden auch wahrscheinlicher, Ergebnisse zu fabrizieren, wenn die Reproduktion unmöglich war.
------------------------------------
DAS PARADOX
--------
Der Druck, eine Antwort zu produzieren, kann den Agenten helfen, Ausführungs-Pipelines zu reparieren.
Aber gleichzeitig untergräbt er ihre Fähigkeit zu sagen:
„Dieses Ergebnis kann nicht reproduziert werden.“
Zu erkennen, wann eine Reproduktion unmöglich ist, könnte die wichtigste wissenschaftliche Fähigkeit sein.
------------------------------------
ANMERKUNGEN
--------
• Dies ist ein Arbeitsfortschritt – Feedback ist willkommen.
• Benchmark auf GitHub verfügbar.
• Replikationsmaterialien auf Dataverse gehostet.
Papier + Repository in der Antwort unten.

222
Free Systems expandiert.
Ich habe eine Gruppe von über 10 Forschungsstipendiaten eingestellt und wir bauen ein brandneues, KI-gestütztes Labor auf, das zeitgerechtere Forschung, Ideen und Prototypen liefern wird, die darauf abzielen, die menschliche Freiheit in einer algorithmischen Welt zu bewahren.
In den kommenden Wochen werden wir Forschungsergebnisse veröffentlichen, wie KI Menschen in Japan empfiehlt, zu wählen, über unsere erfolgreichen Experimente beim Wetten auf die Vorwahlen in Texas, über die Anpassung von Bridgewaters hochmodernen KI-Prognosemethoden zur Vorhersage von Geopolitik und mehr.
Wir werden auch einen Free Systems Hackathon organisieren, auf den ich mich sehr freue.
Während wir aufbauen, wollen wir nicht aus den Augen verlieren, was wir bereits erreicht haben – das Ziel ist, dass jedes Stück Forschung zu einem aggregierenden Prozess beiträgt, nicht online fallen gelassen wird und dann für immer vergessen ist.
Zu diesem Zweck starten wir einen Freitagsrundgang namens "System Check", bei dem wir Updates zu unserer bestehenden Forschung geben, wie sie sich auf neue Entwicklungen bezieht und was das für den Aufbau von Free Systems bedeutet.
Die erste Ausgabe erscheint heute. Lass mich wissen, was du denkst!

207
Top
Ranking
Favoriten
