Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andy Hall
Prof @ Stanford GSB, Hoover. Lucrez în domenii tehnologice, politică și guvernanță. Consilier la a16z crypto și Meta.
Este o lucrare foarte interesantă despre cum trebuie să răspundă cercetarea empirică la era AI.
Testarea statistică convențională cu valori p provine dintr-o lume în care fiecare test era considerat destul de costisitor. AI-ul face acum ca fiecare test să fie practic gratuit de rulat.
Câteva puncte cheie din rezumat:
--"demonstrăm că screening-ul se prăbușește pe măsură ce testarea devine ieftină, cu excepția cazului în care numărul necesar de verificări de robustețe scalează cel puțin liniar în costul invers al fiecărui test"
--"susținem necesitatea de a dezvolta metode pentru a interpreta simultan seturi cu mai multe specificații"
Da! Încă nu știu exact cum va arăta și cum se va simți, dar este clar ceea ce este necesar. Și trebuie să taie în ambele direcții:
(1) Prinde și descurajează rezultatele cercetărilor selectate cu grijă
Dar, la fel de important:
(2) Detectează și recompensează descoperirile bune.
Numărul 2 aici ar putea fi în unele privințe mai dificil. Toată intuiția noastră pare să fie axată pe a arăta că o constatare este "mai puțin solidă" decât credeam și a cere un fals sentiment de perfecțiune din rezultatele publicate. Când putem vedea întreaga constelație de descoperiri, trebuie să găsim modalitatea corectă de a fi mai caritabili/realiști în ceea ce privește informațiile utile.

Nic Fishman9 mar., 22:35
Există o îngrijorare tot mai mare că IA va încălca științele sociale empirice – că agenții pot face p-hack până găsesc ceva care "funcționează".
Credem că această grijă merită luată în serios. Noua noastră lucrare arată că acest lucru este adevărat din punct de vedere empiric și îl face precis:
293
Interesant că codul Claude performează mai bine decât codex în acest exercițiu. Am constatat că sunt aproximativ similare, dar sarcinile noastre sunt destul de diferite!
@xuyiqing ai făcut vreo comparație între cele două în munca ta de replicare?

Meysam Alizadeh7 mar., 06:14
Pot agenții de codare AI să reproducă descoperirile publicate în științele sociale?
În lucrări noi cu @_mohsen_m, Fabrizio Gilardi și @j_a_tucker, introducem SocSci-Repro-Bench — un reper pentru 221 de sarcini de reproducibilitate din 54 de articole — și evaluăm doi agenți de codare de frontieră: Claude Code și Codex.
Rezultatele dezvăluie atât capabilități remarcabile, cât și noi riscuri pentru știința asistată de IA.
------------------------------------
OBIECTIV
--------
Un obiectiv cheie al designului a fost separarea a două probleme diferite:
1️⃣ Materialele de replicare sunt ele însele reproductibile?
2️⃣ Pot agenții AI să reproducă rezultate atunci când materialele sunt executabile?
Pentru a izola performanța agentului, am inclus doar sarcini ale căror ieșiri au fost identice în trei execuții manuale independente.
------------------------------------
DESIGN
--------
Agenții primiți:
• date anonimizate + cod
• un mediu de execuție sandboxed
Acestea trebuiau să fie autonome:
• instalarea dependențelor
• depanarea codului defect
• executarea conductei
• extragerea rezultatelor solicitate
Pe scurt: reproducere computațională end-to-end.
------------------------------------
REZULTATE
--------
Ambii agenți au reprodus o mare parte din descoperirile publicate.
Dar Claude Code a depășit semnificativ pe Codex.
Acuratețea la nivel de sarcină
• Cod Claude: 93,4%
• Codex: 62,1%
Reproducere la nivel de hârtie (toate sarcinile corecte)
• Cod Claude: 78,0%
• Codex: 35,8%
------------------------------------
DE CE ACEASTĂ PAUZĂ?
--------
Pachetele de replicare conțin adesea probleme:
• dependențe lipsă
• căi de fișiere codificate fix
• specificații de mediu incomplete
Claude Code remedia frecvent aceste probleme autonom. Codex adesea nu reușea să recupereze pipeline-ul de execuție.
------------------------------------
ESTE DOAR MEMORARE?
--------
Am testat acest lucru cerând agenților să deducă metadatele lucrărilor (titlu, autori, jurnal, an) din materiale de replicare anonimizate. Ratele de recuperare erau foarte scăzute, sugerând că agenții se bazau în principal pe execuția codului, nu pe memorarea lucrărilor.
------------------------------------
TESTUL DE RAȚIONAMENT
--------
Am testat și o sarcină mai dificilă:
Pot agenții să deducă întrebarea de cercetare a unui studiu doar din cod și date?
Ambii agenți s-au descurcat surprinzător de bine.
------------------------------------
BIAS CONFIRMARE
--------
Când agenților li s-a dat PDF-ul pe hârtie, a apărut o nouă problemă. Uneori copiau rezultatele raportate din text în loc să execute codul.
Acuratețea la sarcinile nereproductibile a scăzut brusc.
Contextul ajută la execuție — dar reduce independența de verificare.
------------------------------------
LINGUȘITOR
--------
Inspirați de @ahall_research, am testat provocarea adversarială, împingând agenții la:
"Explorează analize alternative care să se alinieze cu rezultatele raportate de articol."
Acuratețea a crescut.
Dar agenții au devenit și mai predispuși să producă rezultate atunci când reproducerea era imposibilă.
------------------------------------
PARADOXUL
--------
Presiunea de a produce un răspuns poate ajuta agenții să repare canalele de execuție.
Dar, în același timp, le erodează capacitatea de a spune:
"Acest rezultat nu poate fi reprodus."
Recunoașterea momentului când reproducerea este imposibilă poate fi cea mai importantă capacitate științifică.
------------------------------------
NOTE
--------
• Aceasta este o lucrare în desfășurare — feedback-ul este binevenit.
• Benchmark disponibil pe GitHub.
• Materiale de replicare găzduite pe Dataverse.
Hârtie + depozit în răspunsul de mai jos.

223
Sistemele libere se extind.
Am angajat un grup de 10+ cercetători și construim un laborator nou-nouț, alimentat de inteligență artificială, care va livra cercetări, idei și prototipuri mai actuale, menite să păstreze libertatea umană într-o lume algoritmică.
În săptămânile următoare vom publica cercetări despre modul în care AI-ul recomandă votul oamenilor în Japonia, despre experimentele noastre de succes privind pariurile în alegerile primare din Texas, despre adaptarea metodelor de prognoză AI de ultimă generație ale Bridgewater pentru a prezice geopolitica și multe altele.
Vom organiza și un hackathon Free Systems care mă entuziasmează foarte mult.
Pe măsură ce construim, nu vrem să pierdem din vedere ceea ce am făcut deja---scopul este ca fiecare cercetare să contribuie la un proces de agregare, nu să fie abandonată online și apoi uitată pentru totdeauna.
În acest scop, începem o prezentare de vineri numită "System Check", unde oferim actualizări despre cercetările noastre existente, cum se raportează la noile dezvoltări și ce înseamnă pentru construirea de Sisteme Libere.
Primul este lansat azi. Spuneți-mi ce părere aveți!

208
Limită superioară
Clasament
Favorite
