DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

Andy Hall

Professori @ Stanford GSB, Hoover. Työskentelen teknologian, politiikan ja hallinnon parissa. Neuvonantaja a16z Cryptossa ja Metassa.

On mielenkiintoista, että Claude-koodi toimii tässä harjoituksessa paremmin kuin codex. Olemme huomanneet, että ne ovat suunnilleen samanlaisia, mutta tehtävämme ovat melko erilaisia! @xuyiqing teitkö vertailuja näiden kahden välillä replikaatiotyössäsi?

Voivatko tekoälykoodaajat toistaa julkaistuja yhteiskuntatieteellisiä havaintoja? Uudessa työssä @_mohsen_m:n, Fabrizio Gilardin ja @j_a_tucker:n kanssa esittelemme SocSci-Repro-Benchin — 221 toistettavuustehtävän vertailun 54 artikkelista — ja arvioimme kahta rajakoodausagenttia: Claude Codea ja Codexia. Tulokset paljastavat sekä merkittäviä kykyjä että uusia riskejä tekoälyavusteisessa tieteessä. ------------------------------------ TAVOITE -------- Keskeinen suunnittelutavoite oli erottaa kaksi erilaista ongelmaa: 1️⃣ Ovatko replikaatiomateriaalit itsessään toistettavissa? 2️⃣ Voivatko tekoälyagentit toistaa tuloksia, kun materiaalit ovat suoritettavissa? Agentin suorituskyvyn eristämiseksi sisällytimme vain tehtävät, joiden tulokset olivat identtiset kolmessa itsenäisessä manuaalisessa suorituksessa. ------------------------------------ SUUNNITTELU -------- Saaneet agentit: • anonymisoitu data + koodi • hiekkalaatikko-suoritusympäristö Heidän täytyi tehdä itsenäisesti: • asenna riippuvuuksia • virheenkorjaus rikkinäisen koodin kanssa • suorittaa putki • poimia pyydetyt tulokset Lyhyesti: kokonaisvaltainen laskennallinen toisto. ------------------------------------ TULOKSET -------- Molemmat agentit toistivat suuren osan julkaistuista löydöksistä. Mutta Claude Code suoriutui selvästi paremmin kuin Codex. Tehtävätason tarkkuus • Claude Code: 93,4 % • Codex: 62,1 % Paperitason jäljentäminen (kaikki tehtävät oikein) • Claude-koodi: 78,0 % • Codex: 35,8 % ------------------------------------ MIKSI VÄLI? -------- Replikaatiopaketit sisältävät usein ongelmia: • puuttuvat riippuvuudet • kovakoodatut tiedostopolut • puutteelliset ympäristömäärittelyt Claude Code korjasi nämä ongelmat usein itsenäisesti. Codex epäonnistui usein suoritusputken palauttamisessa. ------------------------------------ ONKO TÄMÄ VAIN ULKOA OPETTELUA? -------- Testasimme tätä pyytämällä agentteja päättelemään artikkelin metatietoja (otsikko, kirjoittajat, lehti, vuosi) anonymisoiduista replikaatiomateriaaleista. Palautusprosentit olivat hyvin alhaiset, mikä viittaa siihen, että agentit luottivat pääasiassa koodin suorittamiseen, eivät papereiden ulkoa opetteluun. ------------------------------------ PÄÄTTELYTESTI -------- Testasimme myös vaikeamman tehtävän: Voivatko agentit päätellä tutkimuksen tutkimuksen kysymyksen pelkän koodin ja datan perusteella? Molemmat agentit suoriutuivat yllättävän hyvin. ------------------------------------ VAHVISTUSHARHA -------- Kun agenteille annettiin paperi-PDF, ilmeni uusi ongelma. Joskus he kopioivat raportoituja tuloksia tekstistä sen sijaan, että olisivat suorittaneet koodin. Tarkkuus ei-toistettavissa tehtävissä laski jyrkästi. Konteksti auttaa toteutuksessa — mutta vähentää verifioinnin riippumattomuutta. ------------------------------------ MIELISTELYÄ -------- @ahall_research innoittamana testasimme vastakkainasettelun kehystämistä, ohjaten agentteja seuraamaan: "Tutki vaihtoehtoisia analyysejä, jotka vastaavat artikkelin raportoituja tuloksia." Tarkkuus parantui. Mutta agentit alkoivat myös todennäköisemmin valmistaa tuloksia silloin, kun lisääntyminen oli mahdotonta. ------------------------------------ PARADOKSI -------- Paine tuottaa vastaus voi auttaa agentteja korjaamaan suoritusputkia. Mutta se samalla heikentää heidän kykyään sanoa: "Tätä tulosta ei voida toistaa." Lisääntymisen mahdottomuuden tunnistaminen voi olla tärkein tieteellinen kyky. ------------------------------------ HUOMAUTUKSIA -------- • Tämä on keskeneräistä työtä — palaute on tervetullutta. • Benchmark saatavilla GitHubissa. • Replikaatiomateriaalit, jotka on isännöity Dataverseen. Artikkeli + tietovarasto vastauksessa alla.

Johtavat

Rankkaus

Suosikit