Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andy Hall
Professori @ Stanford GSB, Hoover. Työskentelen teknologian, politiikan ja hallinnon parissa. Neuvonantaja a16z Cryptossa ja Metassa.
Erittäin mielenkiintoista työtä siitä, miten empiirisen tutkimuksen täytyy vastata tekoälyaikaan.
Perinteinen tilastollinen testaus p-arvoilla syntyy maailmasta, jossa jokainen testi oli pidetty melko kalliina. Tekoäly tekee jokaisesta testistä käytännössä ilmaisen suoritettavaksi.
Muutamia keskeisiä kohtia tiivistelmästä:
--"Todistamme, että seulonta romahtaa, kun testaaminen halventua, ellei vaadittu määrä luotettavuustarkistuksia skaalaudu vähintään lineaarisesti kunkin testin käänteisessä kustannuksessa"
--"Puolustamme tarvetta kehittää menetelmiä, joilla voidaan tulkita monien määrittelyjen joukkoja samanaikaisesti"
Kyllä! En vieläkään tiedä tarkalleen, miltä tämä näyttää ja tuntuu, mutta se on selvästi se, mitä vaaditaan. Ja sen täytyy leikata molempiin suuntiin:
(1) Kiinni ja torju valikoidut tutkimustulokset
Mutta yhtä tärkeää:
(2) Havaita ja palkita hyvät löydökset.
Kakkonen tässä saattaa osoittautua jossain määrin vaikeammaksi. Kaikki intuitiomme näyttää perustuvan siihen, että havainto on "vähemmän luotettava" kuin luulimme, ja vaatimaan tekaistua täydellisyyden tunnetta julkaistuista tuloksista. Kun näemme koko löydösten kokonaisuuden, meidän täytyy löytää oikea tapa olla armollinen/realistisempi sen suhteen, mikä on hyödyllistä tietoa.

Nic Fishman9.3. klo 22.35
Kasvava huoli on, että tekoäly rikkoo empiirisen yhteiskuntatieteen – että agentit voivat hakkeroida, kunnes löytävät jotain, mikä "toimii".
Mielestämme tuo huoli ansaitsee tulla otetuksi vakavasti. Uusi artikkelimme osoittaa, että se on empiirisesti totta ja tekee siitä tarkkaa:
303
On mielenkiintoista, että Claude-koodi toimii tässä harjoituksessa paremmin kuin codex. Olemme huomanneet, että ne ovat suunnilleen samanlaisia, mutta tehtävämme ovat melko erilaisia!
@xuyiqing teitkö vertailuja näiden kahden välillä replikaatiotyössäsi?

Meysam Alizadeh7.3. klo 06.14
Voivatko tekoälykoodaajat toistaa julkaistuja yhteiskuntatieteellisiä havaintoja?
Uudessa työssä @_mohsen_m:n, Fabrizio Gilardin ja @j_a_tucker:n kanssa esittelemme SocSci-Repro-Benchin — 221 toistettavuustehtävän vertailun 54 artikkelista — ja arvioimme kahta rajakoodausagenttia: Claude Codea ja Codexia.
Tulokset paljastavat sekä merkittäviä kykyjä että uusia riskejä tekoälyavusteisessa tieteessä.
------------------------------------
TAVOITE
--------
Keskeinen suunnittelutavoite oli erottaa kaksi erilaista ongelmaa:
1️⃣ Ovatko replikaatiomateriaalit itsessään toistettavissa?
2️⃣ Voivatko tekoälyagentit toistaa tuloksia, kun materiaalit ovat suoritettavissa?
Agentin suorituskyvyn eristämiseksi sisällytimme vain tehtävät, joiden tulokset olivat identtiset kolmessa itsenäisessä manuaalisessa suorituksessa.
------------------------------------
SUUNNITTELU
--------
Saaneet agentit:
• anonymisoitu data + koodi
• hiekkalaatikko-suoritusympäristö
Heidän täytyi tehdä itsenäisesti:
• asenna riippuvuuksia
• virheenkorjaus rikkinäisen koodin kanssa
• suorittaa putki
• poimia pyydetyt tulokset
Lyhyesti: kokonaisvaltainen laskennallinen toisto.
------------------------------------
TULOKSET
--------
Molemmat agentit toistivat suuren osan julkaistuista löydöksistä.
Mutta Claude Code suoriutui selvästi paremmin kuin Codex.
Tehtävätason tarkkuus
• Claude Code: 93,4 %
• Codex: 62,1 %
Paperitason jäljentäminen (kaikki tehtävät oikein)
• Claude-koodi: 78,0 %
• Codex: 35,8 %
------------------------------------
MIKSI VÄLI?
--------
Replikaatiopaketit sisältävät usein ongelmia:
• puuttuvat riippuvuudet
• kovakoodatut tiedostopolut
• puutteelliset ympäristömäärittelyt
Claude Code korjasi nämä ongelmat usein itsenäisesti. Codex epäonnistui usein suoritusputken palauttamisessa.
------------------------------------
ONKO TÄMÄ VAIN ULKOA OPETTELUA?
--------
Testasimme tätä pyytämällä agentteja päättelemään artikkelin metatietoja (otsikko, kirjoittajat, lehti, vuosi) anonymisoiduista replikaatiomateriaaleista. Palautusprosentit olivat hyvin alhaiset, mikä viittaa siihen, että agentit luottivat pääasiassa koodin suorittamiseen, eivät papereiden ulkoa opetteluun.
------------------------------------
PÄÄTTELYTESTI
--------
Testasimme myös vaikeamman tehtävän:
Voivatko agentit päätellä tutkimuksen tutkimuksen kysymyksen pelkän koodin ja datan perusteella?
Molemmat agentit suoriutuivat yllättävän hyvin.
------------------------------------
VAHVISTUSHARHA
--------
Kun agenteille annettiin paperi-PDF, ilmeni uusi ongelma. Joskus he kopioivat raportoituja tuloksia tekstistä sen sijaan, että olisivat suorittaneet koodin.
Tarkkuus ei-toistettavissa tehtävissä laski jyrkästi.
Konteksti auttaa toteutuksessa — mutta vähentää verifioinnin riippumattomuutta.
------------------------------------
MIELISTELYÄ
--------
@ahall_research innoittamana testasimme vastakkainasettelun kehystämistä, ohjaten agentteja seuraamaan:
"Tutki vaihtoehtoisia analyysejä, jotka vastaavat artikkelin raportoituja tuloksia."
Tarkkuus parantui.
Mutta agentit alkoivat myös todennäköisemmin valmistaa tuloksia silloin, kun lisääntyminen oli mahdotonta.
------------------------------------
PARADOKSI
--------
Paine tuottaa vastaus voi auttaa agentteja korjaamaan suoritusputkia.
Mutta se samalla heikentää heidän kykyään sanoa:
"Tätä tulosta ei voida toistaa."
Lisääntymisen mahdottomuuden tunnistaminen voi olla tärkein tieteellinen kyky.
------------------------------------
HUOMAUTUKSIA
--------
• Tämä on keskeneräistä työtä — palaute on tervetullutta.
• Benchmark saatavilla GitHubissa.
• Replikaatiomateriaalit, jotka on isännöity Dataverseen.
Artikkeli + tietovarasto vastauksessa alla.

237
Free Systems laajenee.
Olen palkannut 10+ tutkijaryhmän ja rakennamme täysin uutta, tekoälypohjaista laboratoriota, joka tuottaa ajankohtaisempaa tutkimusta, ideoita ja prototyyppejä, joiden tarkoituksena on säilyttää ihmisen vapaus algoritmisessa maailmassa.
Tulevien viikkojen aikana julkaisemme tutkimusta siitä, miten tekoäly suosittelee ihmisiä äänestämään Japanissa, menestyksekkäistä kokeistamme Texasin esivaaleissa, Bridgewaterin huippuluokan tekoälyn ennustusmenetelmien soveltamisesta geopolitiikan ennustamiseen ja muusta.
Järjestämme myös Free Systems -hackathonin, josta olen todella innoissani.
Rakentaessamme emme halua unohtaa, mitä olemme jo tehneet--- tavoitteena on, että jokainen tutkimuspala osallistuu kokoamisprosessiin, ei pudota verkkoon ja unohtaa lopullisesti.
Tätä varten aloitamme perjantain "System Check" -katsauksen, jossa päivitämme nykyistä tutkimustamme, sen yhteyksiä uusiin kehityksiin ja mitä se merkitsee Free Systemsin rakentamiselle.
Ensimmäinen on julkaistu tänään. Kerro mitä mieltä olet!

220
Johtavat
Rankkaus
Suosikit
