För tre dagar sedan lämnade jag autoresearch-tuning nanochat i ~2 dagar på depth=12-modellen. Den fann ~20 förändringar som förbättrade valideringsförlusten. Jag testade dessa förändringar igår och alla var additiva och överförda till större (djup=24) modeller. Med alla dessa förändringar sammanlagda mätte jag idag att topplistans "Tid till GPT-2" sjunker från 2,02 timmar till 1,80 timmar (~11 % förbättring), detta blir den nya topplistan. Så ja, det här är verkliga förbättringar och de gör verklig skillnad. Jag är lite förvånad över att mitt allra första naiva försök redan fungerade så här bra ovanpå vad jag trodde var ett ganska manuellt väljusterat projekt. Detta är första gången för mig eftersom jag är mycket van vid att manuellt optimera neurala nätverksträningar iterativt. Du kommer på idéer, implementerar dem, kollar om de fungerar (bättre bekräftelseförlust), du kommer på nya idéer utifrån det, läser några artiklar för inspiration, och så vidare. Detta är vardagsbrödet i det jag gör dagligen i två decennier. Att se agenten göra hela detta arbetsflöde från början till slut och helt på egen hand medan den självständigt arbetade igenom cirka 700 ändringar är galet. Den tittade verkligen på sekvensen av experimentens resultat och använde det för att planera de nästa. Det är inte ny, banbrytande "forskning" (ännu), men alla justeringar är "verkliga", jag hittade dem inte manuellt tidigare, och de håller på med och förbättrade faktiskt nanochat. Bland de större sakerna, t.ex.: - Den märkte en miss att min parameterlösa QKnorm inte hade någon skalarmultiplikator kopplad, så min uppmärksamhet var för diffus. Agenten hittade multiplikatorer för att skärpa den, vilket pekade på framtida arbete. - Den fann att värdeinbäddningarna verkligen gillar regularisering och jag tillämpade ingen (oj). - Den upptäckte att min bandade uppmärksamhet var för konservativ (jag glömde att stämma den). - Den visade att AdamW-betas var helt störda. - Den justerade viktminskningsschemat. - Den justerade nätverksinitialiseringen. Detta är ovanpå all trimning jag redan gjort under en bra tid. Den exakta commit finns här, från denna "runda 1" av autoresearch. Jag ska starta "runda 2", och parallellt tittar jag på hur flera agenter kan samarbeta för att låsa upp parallellism. Alla LLM-gränslaboratorier gör detta. Det är slutbossen. Det är förstås mycket mer komplext i stor skala – du har inte bara ett enda tåg. Py-fil att justera. Men att göra det är "bara ingenjörskonst" och det kommer att fungera. Du sätter ihop en svärm av agenter, låter dem samarbeta för att finjustera mindre modeller, du marknadsför de mest lovande idéerna till allt större skalor, och människor bidrar (valfritt) i utkanterna. Och mer generellt kan *vilken mätvärd* som helst du bryr dig om som är rimligt effektiv att utvärdera (eller som har mer effektiva proxymått som att träna ett mindre nätverk) automatiskt forskas fram av en agentsvärm. Det är värt att fundera på om ditt problem också faller inom denna kategori.