Autoresearch voor Monster Efficiëntie!
Ik heb @karpathy's autoresearch genomen en het doel veranderd naar het minimaliseren van de validatieverlies voor een vast tokenbudget van 10M tokens.
Ik heb het 's nachts laten draaien en het systeem ontdekte aanpassingen die leidden tot een verbetering van 14% ten opzichte van de basislijn.
Zo gek!
Zijn onderbewuste invloeden echt?
Ik heb een nieuw experiment toegevoegd aan Vibe Psychofysica!
Mijn resultaten toonden aan dat een woord dat te kort werd weergegeven om opgemerkt te worden, de herkenning van een gerelateerd woord versnelde (ten opzichte van een niet-gerelateerd woord). Dit toont aan dat priming-effecten echt zijn!
We hebben LLM's Tulu laten spreken, een taal met slechts 2 miljoen sprekers.
Het was niet gemakkelijk omdat LLM's het steeds verwarden met Kannada, maar we ontdekten dat negatieve beperkingen echt helpen.
🚨 Nieuw Papier
Een LLM trainen om een laag-resource taal te spreken
(EACL workshop, 2026)
Tulu wordt gesproken door meer dan 2 miljoen mensen in het kustgebied van Karnataka en LLM's kunnen het eigenlijk niet spreken. We hebben 85% grammaticale nauwkeurigheid bereikt zonder iets te finetunen of een enkel nieuw trainingsvoorbeeld te verzamelen.