Autoresearch para Eficiência de Amostra! Peguei o autoresearch do @karpathy e mudei o objetivo para minimizar a perda de validação para um orçamento fixo de 10M tokens. Executei durante a noite e o sistema descobriu ajustes que levaram a uma melhoria de 14% em relação à linha de base. Tão louco!
O que funcionou e o que não funcionou.
113