Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Gosto de treinar redes neurais grandes e profundas. Anteriormente Diretor de IA @ Tesla, equipe fundadora @ OpenAI, PhD @ Stanford.
Três dias atrás, deixei o autoresearch tuning nanochat por ~2 dias no modelo depth=12. Encontrou ~20 mudanças que melhoraram a perda de validação. Testei essas mudanças ontem e todas foram aditivas e transferidas para modelos maiores (profundidade=24). Somando todas essas mudanças, hoje medi que o "Tempo até GPT-2" do ranking cai de 2,02 horas para 1,80 horas (~11% de melhora), e essa será a nova entrada no ranking. Então sim, essas são melhorias reais e fazem uma diferença real. Estou um pouco surpreso que minha primeira tentativa ingênua já tenha funcionado tão bem, além do que eu achava que já era um projeto bastante bem ajustado manualmente.
Isso é inédito para mim porque estou muito acostumado a fazer a otimização iterativa do treinamento de redes neurais manualmente. Você cria ideias, implementa, verifica se funcionam (melhor perda de validação), cria novas ideias baseadas nisso, lê alguns artigos para se inspirar, etc etc. Esse é o pão de cada dia do que faço diariamente há 2 décadas. Ver o agente fazer todo esse fluxo de trabalho de ponta a ponta e sozinho, enquanto processava cerca de 700 mudanças de forma autônoma, é impressionante. Ele realmente analisava a sequência dos resultados dos experimentos e usava isso para planejar os próximos. Não é uma "pesquisa" inovadora ou inovadora (ainda), mas todos os ajustes são "reais", eu não os encontrei manualmente antes, e eles se acumulam e na verdade melhoram o nanochat. Entre as coisas maiores, por exemplo:
- Percebeu um esquecimento de que meu QKnorm sem parâmetros não tinha um multiplicador de escalador acoplado, então minha atenção estava muito dispersa. O agente encontrou multiplicadores para afiá-la, apontando para trabalhos futuros.
- Descobriu que os Value Embeddings gostam muito de regularização e eu não estava aplicando nenhuma (ops).
- Descobriu que minha atenção em banda era conservadora demais (esqueci de afinar).
- Descobriu que os betas do AdamW estavam todos bagunçados.
- Ajustou o cronograma de perda de peso.
- Ajustou a inicialização da rede.
Isso além de toda a afinação que já fiz ao longo de um bom tempo. O commit exato está aqui, desta "rodada 1" de autopesquisa. Vou começar a "rodada 2" e, paralelamente, estou analisando como múltiplos agentes podem colaborar para desbloquear o paralelismo.
Todos os laboratórios de LLM Frontier fazem isso. É a batalha final contra o chefe. É muito mais complexo em escala, claro – você não tem apenas um trem único. Arquivo PY para ajustar. Mas fazer isso é "só engenharia" e vai funcionar. Você cria um enxame de agentes, faz com que colaborem para ajustar modelos menores, promove as ideias mais promissoras para escalas cada vez maiores, e humanos (opcionalmente) contribuem nas bordas.
E, de forma mais geral, *qualquer* métrica que você se importe e que seja razoavelmente eficiente de avaliar (ou que tenha métricas proxy mais eficientes, como treinar uma rede menor) pode ser pesquisada automaticamente por um enxame de agentes. Vale a pena pensar se seu problema também se encaixa nesse quadro.

456
Embalei o projeto de "autopesquisa" em um novo repositório minimalista autônomo caso as pessoas queiram jogar durante o fim de semana. É basicamente um núcleo de treinamento de LLM nanochat reduzido a uma única GPU, um arquivo, com ~630 linhas de código, e então:
- o humano itera no prompt (.md)
- o agente de IA itera no código de treinamento (.py)
O objetivo é orientar seus agentes para que façam o progresso de pesquisa mais rápido indefinidamente e sem envolvimento próprio. Na imagem, cada ponto é uma corrida completa de treinamento de LLM que dura exatamente 5 minutos. O agente trabalha em um loop autônomo em um branch de característica git e acumula commits git no script de treinamento à medida que encontra configurações melhores (com menor perda de validação ao final) da arquitetura da rede neural, do otimizador, de todos os hiperparâmetros, etc. Você pode imaginar comparar o progresso da pesquisa de diferentes prompts, diferentes agentes, etc.
Parte código, parte ficção científica e um pouco de psicose :)

1,44K
Melhores
Classificação
Favoritos
