DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Andrej Karpathy

Gosto de treinar redes neurais grandes e profundas. Anteriormente Diretor de IA @ Tesla, equipe fundadora @ OpenAI, PhD @ Stanford.

Três dias atrás, deixei o autoresearch tuning nanochat por ~2 dias no modelo depth=12. Encontrou ~20 mudanças que melhoraram a perda de validação. Testei essas mudanças ontem e todas foram aditivas e transferidas para modelos maiores (profundidade=24). Somando todas essas mudanças, hoje medi que o "Tempo até GPT-2" do ranking cai de 2,02 horas para 1,80 horas (~11% de melhora), e essa será a nova entrada no ranking. Então sim, essas são melhorias reais e fazem uma diferença real. Estou um pouco surpreso que minha primeira tentativa ingênua já tenha funcionado tão bem, além do que eu achava que já era um projeto bastante bem ajustado manualmente. Isso é inédito para mim porque estou muito acostumado a fazer a otimização iterativa do treinamento de redes neurais manualmente. Você cria ideias, implementa, verifica se funcionam (melhor perda de validação), cria novas ideias baseadas nisso, lê alguns artigos para se inspirar, etc etc. Esse é o pão de cada dia do que faço diariamente há 2 décadas. Ver o agente fazer todo esse fluxo de trabalho de ponta a ponta e sozinho, enquanto processava cerca de 700 mudanças de forma autônoma, é impressionante. Ele realmente analisava a sequência dos resultados dos experimentos e usava isso para planejar os próximos. Não é uma "pesquisa" inovadora ou inovadora (ainda), mas todos os ajustes são "reais", eu não os encontrei manualmente antes, e eles se acumulam e na verdade melhoram o nanochat. Entre as coisas maiores, por exemplo: - Percebeu um esquecimento de que meu QKnorm sem parâmetros não tinha um multiplicador de escalador acoplado, então minha atenção estava muito dispersa. O agente encontrou multiplicadores para afiá-la, apontando para trabalhos futuros. - Descobriu que os Value Embeddings gostam muito de regularização e eu não estava aplicando nenhuma (ops). - Descobriu que minha atenção em banda era conservadora demais (esqueci de afinar). - Descobriu que os betas do AdamW estavam todos bagunçados. - Ajustou o cronograma de perda de peso. - Ajustou a inicialização da rede. Isso além de toda a afinação que já fiz ao longo de um bom tempo. O commit exato está aqui, desta "rodada 1" de autopesquisa. Vou começar a "rodada 2" e, paralelamente, estou analisando como múltiplos agentes podem colaborar para desbloquear o paralelismo. Todos os laboratórios de LLM Frontier fazem isso. É a batalha final contra o chefe. É muito mais complexo em escala, claro – você não tem apenas um trem único. Arquivo PY para ajustar. Mas fazer isso é "só engenharia" e vai funcionar. Você cria um enxame de agentes, faz com que colaborem para ajustar modelos menores, promove as ideias mais promissoras para escalas cada vez maiores, e humanos (opcionalmente) contribuem nas bordas. E, de forma mais geral, *qualquer* métrica que você se importe e que seja razoavelmente eficiente de avaliar (ou que tenha métricas proxy mais eficientes, como treinar uma rede menor) pode ser pesquisada automaticamente por um enxame de agentes. Vale a pena pensar se seu problema também se encaixa nesse quadro.

Melhores

Classificação

Favoritos