Para medir el progreso algorítmico desde 2019, volví a entrenar GPT-2 utilizando la pila de speedrun moderna de nanogpt. El SOTA actual de nanogpt es 707x más rápido. Podemos descomponer la aceleración total en > 15x más FLOP por segundo (en hardware fijo) > 46x menos FLOPs para alcanzar la misma pérdida de validación.