Pour mesurer les progrès algorithmiques depuis 2019, j'ai réentraîné GPT-2 en utilisant la pile speedrun moderne de nanogpt. Le SOTA actuel de nanogpt est 707x plus rapide. Nous pouvons décomposer l'accélération totale en > 15x plus rapide en FLOP par seconde (sur du matériel fixe) > 46x moins de FLOPs pour atteindre la même perte de validation.