Чтобы измерить алгоритмический прогресс с 2019 года, я переобучил GPT-2, используя современный стек nanogpt speedrun. Текущий SOTA nanogpt в 707 раз быстрее. Мы можем разложить общее ускорение на > 15x быстрее FLOP в секунду (на фиксированном оборудовании) > 46x меньше FLOPs для достижения того же значения потерь на валидации.