För att mäta algoritmiska framsteg sedan 2019 tränade jag om GPT-2 med hjälp av den moderna nanogpt speedrun-stacken. Nuvarande nanogpt SOTA är 707 gånger snabbare. Vi kan dela upp total hastighetsökning i > 15 gånger snabbare FLOP per sekund (på fast hårdvara) > 46 gånger färre FLOPs för att nå samma valförlust.