Ik denk dat RL met verifieerbare beloningen steeds belangrijker zal worden om LLM's naar hun eigen "AlphaZero-moment" te duwen. Het zal waarschijnlijk beginnen met coderen, en zich dan uitbreiden naar wiskunde, natuurkunde en andere domeinen waar modellen zelf kunnen verkennen, oplossingen buiten de distributie kunnen ontdekken die mensen zich misschien nooit kunnen voorstellen, en deze kunnen verifiëren met een absoluut beloningssignaal (0/1). Dit doet me ook denken aan @elonmusk die praat over een toekomst waarin programma's rechtstreeks als binaire bestanden kunnen worden gegenereerd, zonder het traditionele compilatieproces te doorlopen. Dat zou eigenlijk mogelijk kunnen zijn als LLM's binaire code kunnen genereren en deze vervolgens rechtstreeks kunnen uitvoeren tegen een verifieerbare beloning.