Cred că RL-ul cu recompense verificabile va deveni din ce în ce mai important pentru a împinge LLM-urile spre propriul lor "moment AlphaZero". Probabil va începe cu programarea, apoi se va extinde la matematică, fizică și alte domenii unde modelele se pot auto-explora, pot descoperi soluții în afara distribuției pe care oamenii nu le-ar putea imagina niciodată și le vor verifica folosind un semnal absolut de recompensă (0/1). Acest lucru îmi amintește și de @elonmusk vorbind despre un viitor în care programele ar putea fi generate direct ca binare, fără a trece prin procesul tradițional de compilare. Acest lucru ar putea fi chiar posibil dacă LLM-urile pot genera cod binar și apoi îl pot executa direct pe baza unei recompense verificabile.