Jag tror att RL med verifierbara belöningar kommer att bli allt viktigare för att driva LLM:er mot sitt eget "AlphaZero-ögonblick." Det kommer sannolikt att börja med kodning, sedan utvidgas till matematik, fysik och andra områden där modeller kan utforska sig själva, upptäcka lösningar utanför fördelning som människor kanske aldrig kan föreställa sig, och verifiera dem med hjälp av en absolut belöningssignal (0/1). Detta påminner mig också om @elonmusk pratade om en framtid där program kunde genereras direkt som binärfiler, utan att gå igenom den traditionella sammanställningsprocessen. Det kan faktiskt vara möjligt om LLM:er kan generera binär kod och sedan köra den direkt mot en verifierbar belöning.