Saya pikir RL dengan hadiah yang dapat diverifikasi akan menjadi semakin penting dalam mendorong LLM menuju "momen AlphaZero" mereka sendiri. Ini kemungkinan akan dimulai dengan pengkodean, kemudian meluas ke matematika, fisika, dan domain lain di mana model dapat mengeksplorasi sendiri, menemukan solusi di luar distribusi yang mungkin tidak pernah dibayangkan manusia, dan memverifikasinya menggunakan sinyal hadiah absolut (0/1). Ini juga mengingatkan saya pada @elonmusk berbicara tentang masa depan di mana program dapat dihasilkan secara langsung sebagai biner, tanpa melalui proses kompilasi tradisional. Itu mungkin sebenarnya dimungkinkan jika LLM dapat menghasilkan kode biner dan kemudian menjalankannya secara langsung terhadap hadiah yang dapat diverifikasi.