検証可能な報酬を持つ強化学習は、LLMを独自の「アルファゼロモーメント」へと押し進める上でますます重要になると思います。おそらくコーディングから始まり、数学、物理学など、モデルが自己探索し、人間が想像もしなかった流通外の解決策を発見し、絶対報酬シグナル(0/1)で検証できる分野にまで拡大するでしょう。 これはまた、@elonmuskが話していた、プログラムが従来のコンパイルプロセスを経ずに直接バイナリとして生成できる未来について話していたことを思い出させます。もしLLMがバイナリコードを生成し、検証可能な報酬に対して直接実行できれば、それは実際に可能かもしれません。