Я вважаю, що RL із перевіреними винагородами стане дедалі важливішим для того, щоб LLM рухати їх до власного «моменту AlphaZero». Ймовірно, це почнеться з кодування, а потім розшириться на математику, фізику та інші сфери, де моделі зможуть самостійно досліджувати, відкривати рішення поза дистрибутивом, які люди можуть і не уявляти, і перевіряти їх за допомогою абсолютного сигналу винагороди (0/1). Це також нагадує мені, як @elonmusk говорили про майбутнє, де програми можна буде генерувати безпосередньо як бінарні файли, не проходячи традиційний процес компіляції. Це може бути реально, якщо LLM можуть генерувати бінарний код і потім виконувати його безпосередньо проти перевіреної винагороди.