Tôi nghĩ rằng RL với phần thưởng có thể xác minh sẽ ngày càng quan trọng trong việc thúc đẩy LLM tiến tới "thời điểm AlphaZero" của chính nó. Nó có thể bắt đầu với lập trình, sau đó mở rộng sang toán học, vật lý và các lĩnh vực khác nơi các mô hình có thể tự khám phá, phát hiện các giải pháp ngoài phân phối mà con người có thể không bao giờ tưởng tượng ra, và xác minh chúng bằng cách sử dụng tín hiệu phần thưởng tuyệt đối (0/1). Điều này cũng khiến tôi nhớ đến @elonmusk nói về một tương lai mà các chương trình có thể được tạo ra trực tiếp dưới dạng nhị phân, mà không cần trải qua quy trình biên dịch truyền thống. Điều đó có thể thực sự khả thi nếu LLM có thể tạo ra mã nhị phân và sau đó thực thi nó trực tiếp với một phần thưởng có thể xác minh.