Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Acho que o RL com recompensas verificáveis se tornará cada vez mais importante para levar os LLMs ao seu próprio "momento AlphaZero". Provavelmente começará com programação, depois se estenderá para matemática, física e outros domínios onde os modelos podem se autoexplorar, descobrir soluções fora da distribuição que os humanos talvez nunca imaginem e verificá-las usando um sinal de recompensa absoluto (0/1). Isso também me lembra do @elonmusk falando sobre um futuro onde programas poderiam ser gerados diretamente como binários, sem passar pelo processo de compilação tradicional. Isso pode realmente ser possível se os LLMs conseguirem gerar código binário e depois executá-lo diretamente contra uma recompensa verificável.

Top

Classificação

Favoritos