Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
Acho que o RL com recompensas verificáveis se tornará cada vez mais importante para levar os LLMs ao seu próprio "momento AlphaZero". Provavelmente começará com programação, depois se estenderá para matemática, física e outros domínios onde os modelos podem se autoexplorar, descobrir soluções fora da distribuição que os humanos talvez nunca imaginem e verificá-las usando um sinal de recompensa absoluto (0/1).
Isso também me lembra do @elonmusk falando sobre um futuro onde programas poderiam ser gerados diretamente como binários, sem passar pelo processo de compilação tradicional. Isso pode realmente ser possível se os LLMs conseguirem gerar código binário e depois executá-lo diretamente contra uma recompensa verificável.
Top
Classificação
Favoritos
