Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Cred că RL-ul cu recompense verificabile va deveni din ce în ce mai important pentru a împinge LLM-urile spre propriul lor "moment AlphaZero". Probabil va începe cu programarea, apoi se va extinde la matematică, fizică și alte domenii unde modelele se pot auto-explora, pot descoperi soluții în afara distribuției pe care oamenii nu le-ar putea imagina niciodată și le vor verifica folosind un semnal absolut de recompensă (0/1).
Acest lucru îmi amintește și de @elonmusk vorbind despre un viitor în care programele ar putea fi generate direct ca binare, fără a trece prin procesul tradițional de compilare. Acest lucru ar putea fi chiar posibil dacă LLM-urile pot genera cod binar și apoi îl pot executa direct pe baza unei recompense verificabile.
Limită superioară
Clasament
Favorite
