Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hamul
Idee meta-benchmark: O colecție de hamuri de bază pentru agenți (AGENTS.md, documentații, abilități, cârlige) care încapsulează aplicații netriviale, fiecare cu un singur prompt de a terraforma aplicația dintr-o singură încercare, pornind de la zero. Când apar agenți sau modele noi de codare, putem rula împotriva harcelului pentru a compara direct cu versiunile anterioare ale modelelor. "Acest model a scris un browser de la zero pornind de la harness-ul standard al browserului, cu X% completitudine a caracteristicilor și doar Y linii de cod în Z ore pentru $XYZ."
Imaginează-ți să vezi acel Cursor de browser dezvoltat prin prisma fiecărei actualizări ulterioare de model. Cât de bun a fost codul? Cât de rapid era randarul? Cât de complet era setul de funcționalități? Cât timp a trebuit să funcționeze agentul? Care a fost costul all-in al jetoanelor?
Un fel de CSS Zen Garden (care a făcut mult pentru a avansa standardele browserelor) pentru hamurile agenților.
Simt că toți am experimentat diferența din Codex 5.4 Extra High (dacă nu, încetați să citiți această postare și încercați-l imediat), dar tot nu avem o modalitate de a surprinde într-un benchmark experiența calitativă a utilizării acestuia ca dezvoltator, în special pentru măsuri precum arhitectura și calitatea codului.
Limită superioară
Clasament
Favorite
