.@AnkythShukla udělal ostrý rozdíl, který většina AI vývojářů přehlíží. "Hodnocení, to může být cokoliv, že? Kdybychom to vysvětlovali opravdu jednoduše, mohl by to být jakýkoli test. Může to být jednotkový test ve starém jazyce. Může to být jen počítání slov. Nebo v nejpokročilejší formě, jak jsme ukázali, může jít o LLM soudce, což jakoby napodobuje část té lidské intuice, kterou jsme zakódovali do toho promptu, který jsme viděli." To přetváří celý rozhovor o hodnocení AI. Většina týmů slyší "hodnocení" a myslí na složité pipeline LLM jako soudce. Jsou zastrašení. Přeskočí to. Posílají bez měření. Realita z této epizody podcastu @aakashgupta: > Hodnocení může být tak jednoduché jako funkce počtu slov nebo jednotkový test. Laťka pro začátek je nízká. Cena za vynechání je vysoká. > Hodnotící LLM je pokročilá forma – zakódování lidské intuice do zadání, které hodnotí výstupy AI ve velkém měřítku. > Spektrum se pohybuje od deterministických kódových kontrol až po subjektivní hodnocení kvality. Obojí se počítá. Obojí je důležité. > To přímo odpovídá tomu, proč prototypy selhávají ve velkém měřítku. @AnkythShukla uvedl pět důvodů, ale dva vynikly: Data drift: produkt byl vytvořen pro jednu realitu. Uživatelé žijí v jiném. Bez nepřetržitých hodnocení nikdy nezachytíte odchylku. Náklady: SaaS má téměř nulové mezní náklady na uživatele. AI ne. Každý hovor stojí peníze. Bez hodnocení, která vám řeknou, které hovory fungují a které jsou zbytečné, náklady rostou bez úměrné hodnoty. Závěr: AI hodnocení nejsou kvalitní luxus. Jsou to provozní infrastruktura, která určuje, zda se váš prototyp stane produktem, nebo statistikou v 95% míře neúspěchu.