.@AnkythShukla fez uma distinção clara que a maioria dos construtores de IA não percebe. "Uma avaliação, pode ser qualquer coisa, certo? Se estivéssemos explicando isso de forma bem simples, poderia ser qualquer tipo de teste. Pode ser um teste unitário na linguagem antiga. Pode ser só uma contagem de palavras aqui. Ou, na forma mais avançada, como mostramos, pode ser um juiz de LLM, que meio que replica um pouco daquela intuição humana que codificamos naquele prompt que vimos." Isso reformula toda a conversa sobre avaliações de IA. A maioria das equipes ouve "avaliações" e pensa em pipelines complexos de LLM como juiz. Eles ficam intimidados. Eles pulam isso. Eles são enviados sem medição. A realidade deste episódio no podcast do @aakashgupta: > Uma avaliação pode ser tão simples quanto uma função de contagem de palavras ou um teste unitário. O padrão para começar é baixo. O custo de pular esse livro é alto. > Um juiz de LLM é a forma avançada – codificar a intuição humana em um prompt que avalia as saídas de IA em escala. > O espectro vai desde verificações determinísticas de código até avaliação subjetiva de qualidade. Ambos contam. Ambos importam. > Isso corresponde diretamente ao motivo pelo qual protótipos falham em escala. @AnkythShukla identificou cinco razões, mas duas se destacam: Deriva de dados: o produto foi criado para uma única realidade. Os usuários vivem em outra. Sem avaliações rodando continuamente, você nunca percebe a divergência. Custo: O SaaS tem custo marginal por usuário quase nulo. A IA não tem. Cada ligação custa dinheiro. Sem avaliações dizendo quais chamadas estão funcionando e quais são desperdiçadas, os custos disparam sem valor proporcional. A lição: avaliações de IA não são um luxo de qualidade. Eles são a infraestrutura operacional que determina se seu protótipo se torna um produto ou uma estatística na taxa de falha de 95%.