Agentes de IA estão começando a realizar análises biológicas reais: inspecionando conjuntos de dados, executando fluxos de trabalho computacionais e produzindo resultados valiosos em pesquisa. À medida que a IA para ciência se aproxima do uso prático em laboratórios, a questão de como avaliar eficazmente agentes biológicos torna-se cada vez mais importante. O BixBench Verified 50 é uma lista selecionada de perguntas para avaliar agentes biológicos em vários domínios de bioinformática. Testamos o BIOS AI Scientist no BixBench Verified 50 junto com agentes de IA de uso geral e específicos de domínio. A BIOS liderou com 90% de precisão junto com o K-Dense. Em seguida: > Biomni Labs - 88,7% > Edison Scientific - 78,0% > Claude - 65,3% & > SDK de Agentes OpenAI - 61,3% Veja os resultados completos: Uma lição fundamental: avaliar agentes biológicos não é apenas sobre se o pipeline de análise está correto em funcionamento. Em uma tarefa de benchmark, o agente calculou as correlações corretas, mas interpretou mal o significado biológico de uma coluna do conjunto de dados. O resultado: análise numericamente correta, mas conclusões biologicamente invertidas. À medida que agentes biológicos passam de benchmarks controlados para ambientes científicos do mundo real, precisamos avaliar o fluxo de trabalho, suposições e raciocínio, não apenas se a resposta final está numericamente correta. Leia mais em nosso post do blog: