Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Agentes de IA estão começando a realizar análises biológicas reais: inspecionando conjuntos de dados, executando fluxos de trabalho computacionais e produzindo resultados valiosos em pesquisa.
À medida que a IA para ciência se aproxima do uso prático em laboratórios, a questão de como avaliar eficazmente agentes biológicos torna-se cada vez mais importante.
O BixBench Verified 50 é uma lista selecionada de perguntas para avaliar agentes biológicos em vários domínios de bioinformática.
Testamos o BIOS AI Scientist no BixBench Verified 50 junto com agentes de IA de uso geral e específicos de domínio.
A BIOS liderou com 90% de precisão junto com o K-Dense.
Em seguida:
> Biomni Labs - 88,7%
> Edison Scientific - 78,0%
> Claude - 65,3% &
> SDK de Agentes OpenAI - 61,3%
Veja os resultados completos:
Uma lição fundamental: avaliar agentes biológicos não é apenas sobre se o pipeline de análise está correto em funcionamento.
Em uma tarefa de benchmark, o agente calculou as correlações corretas, mas interpretou mal o significado biológico de uma coluna do conjunto de dados.
O resultado: análise numericamente correta, mas conclusões biologicamente invertidas.
À medida que agentes biológicos passam de benchmarks controlados para ambientes científicos do mundo real, precisamos avaliar o fluxo de trabalho, suposições e raciocínio, não apenas se a resposta final está numericamente correta.
Leia mais em nosso post do blog:

Melhores
Classificação
Favoritos
