Les agents IA commencent à effectuer de véritables analyses biologiques : inspection de jeux de données, exécution de flux de travail computationnels et production de résultats de recherche précieux. Alors que l'IA pour la science se rapproche d'une utilisation pratique dans les laboratoires, la question de la manière d'évaluer efficacement les agents biologiques devient de plus en plus importante. Le BixBench Verified 50 est une liste soigneusement élaborée de questions pour évaluer les agents biologiques dans plusieurs domaines de la bioinformatique. Nous avons testé le BIOS AI Scientist sur le BixBench Verified 50 aux côtés d'agents IA à usage général et spécifiques à un domaine. BIOS a obtenu 90 % de précision, suivi de K-Dense. Suivi par : > Biomni Labs - 88,7 % > Edison Scientific - 78,0 % > Claude - 65,3 % & > OpenAI Agents SDK - 61,3 % Voir les résultats complets : Un point clé à retenir : évaluer les agents biologiques ne consiste pas seulement à vérifier si le pipeline d'analyse fonctionne correctement. Dans une tâche de référence, l'agent a calculé les bonnes corrélations, mais a mal interprété la signification biologique d'une colonne de jeu de données. Le résultat : une analyse numériquement correcte, mais des conclusions biologiquement inversées. Alors que les agents biologiques passent des benchmarks contrôlés aux environnements scientifiques réels, nous devons évaluer le flux de travail, les hypothèses et le raisonnement, et pas seulement vérifier si la réponse finale est numériquement correcte. Lisez-en plus dans notre article de blog :