AI 代理開始進行真正的生物分析:檢查數據集、運行計算工作流程,並產生有價值的研究成果。 隨著 AI 在科學領域的應用越來越接近實際使用,如何有效評估生物代理的問題變得越來越重要。 BixBench Verified 50 是一個經過精心策劃的問題清單,用於評估多個生物信息學領域的生物代理。 我們在 BixBench Verified 50 上測試了 BIOS AI 科學家,並與通用和特定領域的 AI 代理進行比較。 BIOS 以 90% 的準確率領先,與 K-Dense 一同。 接下來是: > Biomni Labs - 88.7% > Edison Scientific - 78.0% > Claude - 65.3% & > OpenAI Agents SDK - 61.3% 查看完整結果: 一個關鍵的收穫是:評估生物代理不僅僅是看分析流程是否正確運行。 在一個基準任務中,該代理計算了正確的相關性,但誤解了數據集列的生物學意義。 結果:數值上正確的分析,但生物學上得出了相反的結論。 隨著生物代理從受控基準轉向現實世界的科學環境,我們需要評估工作流程、假設和推理,而不僅僅是最終答案在數值上是否正確。 在我們的博客文章中閱讀更多: