Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Agen AI mulai melakukan analisis biologis nyata: memeriksa kumpulan data, menjalankan alur kerja komputasi, dan menghasilkan hasil penelitian yang berharga.
Ketika AI untuk sains bergerak lebih dekat ke penggunaan praktis di laboratorium, pertanyaan tentang bagaimana mengevaluasi agen biologis secara efektif menjadi semakin penting.
BixBench Verified 50 adalah daftar pertanyaan yang dikuratori untuk mengevaluasi agen biologis di beberapa domain bioinformatika.
Kami menguji BIOS AI Scientist di BixBench Verified 50 bersama agen AI tujuan umum dan khusus domain.
BIOS memimpin dengan akurasi 90% bersama dengan K-Dense.
Diikuti oleh:
> Biomni Labs - 88.7%
> Edison Scientific - 78.0%
> Claude - 65.3% &
> OpenAI Agents SDK - 61,3%
Lihat hasil lengkapnya:
Satu poin kunci: mengevaluasi agen biologis bukan hanya tentang apakah saluran analisis berjalan dengan benar.
Dalam satu tugas benchmark, agen menghitung korelasi yang benar, tetapi salah menafsirkan arti biologis dari kolom dataset.
Hasilnya: analisis yang benar secara numerik, tetapi kesimpulan yang terbalik secara biologis.
Ketika agen biologis beralih dari tolok ukur terkontrol ke lingkungan ilmiah dunia nyata, kita perlu mengevaluasi alur kerja, asumsi, dan penalaran, bukan hanya apakah jawaban akhirnya benar secara numerik.
Baca lebih lanjut di posting blog kami:

Teratas
Peringkat
Favorit
