Los agentes de IA están comenzando a realizar análisis biológicos reales: inspeccionando conjuntos de datos, ejecutando flujos de trabajo computacionales y produciendo resultados de investigación valiosos. A medida que la IA para la ciencia se acerca a su uso práctico en los laboratorios, la cuestión de cómo evaluar eficazmente a los agentes biológicos se vuelve cada vez más importante. El BixBench Verified 50 es una lista curada de preguntas para evaluar agentes biológicos en varios dominios de bioinformática. Probamos el BIOS AI Scientist en el BixBench Verified 50 junto con agentes de IA de propósito general y específicos de dominio. BIOS lideró con un 90% de precisión junto con K-Dense. Seguido por: > Biomni Labs - 88.7% > Edison Scientific - 78.0% > Claude - 65.3% & > OpenAI Agents SDK - 61.3% Consulta los resultados completos: Una conclusión clave: evaluar a los agentes biológicos no se trata solo de si el flujo de análisis se ejecuta correctamente. En una tarea de referencia, el agente calculó las correlaciones correctas, pero malinterpretó el significado biológico de una columna del conjunto de datos. El resultado: análisis numéricamente correcto, pero conclusiones biológicamente erróneas. A medida que los agentes biológicos pasan de los benchmarks controlados a entornos científicos del mundo real, necesitamos evaluar el flujo de trabajo, las suposiciones y el razonamiento, no solo si la respuesta final es numéricamente correcta. Lee más en nuestra publicación del blog: