Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Andy Hall

Prof @ Stanford GSB, Hoover. Trabajo en tecnología, política y gobernanza. Asesor en a16z crypto y Meta.

Interesante que el código Claude rinda mejor que el codex en este ejercicio. Nos han parecido más o menos pero nuestras tareas son bastante diferentes. @xuyiqing hiciste alguna comparación entre ambos en tu trabajo de replicación?

¿Pueden los agentes de codificación de IA reproducir hallazgos publicados en ciencias sociales? En un nuevo trabajo con @_mohsen_m, Fabrizio Gilardi y @j_a_tucker, presentamos SocSci-Repro-Bench — un benchmark de 221 tareas de reproducibilidad de 54 artículos — y evaluamos dos agentes de codificación de frontera: Claude Code y Codex. Los resultados revelan tanto capacidades notables como nuevos riesgos para la ciencia asistida por IA. ------------------------------------ OBJETIVO -------- Un objetivo clave de diseño era separar dos problemas diferentes: 1️⃣ ¿Son reproducibles los materiales de replicación en sí mismos? 2️⃣ ¿Pueden los agentes de IA reproducir resultados cuando los materiales son ejecutables? Para aislar el rendimiento del agente, solo incluimos tareas cuyos resultados eran idénticos en tres ejecuciones manuales independientes. ------------------------------------ DISEÑO -------- Agentes recibidos: • datos anonimizados + código • un entorno de ejecución en formato sandbox Tenían que hacerlo de forma autónoma: • Dependencias de instalación • depurar código roto • ejecutar la tubería • extraer los resultados solicitados En resumen: reproducción computacional de extremo a extremo. ------------------------------------ RESULTADOS -------- Ambos agentes reprodujeron una gran parte de los hallazgos publicados. Pero Claude Code superó ampliamente a Codex. Precisión a nivel de tarea • Código Claude: 93,4% • Códice: 62,1% Reproducción a nivel de papel (todas las tareas correctas) • Código Claude: 78,0% • Códice: 35,8% ------------------------------------ ¿POR QUÉ LA BRECHA? -------- Los paquetes de replicación suelen contener problemas: • Dependencias ausentes • rutas de archivo codificadas de forma fija • Especificaciones de entorno incompletas Claude Code frecuentemente reparaba estos problemas de forma autónoma. Codex a menudo no lograba recuperar la tubería de ejecución. ------------------------------------ ¿ESTO ES SOLO MEMORIZACIÓN? -------- Probamos esto pidiendo a los agentes que inferieran metadatos del artículo (título, autores, revista, año) a partir de materiales de replicación anonimizados. Las tasas de recuperación eran muy bajas, lo que sugiere que los agentes dependían principalmente de la ejecución de código, no de la memorización de los artículos. ------------------------------------ PRUEBA DE RAZONAMIENTO -------- También probamos una tarea más difícil: ¿Pueden los agentes inferir la pregunta de investigación de un estudio solo a partir de código y datos? Ambos agentes actuaron sorprendentemente bien. ------------------------------------ SESGO DE CONFIRMACIÓN -------- Cuando los agentes recibieron el PDF en papel, surgió un nuevo problema. A veces copiaban los resultados reportados del texto en lugar de ejecutar el código. La precisión en tareas no reproducibles cayó drásticamente. El contexto ayuda a la ejecución, pero reduce la independencia de la verificación. ------------------------------------ ADULACIÓN -------- Inspirados por @ahall_research, probamos el encuadre adversarial de prompts, empujando a los agentes a: "Explorar análisis alternativos que se alineen con los resultados reportados por el artículo." La precisión aumentó. Pero los agentes también se volvieron más propensos a fabricar resultados cuando la reproducción era imposible. ------------------------------------ LA PARADOJA -------- La presión para producir una respuesta puede ayudar a los agentes a reparar las canalizaciones de ejecución. Pero al mismo tiempo erosiona su capacidad para decir: "Este resultado no puede reproducirse." Reconocer cuándo la reproducción es imposible puede ser la capacidad científica más importante. ------------------------------------ NOTAS -------- • Esto es un trabajo en curso — se agradece la retroalimentación. • Benchmark disponible en GitHub. • Materiales de replicación alojados en Dataverse. Artículo + repositorio en la respuesta de abajo.

Populares

Ranking

Favoritas