Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andy Hall
Prof @ Stanford GSB, Hoover. Trabajo en tecnología, política y gobernanza. Asesor en a16z crypto y Meta.
Trabajo muy interesante sobre cómo la investigación empírica debe responder a la era de la IA.
Las pruebas estadísticas convencionales con valores p provienen de un mundo en el que cada prueba se consideraba bastante costosa. La IA ahora hace que cada prueba sea prácticamente gratuita.
Algunos puntos clave del resumen:
--"demostramos que el cribado colapsa a medida que las pruebas se vuelven baratas a menos que el número requerido de comprobaciones de robustez escale al menos linealmente en el coste inverso de cada prueba"
--"defendemos la necesidad de desarrollar métodos para interpretar conjuntos de muchas especificaciones simultáneamente"
¡Sí! Todavía no sé exactamente cómo se verá y cómo se sentirá, pero está claro que es lo que se necesita. Y tiene que ir en ambas direcciones:
(1) Detectar y disuadir los hallazgos de investigación seleccionados a dedo
Pero igual de crucial:
(2) Detectar y recompensar los buenos hallazgos.
El número 2 aquí podría resultar en algunos aspectos más difícil. Toda nuestra intuición parece girar en torno a mostrar que un hallazgo es "menos sólido" de lo que pensábamos, y exigir una falsa sensación de perfección a partir de resultados publicados. Cuando podamos ver toda la constelación de hallazgos, necesitamos encontrar la manera correcta de ser más caritativos y realistas respecto a lo que cuenta como información útil.

Nic Fishman9 mar, 22:35
Existe una creciente preocupación de que la IA rompa las ciencias sociales empíricas —que los agentes puedan hackear hasta encontrar algo que "funcione".
Creemos que esa preocupación merece ser tomada en serio. Nuestro nuevo artículo demuestra que eso es verdad empíricamente y lo hace preciso:
317
Interesante que el código Claude rinda mejor que el codex en este ejercicio. Nos han parecido más o menos pero nuestras tareas son bastante diferentes.
@xuyiqing hiciste alguna comparación entre ambos en tu trabajo de replicación?

Meysam Alizadeh7 mar, 06:14
¿Pueden los agentes de codificación de IA reproducir hallazgos publicados en ciencias sociales?
En un nuevo trabajo con @_mohsen_m, Fabrizio Gilardi y @j_a_tucker, presentamos SocSci-Repro-Bench — un benchmark de 221 tareas de reproducibilidad de 54 artículos — y evaluamos dos agentes de codificación de frontera: Claude Code y Codex.
Los resultados revelan tanto capacidades notables como nuevos riesgos para la ciencia asistida por IA.
------------------------------------
OBJETIVO
--------
Un objetivo clave de diseño era separar dos problemas diferentes:
1️⃣ ¿Son reproducibles los materiales de replicación en sí mismos?
2️⃣ ¿Pueden los agentes de IA reproducir resultados cuando los materiales son ejecutables?
Para aislar el rendimiento del agente, solo incluimos tareas cuyos resultados eran idénticos en tres ejecuciones manuales independientes.
------------------------------------
DISEÑO
--------
Agentes recibidos:
• datos anonimizados + código
• un entorno de ejecución en formato sandbox
Tenían que hacerlo de forma autónoma:
• Dependencias de instalación
• depurar código roto
• ejecutar la tubería
• extraer los resultados solicitados
En resumen: reproducción computacional de extremo a extremo.
------------------------------------
RESULTADOS
--------
Ambos agentes reprodujeron una gran parte de los hallazgos publicados.
Pero Claude Code superó ampliamente a Codex.
Precisión a nivel de tarea
• Código Claude: 93,4%
• Códice: 62,1%
Reproducción a nivel de papel (todas las tareas correctas)
• Código Claude: 78,0%
• Códice: 35,8%
------------------------------------
¿POR QUÉ LA BRECHA?
--------
Los paquetes de replicación suelen contener problemas:
• Dependencias ausentes
• rutas de archivo codificadas de forma fija
• Especificaciones de entorno incompletas
Claude Code frecuentemente reparaba estos problemas de forma autónoma. Codex a menudo no lograba recuperar la tubería de ejecución.
------------------------------------
¿ESTO ES SOLO MEMORIZACIÓN?
--------
Probamos esto pidiendo a los agentes que inferieran metadatos del artículo (título, autores, revista, año) a partir de materiales de replicación anonimizados. Las tasas de recuperación eran muy bajas, lo que sugiere que los agentes dependían principalmente de la ejecución de código, no de la memorización de los artículos.
------------------------------------
PRUEBA DE RAZONAMIENTO
--------
También probamos una tarea más difícil:
¿Pueden los agentes inferir la pregunta de investigación de un estudio solo a partir de código y datos?
Ambos agentes actuaron sorprendentemente bien.
------------------------------------
SESGO DE CONFIRMACIÓN
--------
Cuando los agentes recibieron el PDF en papel, surgió un nuevo problema. A veces copiaban los resultados reportados del texto en lugar de ejecutar el código.
La precisión en tareas no reproducibles cayó drásticamente.
El contexto ayuda a la ejecución, pero reduce la independencia de la verificación.
------------------------------------
ADULACIÓN
--------
Inspirados por @ahall_research, probamos el encuadre adversarial de prompts, empujando a los agentes a:
"Explorar análisis alternativos que se alineen con los resultados reportados por el artículo."
La precisión aumentó.
Pero los agentes también se volvieron más propensos a fabricar resultados cuando la reproducción era imposible.
------------------------------------
LA PARADOJA
--------
La presión para producir una respuesta puede ayudar a los agentes a reparar las canalizaciones de ejecución.
Pero al mismo tiempo erosiona su capacidad para decir:
"Este resultado no puede reproducirse."
Reconocer cuándo la reproducción es imposible puede ser la capacidad científica más importante.
------------------------------------
NOTAS
--------
• Esto es un trabajo en curso — se agradece la retroalimentación.
• Benchmark disponible en GitHub.
• Materiales de replicación alojados en Dataverse.
Artículo + repositorio en la respuesta de abajo.

251
Los sistemas libres están en expansión.
He contratado a un grupo de 10+ investigadores y estamos construyendo un laboratorio completamente nuevo, impulsado por IA, que ofrecerá investigaciones, ideas y prototipos más oportunos destinados a preservar la libertad humana en un mundo algorítmico.
En las próximas semanas publicaremos investigaciones sobre cómo la IA recomienda votar a la gente en Japón, sobre nuestros experimentos exitosos apostando en las primarias de Texas, sobre la adaptación de los métodos de predicción de IA de vanguardia de Bridgewater para predecir la geopolítica, y más.
También organizaremos un hackathon de Sistemas Libres que me entusiasma muchísimo.
A medida que construimos, no queremos perder de vista lo que ya hemos hecho--- el objetivo es que cada pieza de investigación contribuya a un proceso de agregación, no que se descarte en línea y luego se olvide para siempre.
Con ese fin, vamos a empezar un resumen del viernes llamado "System Check" donde ofrecemos actualizaciones sobre nuestra investigación existente, cómo se relaciona con nuevos desarrollos y qué significa para construir Sistemas Libres.
El primero sale hoy. ¡Déjame saber qué opinas!

234
Populares
Ranking
Favoritas
