Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Andy Hall

Prof @ Stanford GSB, Hoover. Trabalho em tecnologia, política e governação. Consultor na a16z crypto e Meta.

É interessante que o código do Claude tenha um desempenho melhor do que o do Codex neste exercício. Temos achado que são aproximadamente semelhantes, mas as nossas tarefas são bastante diferentes! @xuyiqing, você fez alguma comparação entre os dois no seu trabalho de replicação?

Os agentes de codificação de IA podem reproduzir descobertas publicadas em ciências sociais? Em um novo trabalho com @_mohsen_m, Fabrizio Gilardi e @j_a_tucker, apresentamos o SocSci-Repro-Bench — um benchmark de 221 tarefas de reprodutibilidade de 54 artigos — e avaliamos dois agentes de codificação de ponta: Claude Code e Codex. Os resultados revelam tanto capacidades notáveis quanto novos riscos para a ciência assistida por IA. ------------------------------------ GOAL -------- Um objetivo de design chave foi separar dois problemas diferentes: 1️⃣ Os materiais de replicação são eles mesmos reprodutíveis? 2️⃣ Os agentes de IA podem reproduzir resultados quando os materiais são executáveis? Para isolar o desempenho do agente, incluímos apenas tarefas cujos resultados eram idênticos em três execuções manuais independentes. ------------------------------------ DESIGN -------- Os agentes receberam: • dados + código anonimizados • um ambiente de execução isolado Eles tiveram que autonomamente: • instalar dependências • depurar código quebrado • executar o pipeline • extrair os resultados solicitados Em resumo: reprodução computacional de ponta a ponta. ------------------------------------ RESULTADOS -------- Ambos os agentes reproduziram uma grande parte das descobertas publicadas. Mas Claude Code superou substancialmente o Codex. Precisão a nível de tarefa • Claude Code: 93,4% • Codex: 62,1% Reprodução a nível de artigo (todas as tarefas corretas) • Claude Code: 78,0% • Codex: 35,8% ------------------------------------ POR QUE A DIFERENÇA? -------- Pacotes de replicação frequentemente contêm problemas: • dependências ausentes • caminhos de arquivo codificados • especificações de ambiente incompletas Claude Code frequentemente reparou esses problemas autonomamente. Codex frequentemente falhou em recuperar o pipeline de execução. ------------------------------------ É APENAS MEMORIZAÇÃO? -------- Testamos isso pedindo aos agentes que inferissem os metadados do artigo (título, autores, jornal, ano) a partir de materiais de replicação anonimizados. As taxas de recuperação foram muito baixas, sugerindo que os agentes se basearam principalmente na execução de código, não na memorização de artigos. ------------------------------------ TESTE DE RAZOAMENTO -------- Também testamos uma tarefa mais difícil: Os agentes podem inferir a questão de pesquisa de um estudo apenas a partir de código e dados? Ambos os agentes se saíram surpreendentemente bem. ------------------------------------ BIASES DE CONFIRMAÇÃO -------- Quando os agentes receberam o PDF do artigo, um novo problema surgiu. Às vezes, eles copiavam os resultados relatados do texto em vez de executar o código. A precisão em tarefas não reprodutíveis caiu drasticamente. O contexto ajuda na execução — mas reduz a independência da verificação. ------------------------------------ SYCOPHANCY -------- Inspirados por @ahall_research, testamos a formulação de prompts adversariais, incentivando os agentes a: "explorar análises alternativas que se alinhem com os resultados relatados do artigo." A precisão aumentou. Mas os agentes também se tornaram mais propensos a fabricar resultados quando a reprodução era impossível. ------------------------------------ O PARADOXO -------- A pressão para produzir uma resposta pode ajudar os agentes a reparar pipelines de execução. Mas ao mesmo tempo, erode sua capacidade de dizer: "Este resultado não pode ser reproduzido." Reconhecer quando a reprodução é impossível pode ser a capacidade científica mais importante. ------------------------------------ NOTAS -------- • Este é um trabalho em progresso — feedback é bem-vindo. • Benchmark disponível no GitHub. • Materiais de replicação hospedados no Dataverse. Artigo + repositório na resposta abaixo.

Top

Classificação

Favoritos