Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andy Hall
Prof @ Stanford GSB, Hoover. Trabalho em tecnologia, política e governação. Consultor na a16z crypto e Meta.
Trabalho muito interessante sobre como a pesquisa empírica precisa responder à era da IA.
Os testes estatísticos convencionais com valores p vêm de um mundo em que cada teste era considerado bastante custoso. A IA agora torna cada teste essencialmente gratuito para executar.
Alguns pontos-chave do resumo:
--"provamos que a triagem colapsa à medida que os testes se tornam baratos, a menos que o número necessário de verificações de robustez escale pelo menos linearmente em relação ao custo inverso de cada teste"
--"defendemos a necessidade de desenvolver métodos para interpretar conjuntos de muitas especificações simultaneamente"
Sim! Eu ainda não sei exatamente como isso vai parecer e sentir, mas é claramente o que é necessário. E isso precisa funcionar em ambas as direções:
(1) Capturar e desencorajar descobertas de pesquisa selecionadas a dedo
Mas, igualmente crucial:
(2) Detectar e recompensar boas descobertas.
O número 2 aqui pode se provar, de algumas maneiras, mais difícil. Toda a nossa intuição parece girar em torno de mostrar que uma descoberta é "menos robusta" do que pensávamos, e exigir uma falsa sensação de perfeição dos resultados publicados. Quando podemos ver toda a constelação de descobertas, precisamos encontrar a maneira certa de ser mais generosos/realistas sobre o que conta como informação útil.

Nic Fishman9/03, 22:35
Há uma preocupação crescente de que a IA irá prejudicar as ciências sociais empíricas -- que os agentes podem manipular os dados até encontrarem algo que "funciona."
Acreditamos que essa preocupação merece ser levada a sério. O nosso novo artigo mostra que isso é verdade empiricamente e torna isso preciso:
305
É interessante que o código do Claude tenha um desempenho melhor do que o do Codex neste exercício. Temos achado que são aproximadamente semelhantes, mas as nossas tarefas são bastante diferentes!
@xuyiqing, você fez alguma comparação entre os dois no seu trabalho de replicação?

Meysam Alizadeh7/03, 06:14
Os agentes de codificação de IA podem reproduzir descobertas publicadas em ciências sociais?
Em um novo trabalho com @_mohsen_m, Fabrizio Gilardi e @j_a_tucker, apresentamos o SocSci-Repro-Bench — um benchmark de 221 tarefas de reprodutibilidade de 54 artigos — e avaliamos dois agentes de codificação de ponta: Claude Code e Codex.
Os resultados revelam tanto capacidades notáveis quanto novos riscos para a ciência assistida por IA.
------------------------------------
GOAL
--------
Um objetivo de design chave foi separar dois problemas diferentes:
1️⃣ Os materiais de replicação são eles mesmos reprodutíveis?
2️⃣ Os agentes de IA podem reproduzir resultados quando os materiais são executáveis?
Para isolar o desempenho do agente, incluímos apenas tarefas cujos resultados eram idênticos em três execuções manuais independentes.
------------------------------------
DESIGN
--------
Os agentes receberam:
• dados + código anonimizados
• um ambiente de execução isolado
Eles tiveram que autonomamente:
• instalar dependências
• depurar código quebrado
• executar o pipeline
• extrair os resultados solicitados
Em resumo: reprodução computacional de ponta a ponta.
------------------------------------
RESULTADOS
--------
Ambos os agentes reproduziram uma grande parte das descobertas publicadas.
Mas Claude Code superou substancialmente o Codex.
Precisão a nível de tarefa
• Claude Code: 93,4%
• Codex: 62,1%
Reprodução a nível de artigo (todas as tarefas corretas)
• Claude Code: 78,0%
• Codex: 35,8%
------------------------------------
POR QUE A DIFERENÇA?
--------
Pacotes de replicação frequentemente contêm problemas:
• dependências ausentes
• caminhos de arquivo codificados
• especificações de ambiente incompletas
Claude Code frequentemente reparou esses problemas autonomamente. Codex frequentemente falhou em recuperar o pipeline de execução.
------------------------------------
É APENAS MEMORIZAÇÃO?
--------
Testamos isso pedindo aos agentes que inferissem os metadados do artigo (título, autores, jornal, ano) a partir de materiais de replicação anonimizados. As taxas de recuperação foram muito baixas, sugerindo que os agentes se basearam principalmente na execução de código, não na memorização de artigos.
------------------------------------
TESTE DE RAZOAMENTO
--------
Também testamos uma tarefa mais difícil:
Os agentes podem inferir a questão de pesquisa de um estudo apenas a partir de código e dados?
Ambos os agentes se saíram surpreendentemente bem.
------------------------------------
BIASES DE CONFIRMAÇÃO
--------
Quando os agentes receberam o PDF do artigo, um novo problema surgiu. Às vezes, eles copiavam os resultados relatados do texto em vez de executar o código.
A precisão em tarefas não reprodutíveis caiu drasticamente.
O contexto ajuda na execução — mas reduz a independência da verificação.
------------------------------------
SYCOPHANCY
--------
Inspirados por @ahall_research, testamos a formulação de prompts adversariais, incentivando os agentes a:
"explorar análises alternativas que se alinhem com os resultados relatados do artigo."
A precisão aumentou.
Mas os agentes também se tornaram mais propensos a fabricar resultados quando a reprodução era impossível.
------------------------------------
O PARADOXO
--------
A pressão para produzir uma resposta pode ajudar os agentes a reparar pipelines de execução.
Mas ao mesmo tempo, erode sua capacidade de dizer:
"Este resultado não pode ser reproduzido."
Reconhecer quando a reprodução é impossível pode ser a capacidade científica mais importante.
------------------------------------
NOTAS
--------
• Este é um trabalho em progresso — feedback é bem-vindo.
• Benchmark disponível no GitHub.
• Materiais de replicação hospedados no Dataverse.
Artigo + repositório na resposta abaixo.

239
A Free Systems está a expandir-se.
Contratei um grupo de mais de 10 investigadores e estamos a construir um novo laboratório potenciado por IA que irá fornecer pesquisas, ideias e protótipos mais oportunos, destinados a preservar a liberdade humana num mundo algorítmico.
Nas próximas semanas, iremos lançar pesquisas sobre como a IA recomenda que as pessoas votem no Japão, sobre os nossos experimentos bem-sucedidos em apostas nas primárias do Texas, sobre a adaptação dos métodos de previsão de ponta da Bridgewater para prever a geopolítica, e muito mais.
Também estaremos a organizar um hackathon da Free Systems que me deixa super entusiasmado.
Enquanto construímos, não queremos perder de vista o que já fizemos---o objetivo é que cada peça de pesquisa contribua para um processo de agregação, e não seja deixada online e depois esquecida para sempre.
Para esse fim, estamos a iniciar uma atualização de sexta-feira chamada "System Check" onde fornecemos atualizações sobre a nossa pesquisa existente, como ela se relaciona com novos desenvolvimentos e o que isso significa para a construção da Free Systems.
A primeira já saiu hoje. Deixa-me saber o que achas!

222
Top
Classificação
Favoritos
