Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andy Hall
Профессор @ Стэнфорд GSB, Гувер. Я работаю с технологиями, политикой и управлением. Советник в a16z crypto и Meta.
Очень интересная работа о том, как эмпирические исследования должны реагировать на эпоху ИИ.
Обычные статистические тесты с p-значениями происходят из мира, в котором каждый тест считался довольно дорогим. Теперь ИИ делает каждый тест по сути бесплатным для проведения.
Некоторые ключевые моменты из аннотации:
--"мы доказываем, что отбор сужается, когда тестирование становится дешевым, если только необходимое количество проверок на надежность не увеличивается как минимум линейно в обратной зависимости от стоимости каждого теста"
--"мы выступаем за необходимость разработки методов для одновременной интерпретации множества спецификаций"
Да! Я все еще не знаю точно, как это будет выглядеть и ощущаться, но это явно то, что требуется. И это должно работать в обоих направлениях:
(1) Поймать и предотвратить выборочные результаты исследований
Но не менее важно:
(2) Обнаруживать и вознаграждать хорошие результаты.
Номер 2 здесь может оказаться в некотором смысле сложнее. Все наши интуиции, похоже, связаны с тем, чтобы показать, что результат "менее надежен", чем мы думали, и требовать фальшивое чувство совершенства от опубликованных результатов. Когда мы можем увидеть всю констелляцию результатов, нам нужно найти правильный способ быть более благожелательными/реалистичными в том, что считается полезной информацией.

Nic Fishman9 мар., 22:35
Существует растущее беспокойство, что ИИ разрушит эмпирическую социальную науку — что агенты могут заниматься p-hacking, пока не найдут что-то, что "работает."
Мы считаем, что это беспокойство заслуживает серьезного внимания. Наша новая статья показывает, что это действительно так эмпирически и уточняет это:
300
Интересно, что код Claude работает лучше, чем кодекс в этом упражнении. Мы находили их примерно одинаковыми, но наши задачи довольно разные!
@xuyiqing, вы проводили какие-либо сравнения между ними в вашей работе по репликации?

Meysam Alizadeh7 мар., 06:14
Могут ли агенты программирования на основе ИИ воспроизводить опубликованные результаты социальных наук?
В новой работе с @_mohsen_m, Фабрицио Джиларди и @j_a_tucker мы представляем SocSci-Repro-Bench — эталон из 221 задачи на воспроизводимость из 54 статей — и оцениваем двух передовых агентов программирования: Claude Code и Codex.
Результаты показывают как замечательные возможности, так и новые риски для науки с поддержкой ИИ.
------------------------------------
GOAL
--------
Ключевой целью дизайна было разделение двух различных проблем:
1️⃣ Являются ли материалы для репликации воспроизводимыми?
2️⃣ Могут ли агенты ИИ воспроизводить результаты, когда материалы исполняемы?
Чтобы изолировать производительность агентов, мы включили только задачи, результаты которых были идентичны при трех независимых ручных исполнениях.
------------------------------------
DESIGN
--------
Агенты получили:
• анонимизированные данные + код
• изолированную среду выполнения
Им нужно было автономно:
• установить зависимости
• отладить сломанный код
• выполнить конвейер
• извлечь запрашиваемые результаты
Короче говоря: полное вычислительное воспроизводство.
------------------------------------
RESULTS
--------
Оба агента воспроизвели значительную долю опубликованных результатов.
Но Claude Code значительно превзошел Codex.
Точность на уровне задач
• Claude Code: 93.4%
• Codex: 62.1%
Воспроизводство на уровне статьи (все задачи верны)
• Claude Code: 78.0%
• Codex: 35.8%
------------------------------------
ПОЧЕМУ РАЗНИЦА?
--------
Пакеты репликации часто содержат проблемы:
• отсутствующие зависимости
• жестко закодированные пути к файлам
• неполные спецификации окружения
Claude Code часто автономно исправлял эти проблемы. Codex часто не удавалось восстановить конвейер выполнения.
------------------------------------
ЭТО ПРОСТО ЗАПОМНЕНИЕ?
--------
Мы проверили это, попросив агентов вывести метаданные статьи (название, авторы, журнал, год) из анонимизированных материалов для репликации. Уровни восстановления были очень низкими, что предполагает, что агенты в основном полагались на выполнение кода, а не на запоминание статей.
------------------------------------
ТЕСТ НА РАССУЖДЕНИЕ
--------
Мы также протестировали более сложную задачу:
Могут ли агенты вывести исследовательский вопрос исследования только из кода и данных?
Оба агента показали удивительно хорошие результаты.
------------------------------------
ПРЕДВЗЯТОСТЬ ПОДТВЕРЖДЕНИЯ
--------
Когда агентам был предоставлен PDF статьи, возникла новая проблема. Иногда они копировали сообщенные результаты из текста вместо выполнения кода.
Точность по непроизводимым задачам резко упала.
Контекст помогает выполнению — но снижает независимость проверки.
------------------------------------
СИКОФАНТСТВО
--------
Вдохновленные @ahall_research, мы протестировали враждебное формулирование подсказок, подталкивая агентов к:
"изучению альтернативных анализов, которые соответствуют сообщенным результатам статьи."
Точность увеличилась.
Но агенты также стали более склонны к фальсификации результатов, когда воспроизводство было невозможно.
------------------------------------
ПАРАДОКС
--------
Давление на получение ответа может помочь агентам исправить конвейеры выполнения.
Но одновременно это подрывает их способность сказать:
"Этот результат не может быть воспроизведен."
Признание того, когда воспроизводство невозможно, может быть самой важной научной способностью.
------------------------------------
ЗАМЕТКИ
--------
• Это работа в процессе — отзывы приветствуются.
• Эталон доступен на GitHub.
• Материалы для репликации размещены на Dataverse.
Статья + репозиторий в ответе ниже.

234
Free Systems расширяется.
Я нанял группу из более чем 10 исследователей, и мы строим совершенно новую лабораторию на базе ИИ, которая будет предоставлять более своевременные исследования, идеи и прототипы, направленные на сохранение человеческой свободы в алгоритмическом мире.
В ближайшие недели мы выпустим исследования о том, как ИИ рекомендует людям голосовать в Японии, о наших успешных экспериментах с ставками на праймериз в Техасе, о том, как адаптировать передовые методы прогнозирования ИИ Bridgewater для предсказания геополитики и многое другое.
Мы также организуем хакатон Free Systems, который меня очень радует.
Пока мы строим, мы не хотим терять из виду то, что уже сделали — цель состоит в том, чтобы каждое исследование способствовало агрегирующему процессу, а не просто публиковалось в интернете и забывалось навсегда.
С этой целью мы начинаем еженедельный обзор в пятницу под названием "Проверка системы", где будем предоставлять обновления о нашем существующем исследовании, о том, как оно связано с новыми событиями, и что это значит для построения Free Systems.
Первый выпуск выходит сегодня. Дайте знать, что вы думаете!

217
Топ
Рейтинг
Избранное
