Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Andy Hall

Профессор @ Стэнфорд GSB, Гувер. Я работаю с технологиями, политикой и управлением. Советник в a16z crypto и Meta.

Очень интересная работа о том, как эмпирические исследования должны реагировать на эпоху ИИ. Обычные статистические тесты с p-значениями происходят из мира, в котором каждый тест считался довольно дорогим. Теперь ИИ делает каждый тест по сути бесплатным для проведения. Некоторые ключевые моменты из аннотации: --"мы доказываем, что отбор сужается, когда тестирование становится дешевым, если только необходимое количество проверок на надежность не увеличивается как минимум линейно в обратной зависимости от стоимости каждого теста" --"мы выступаем за необходимость разработки методов для одновременной интерпретации множества спецификаций" Да! Я все еще не знаю точно, как это будет выглядеть и ощущаться, но это явно то, что требуется. И это должно работать в обоих направлениях: (1) Поймать и предотвратить выборочные результаты исследований Но не менее важно: (2) Обнаруживать и вознаграждать хорошие результаты. Номер 2 здесь может оказаться в некотором смысле сложнее. Все наши интуиции, похоже, связаны с тем, чтобы показать, что результат "менее надежен", чем мы думали, и требовать фальшивое чувство совершенства от опубликованных результатов. Когда мы можем увидеть всю констелляцию результатов, нам нужно найти правильный способ быть более благожелательными/реалистичными в том, что считается полезной информацией.

Интересно, что код Claude работает лучше, чем кодекс в этом упражнении. Мы находили их примерно одинаковыми, но наши задачи довольно разные! @xuyiqing, вы проводили какие-либо сравнения между ними в вашей работе по репликации?

Могут ли агенты программирования на основе ИИ воспроизводить опубликованные результаты социальных наук? В новой работе с @_mohsen_m, Фабрицио Джиларди и @j_a_tucker мы представляем SocSci-Repro-Bench — эталон из 221 задачи на воспроизводимость из 54 статей — и оцениваем двух передовых агентов программирования: Claude Code и Codex. Результаты показывают как замечательные возможности, так и новые риски для науки с поддержкой ИИ. ------------------------------------ GOAL -------- Ключевой целью дизайна было разделение двух различных проблем: 1️⃣ Являются ли материалы для репликации воспроизводимыми? 2️⃣ Могут ли агенты ИИ воспроизводить результаты, когда материалы исполняемы? Чтобы изолировать производительность агентов, мы включили только задачи, результаты которых были идентичны при трех независимых ручных исполнениях. ------------------------------------ DESIGN -------- Агенты получили: • анонимизированные данные + код • изолированную среду выполнения Им нужно было автономно: • установить зависимости • отладить сломанный код • выполнить конвейер • извлечь запрашиваемые результаты Короче говоря: полное вычислительное воспроизводство. ------------------------------------ RESULTS -------- Оба агента воспроизвели значительную долю опубликованных результатов. Но Claude Code значительно превзошел Codex. Точность на уровне задач • Claude Code: 93.4% • Codex: 62.1% Воспроизводство на уровне статьи (все задачи верны) • Claude Code: 78.0% • Codex: 35.8% ------------------------------------ ПОЧЕМУ РАЗНИЦА? -------- Пакеты репликации часто содержат проблемы: • отсутствующие зависимости • жестко закодированные пути к файлам • неполные спецификации окружения Claude Code часто автономно исправлял эти проблемы. Codex часто не удавалось восстановить конвейер выполнения. ------------------------------------ ЭТО ПРОСТО ЗАПОМНЕНИЕ? -------- Мы проверили это, попросив агентов вывести метаданные статьи (название, авторы, журнал, год) из анонимизированных материалов для репликации. Уровни восстановления были очень низкими, что предполагает, что агенты в основном полагались на выполнение кода, а не на запоминание статей. ------------------------------------ ТЕСТ НА РАССУЖДЕНИЕ -------- Мы также протестировали более сложную задачу: Могут ли агенты вывести исследовательский вопрос исследования только из кода и данных? Оба агента показали удивительно хорошие результаты. ------------------------------------ ПРЕДВЗЯТОСТЬ ПОДТВЕРЖДЕНИЯ -------- Когда агентам был предоставлен PDF статьи, возникла новая проблема. Иногда они копировали сообщенные результаты из текста вместо выполнения кода. Точность по непроизводимым задачам резко упала. Контекст помогает выполнению — но снижает независимость проверки. ------------------------------------ СИКОФАНТСТВО -------- Вдохновленные @ahall_research, мы протестировали враждебное формулирование подсказок, подталкивая агентов к: "изучению альтернативных анализов, которые соответствуют сообщенным результатам статьи." Точность увеличилась. Но агенты также стали более склонны к фальсификации результатов, когда воспроизводство было невозможно. ------------------------------------ ПАРАДОКС -------- Давление на получение ответа может помочь агентам исправить конвейеры выполнения. Но одновременно это подрывает их способность сказать: "Этот результат не может быть воспроизведен." Признание того, когда воспроизводство невозможно, может быть самой важной научной способностью. ------------------------------------ ЗАМЕТКИ -------- • Это работа в процессе — отзывы приветствуются. • Эталон доступен на GitHub. • Материалы для репликации размещены на Dataverse. Статья + репозиторий в ответе ниже.

Топ

Рейтинг

Избранное