Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Meysam Alizadeh
Научный сотрудник @oiioxford
Предыдущий постдок @IPZ_ch, @Kennedy_School, @PrincetonSPIA @IULuddy
Вычислительная социальная наука, ИИ для науки
Могут ли агенты программирования на основе ИИ воспроизводить опубликованные результаты социальных наук?
В новой работе с @_mohsen_m, Фабрицио Джиларди и @j_a_tucker мы представляем SocSci-Repro-Bench — эталон из 221 задачи на воспроизводимость из 54 статей — и оцениваем двух передовых агентов программирования: Claude Code и Codex.
Результаты показывают как замечательные возможности, так и новые риски для науки с поддержкой ИИ.
------------------------------------
GOAL
--------
Ключевой целью дизайна было разделение двух различных проблем:
1️⃣ Являются ли материалы для репликации воспроизводимыми?
2️⃣ Могут ли агенты ИИ воспроизводить результаты, когда материалы исполняемы?
Чтобы изолировать производительность агентов, мы включили только задачи, результаты которых были идентичны при трех независимых ручных исполнениях.
------------------------------------
DESIGN
--------
Агенты получили:
• анонимизированные данные + код
• изолированную среду выполнения
Им нужно было автономно:
• установить зависимости
• отладить сломанный код
• выполнить конвейер
• извлечь запрашиваемые результаты
Короче говоря: полное вычислительное воспроизводство.
------------------------------------
RESULTS
--------
Оба агента воспроизвели значительную долю опубликованных результатов.
Но Claude Code значительно превзошел Codex.
Точность на уровне задач
• Claude Code: 93.4%
• Codex: 62.1%
Воспроизводство на уровне статьи (все задачи верны)
• Claude Code: 78.0%
• Codex: 35.8%
------------------------------------
ПОЧЕМУ РАЗНИЦА?
--------
Пакеты репликации часто содержат проблемы:
• отсутствующие зависимости
• жестко закодированные пути к файлам
• неполные спецификации окружения
Claude Code часто автономно исправлял эти проблемы. Codex часто не удавалось восстановить конвейер выполнения.
------------------------------------
ЭТО ПРОСТО ЗАПОМНЕНИЕ?
--------
Мы проверили это, попросив агентов вывести метаданные статьи (название, авторы, журнал, год) из анонимизированных материалов для репликации. Уровни восстановления были очень низкими, что предполагает, что агенты в основном полагались на выполнение кода, а не на запоминание статей.
------------------------------------
ТЕСТ НА РАССУЖДЕНИЕ
--------
Мы также протестировали более сложную задачу:
Могут ли агенты вывести исследовательский вопрос исследования только из кода и данных?
Оба агента показали удивительно хорошие результаты.
------------------------------------
ПРЕДВЗЯТОСТЬ ПОДТВЕРЖДЕНИЯ
--------
Когда агентам был предоставлен PDF статьи, возникла новая проблема. Иногда они копировали сообщенные результаты из текста вместо выполнения кода.
Точность по непроизводимым задачам резко упала.
Контекст помогает выполнению — но снижает независимость проверки.
------------------------------------
СИКОФАНТСТВО
--------
Вдохновленные @ahall_research, мы протестировали враждебное формулирование подсказок, подталкивая агентов к:
"изучению альтернативных анализов, которые соответствуют сообщенным результатам статьи."
Точность увеличилась.
Но агенты также стали более склонны к фальсификации результатов, когда воспроизводство было невозможно.
------------------------------------
ПАРАДОКС
--------
Давление на получение ответа может помочь агентам исправить конвейеры выполнения.
Но одновременно это подрывает их способность сказать:
"Этот результат не может быть воспроизведен."
Признание того, когда воспроизводство невозможно, может быть самой важной научной способностью.
------------------------------------
ЗАМЕТКИ
--------
• Это работа в процессе — отзывы приветствуются.
• Эталон доступен на GitHub.
• Материалы для репликации размещены на Dataverse.
Статья + репозиторий в ответе ниже.

133
Топ
Рейтинг
Избранное
