Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Meysam Alizadeh
Науковий співробітник @oiioxford
Попередній постдок @IPZ_ch, @Kennedy_School, @PrincetonSPIA, @IULuddy
Обчислювальна соціальна наука, ШІ для науки
Чи можуть агенти, що кодують ШІ, відтворювати опубліковані результати соціальних наук?
У новій роботі з @_mohsen_m, Фабріціо Джиларді та @j_a_tucker ми представляємо SocSci-Repro-Bench — бенчмарк із 221 завдання відтворюваності з 54 статей — і оцінюємо два передових кодувальних агентів: Claude Code і Codex.
Результати виявляють як вражаючі можливості, так і нові ризики для науки з підтримкою ШІ.
------------------------------------
МЕТА
--------
Ключовою метою дизайну було розділення двох різних задач:
1️⃣ Чи є реплікаційні матеріали відтворюваними?
2️⃣ Чи можуть агенти ШІ відтворювати результати, коли матеріали є виконуваними?
Щоб ізолювати продуктивність агентів, ми включили лише завдання, результати яких були ідентичними при трьох незалежних ручних виконаннях.
------------------------------------
КОНСТРУКЦІЯ
--------
Отримані агенти:
• анонімізовані дані + код
• середовище виконання в пісочниці
Вони мусили автономно:
• встановлення залежностей
• налагодження зламаного коду
• виконати конвеєр
• витягти запитувані результати
Коротко: наскрізне комп'ютерне відтворення.
------------------------------------
РЕЗУЛЬТАТИ
--------
Обидва агенти відтворили значну частину опублікованих результатів.
Але Claude Code значно перевершив Codex.
Точність на рівні завдань
• Код Клода: 93,4%
• Кодекс: 62,1%
Відтворення на паперовому рівні (усі завдання правильні)
• Код Клода: 78,0%
• Кодекс: 35,8%
------------------------------------
ЧОМУ РОЗРИВ?
--------
Реплікаційні пакети часто містять проблеми:
• відсутні залежності
• жорстко закодовані шляхи до файлів
• неповні специфікації середовища
Claude Code часто самостійно усувала ці проблеми. Codex часто не міг відновити конвеєр виконання.
------------------------------------
ЦЕ ПРОСТО ЗАПАМ'ЯТОВУВАННЯ?
--------
Ми перевірили це, попросивши агентів вивести метаддані статей (назва, автори, журнал, рік) з анонімізованих матеріалів реплікації. Показники відновлення були дуже низькими, що свідчить про те, що агенти переважно покладалися на виконання коду, а не на запам'ятовування паперів.
------------------------------------
ТЕСТ НА ЛОГІКУ
--------
Ми також протестували складніше завдання:
Чи можуть агенти зробити висновок про дослідницьке питання дослідження лише на основі коду та даних?
Обидва агенти показали себе дивовижно добре.
------------------------------------
ПІДТВЕРДЖУВАЛЬНА ЗМІЩЕНІСТЬ
--------
Коли агентам надали паперовий PDF, виникла нова проблема. Іноді вони копіювали повідомлені результати з тексту замість виконання коду.
Точність у невідтворюваних завданнях різко впала.
Контекст допомагає виконанню — але знижує незалежність від перевірки.
------------------------------------
ПІДЛАБУЗНИЦТВО
--------
Натхненні @ahall_research, ми протестували конфронтаційне підказкове обрамлення, підштовхуючи агентів до:
"Досліджуйте альтернативні аналізи, які відповідають результатам статті."
Точність зросла.
Але агенти також ставали більш схильними вигадувати результати, коли розмноження було неможливим.
------------------------------------
ПАРАДОКС
--------
Тиск на отримання відповіді може допомогти агентам відновити конвеєри виконання.
Але водночас це підриває їхню здатність казати:
«Цей результат не можна відтворити.»
Розпізнавання, коли розмноження неможливе, може бути найважливішою науковою здатністю.
------------------------------------
ПРИМІТКИ
--------
• Це робота в процесі — відгуки вітаються.
• Бенчмарк доступний на GitHub.
• Матеріали для реплікації, розміщені на Dataverse.
Стаття + репозиторій у відповіді нижче.

178
Найкращі
Рейтинг
Вибране
