Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Andy Hall

Професор @ Стенфорд GSB, Гувер. Я працюю над технологіями, політикою та управлінням. Радник у a16z crypto та Meta.

Цікаво, що код Claude працює краще, ніж codex у цій вправі. Ми помітили, що вони приблизно схожі, але наші завдання зовсім різні! @xuyiqing ви робили якісь порівняння між цими двома у своїй роботі з реплікацією?

Чи можуть агенти, що кодують ШІ, відтворювати опубліковані результати соціальних наук? У новій роботі з @_mohsen_m, Фабріціо Джиларді та @j_a_tucker ми представляємо SocSci-Repro-Bench — бенчмарк із 221 завдання відтворюваності з 54 статей — і оцінюємо два передових кодувальних агентів: Claude Code і Codex. Результати виявляють як вражаючі можливості, так і нові ризики для науки з підтримкою ШІ. ------------------------------------ МЕТА -------- Ключовою метою дизайну було розділення двох різних задач: 1️⃣ Чи є реплікаційні матеріали відтворюваними? 2️⃣ Чи можуть агенти ШІ відтворювати результати, коли матеріали є виконуваними? Щоб ізолювати продуктивність агентів, ми включили лише завдання, результати яких були ідентичними при трьох незалежних ручних виконаннях. ------------------------------------ КОНСТРУКЦІЯ -------- Отримані агенти: • анонімізовані дані + код • середовище виконання в пісочниці Вони мусили автономно: • встановлення залежностей • налагодження зламаного коду • виконати конвеєр • витягти запитувані результати Коротко: наскрізне комп'ютерне відтворення. ------------------------------------ РЕЗУЛЬТАТИ -------- Обидва агенти відтворили значну частину опублікованих результатів. Але Claude Code значно перевершив Codex. Точність на рівні завдань • Код Клода: 93,4% • Кодекс: 62,1% Відтворення на паперовому рівні (усі завдання правильні) • Код Клода: 78,0% • Кодекс: 35,8% ------------------------------------ ЧОМУ РОЗРИВ? -------- Реплікаційні пакети часто містять проблеми: • відсутні залежності • жорстко закодовані шляхи до файлів • неповні специфікації середовища Claude Code часто самостійно усувала ці проблеми. Codex часто не міг відновити конвеєр виконання. ------------------------------------ ЦЕ ПРОСТО ЗАПАМ'ЯТОВУВАННЯ? -------- Ми перевірили це, попросивши агентів вивести метаддані статей (назва, автори, журнал, рік) з анонімізованих матеріалів реплікації. Показники відновлення були дуже низькими, що свідчить про те, що агенти переважно покладалися на виконання коду, а не на запам'ятовування паперів. ------------------------------------ ТЕСТ НА ЛОГІКУ -------- Ми також протестували складніше завдання: Чи можуть агенти зробити висновок про дослідницьке питання дослідження лише на основі коду та даних? Обидва агенти показали себе дивовижно добре. ------------------------------------ ПІДТВЕРДЖУВАЛЬНА ЗМІЩЕНІСТЬ -------- Коли агентам надали паперовий PDF, виникла нова проблема. Іноді вони копіювали повідомлені результати з тексту замість виконання коду. Точність у невідтворюваних завданнях різко впала. Контекст допомагає виконанню — але знижує незалежність від перевірки. ------------------------------------ ПІДЛАБУЗНИЦТВО -------- Натхненні @ahall_research, ми протестували конфронтаційне підказкове обрамлення, підштовхуючи агентів до: "Досліджуйте альтернативні аналізи, які відповідають результатам статті." Точність зросла. Але агенти також ставали більш схильними вигадувати результати, коли розмноження було неможливим. ------------------------------------ ПАРАДОКС -------- Тиск на отримання відповіді може допомогти агентам відновити конвеєри виконання. Але водночас це підриває їхню здатність казати: «Цей результат не можна відтворити.» Розпізнавання, коли розмноження неможливе, може бути найважливішою науковою здатністю. ------------------------------------ ПРИМІТКИ -------- • Це робота в процесі — відгуки вітаються. • Бенчмарк доступний на GitHub. • Матеріали для реплікації, розміщені на Dataverse. Стаття + репозиторій у відповіді нижче.

Найкращі

Рейтинг

Вибране