Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andy Hall
Професор @ Стенфорд GSB, Гувер. Я працюю над технологіями, політикою та управлінням. Радник у a16z crypto та Meta.
Цікаво, що код Claude працює краще, ніж codex у цій вправі. Ми помітили, що вони приблизно схожі, але наші завдання зовсім різні!
@xuyiqing ви робили якісь порівняння між цими двома у своїй роботі з реплікацією?

Meysam Alizadeh22 години тому
Чи можуть агенти, що кодують ШІ, відтворювати опубліковані результати соціальних наук?
У новій роботі з @_mohsen_m, Фабріціо Джиларді та @j_a_tucker ми представляємо SocSci-Repro-Bench — бенчмарк із 221 завдання відтворюваності з 54 статей — і оцінюємо два передових кодувальних агентів: Claude Code і Codex.
Результати виявляють як вражаючі можливості, так і нові ризики для науки з підтримкою ШІ.
------------------------------------
МЕТА
--------
Ключовою метою дизайну було розділення двох різних задач:
1️⃣ Чи є реплікаційні матеріали відтворюваними?
2️⃣ Чи можуть агенти ШІ відтворювати результати, коли матеріали є виконуваними?
Щоб ізолювати продуктивність агентів, ми включили лише завдання, результати яких були ідентичними при трьох незалежних ручних виконаннях.
------------------------------------
КОНСТРУКЦІЯ
--------
Отримані агенти:
• анонімізовані дані + код
• середовище виконання в пісочниці
Вони мусили автономно:
• встановлення залежностей
• налагодження зламаного коду
• виконати конвеєр
• витягти запитувані результати
Коротко: наскрізне комп'ютерне відтворення.
------------------------------------
РЕЗУЛЬТАТИ
--------
Обидва агенти відтворили значну частину опублікованих результатів.
Але Claude Code значно перевершив Codex.
Точність на рівні завдань
• Код Клода: 93,4%
• Кодекс: 62,1%
Відтворення на паперовому рівні (усі завдання правильні)
• Код Клода: 78,0%
• Кодекс: 35,8%
------------------------------------
ЧОМУ РОЗРИВ?
--------
Реплікаційні пакети часто містять проблеми:
• відсутні залежності
• жорстко закодовані шляхи до файлів
• неповні специфікації середовища
Claude Code часто самостійно усувала ці проблеми. Codex часто не міг відновити конвеєр виконання.
------------------------------------
ЦЕ ПРОСТО ЗАПАМ'ЯТОВУВАННЯ?
--------
Ми перевірили це, попросивши агентів вивести метаддані статей (назва, автори, журнал, рік) з анонімізованих матеріалів реплікації. Показники відновлення були дуже низькими, що свідчить про те, що агенти переважно покладалися на виконання коду, а не на запам'ятовування паперів.
------------------------------------
ТЕСТ НА ЛОГІКУ
--------
Ми також протестували складніше завдання:
Чи можуть агенти зробити висновок про дослідницьке питання дослідження лише на основі коду та даних?
Обидва агенти показали себе дивовижно добре.
------------------------------------
ПІДТВЕРДЖУВАЛЬНА ЗМІЩЕНІСТЬ
--------
Коли агентам надали паперовий PDF, виникла нова проблема. Іноді вони копіювали повідомлені результати з тексту замість виконання коду.
Точність у невідтворюваних завданнях різко впала.
Контекст допомагає виконанню — але знижує незалежність від перевірки.
------------------------------------
ПІДЛАБУЗНИЦТВО
--------
Натхненні @ahall_research, ми протестували конфронтаційне підказкове обрамлення, підштовхуючи агентів до:
"Досліджуйте альтернативні аналізи, які відповідають результатам статті."
Точність зросла.
Але агенти також ставали більш схильними вигадувати результати, коли розмноження було неможливим.
------------------------------------
ПАРАДОКС
--------
Тиск на отримання відповіді може допомогти агентам відновити конвеєри виконання.
Але водночас це підриває їхню здатність казати:
«Цей результат не можна відтворити.»
Розпізнавання, коли розмноження неможливе, може бути найважливішою науковою здатністю.
------------------------------------
ПРИМІТКИ
--------
• Це робота в процесі — відгуки вітаються.
• Бенчмарк доступний на GitHub.
• Матеріали для реплікації, розміщені на Dataverse.
Стаття + репозиторій у відповіді нижче.

94
Free Systems розширюється.
Я найняв групу з 10+ наукових співробітників, і ми будуємо абсолютно нову лабораторію на базі ШІ, яка забезпечуватиме більш своєчасні дослідження, ідеї та прототипи, спрямовані на збереження людської свободи в алгоритмічному світі.
У найближчі тижні ми опублікуємо дослідження про те, як ШІ рекомендує голосувати в Японії, про наші успішні експерименти з ставок на праймеріз у Техасі, про адаптацію передових методів прогнозування ШІ від Bridgewater для прогнозування геополітики та багато іншого.
Ми також організуємо хакатон Free Systems, який мене дуже чекає.
Під час будівництва ми не хочемо втрачати з поля зору те, що вже зробили--- Мета — щоб кожен дослідження вносив свій вклад у процес агрегування, а не був виключений в інтернеті і назавжди забутий.
З цією метою ми запускаємо п'ятничний огляд під назвою «Перевірка системи», де надаємо оновлення щодо наших існуючих досліджень, їхнього зв'язку з новими розробками та значення для створення Free Systems.
Перший вийшов сьогодні. Дайте знати, що ви думаєте!

122
Наступного кварталу я викладатиму радикально новий курс для бакалаврату ВІЛЬНІ СИСТЕМИ, який має на меті переосмислити демократію та те, як ми її вивчаємо і викладаємо для епохи ШІ.
Учні дізнаються про майбутнє ШІ та демократії, а також *будуватимуть його*.
Кожен учень отримає обліковий запис Claude Code, фінансований ключ OpenRouter API та одну головну директиву: створювати інструменти, які допоможуть зберегти людську свободу у світі, що стає дедалі алгоритмічнішим.
Ми створимо особистих агентів ШІ, які оброблятимуть політичні новини, торгують на ринках політичних прогнозів, голосуватимуть від нашого імені та радитимемося з агентами інших студентів у агентному законодавчому органі... серед багатьох інших речей.
І будуть футболки.
Якщо ви студент бакалаврату чи магістратури Стенфорда, сподіваюся, ви прийдете і пройдете цей курс. Приходьте будувати майбутнє демократії разом з нами!

545
Найкращі
Рейтинг
Вибране
