Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Meysam Alizadeh
Výzkumný @oiioxford
Předchozí postdoktorandské @IPZ_ch, @Kennedy_School, @PrincetonSPIA, @IULuddy
Výpočetní společenské vědy, AI pro vědu
Mohou AI kódující agenti reprodukovat publikované poznatky ze společenských věd?
V nové práci s @_mohsen_m, Fabriziem Gilardim a @j_a_tucker představujeme SocSci-Repro-Bench — benchmark 221 reprodukovatelných úkolů z 54 článků — a hodnotíme dva frontier coding agenty: Claude Code a Codex.
Výsledky odhalují jak pozoruhodné schopnosti, tak nová rizika pro vědu podporovanou umělou inteligencí.
------------------------------------
CÍL
--------
Klíčovým cílem návrhu bylo oddělit dva různé problémy:
1️⃣ Jsou replikační materiály samy o sobě reprodukovatelné?
2️⃣ Mohou AI agenti reprodukovat výsledky, když jsou materiály spustitelné?
Pro izolaci výkonu agenta jsme zahrnuli pouze úlohy, jejichž výstupy byly totožné ve třech nezávislých ručních provedeních.
------------------------------------
KONSTRUKCE
--------
Obdrželi agenti:
• anonymizovaná data + kód
• prostředí pro popravu v sandboxu
Museli autonomně:
• instalační závislosti
• ladění nefunkčního kódu
• spustit pipeline
• extrahovat požadované výsledky
Stručně řečeno: end-to-end výpočetní reprodukce.
------------------------------------
VÝSLEDKY
--------
Oba agenti reprodukovali velkou část publikovaných zjištění.
Ale Claude Code výrazně překonal Codex.
Přesnost na úrovni úkolu
• Claudeův kód: 93,4 %
• Kodex: 62,1 %
Reprodukce na úrovni papíru (všechny úkoly správné)
• Claudeův kód: 78,0 %
• Kodex: 35,8 %
------------------------------------
PROČ TA MEZERA?
--------
Replikační balíčky často obsahují problémy:
• Chybějící závislosti
• pevně zakódované cesty k souboru
• neúplné specifikace prostředí
Claude Code tyto problémy často opravoval autonomně. Codex často nedokázal obnovit vykonávací pipeline.
------------------------------------
JE TO JEN MEMOROVÁNÍ?
--------
Testovali jsme to tak, že jsme agentům doporučili odvodit metadata článku (název, autoři, časopis, rok) z anonymizovaných replikačních materiálů. Míra obnovy byla velmi nízká, což naznačuje, že agenti se primárně spoléhali na provádění kódu, nikoli na memorování dokumentů.
------------------------------------
TEST UVAŽOVÁNÍ
--------
Testovali jsme také těžší úkol:
Mohou agenti odvodit výzkumnou otázku studie pouze z kódu a dat?
Oba agenti si vedli překvapivě dobře.
------------------------------------
POTVRZOVACÍ ZKRESLENÍ
--------
Když agentům byl předán papírový PDF, objevil se nový problém. Někdy kopírovali hlášené výsledky z textu místo toho, aby kód spustili.
Přesnost u nereprodukovatelných úkolů prudce klesla.
Kontext pomáhá při provádění — ale snižuje nezávislost na ověření.
------------------------------------
PODLÉZAVÁNÍ
--------
Inspirováni @ahall_research jsme testovali adversariální formulování promptů, nabádali agenty k:
"Prozkoumejte alternativní analýzy, které odpovídají výsledkům publikovaných článků."
Přesnost zvýšena.
Ale agenti také začali častěji vytvářet výsledky, když reprodukce nebyla možná.
------------------------------------
THE PARADOX
--------
Tlak na vytvoření odpovědi může agentům pomoci opravit postupy realizace.
Zároveň však oslabuje jejich schopnost říct:
"Tento výsledek nelze reprodukovat."
Rozpoznat, kdy je reprodukce nemožná, může být nejdůležitější vědeckou schopností.
------------------------------------
POZNÁMKY
--------
• Toto je rozpracovaná práce — zpětná vazba je vítána.
• Benchmark je dostupný na GitHubu.
• Replikační materiály hostované na Dataverse.
Článek + repozitář v odpovědi níže.

131
Top
Hodnocení
Oblíbené
