DApp Store | Centrum Web3 pro události a hry

Populární témata

Andy Hall

Prof. @ Stanford GSB, Hoover. Pracuji na technologiích, politice a správě. Poradce v a16z crypto a Meta.

Zajímavé je, že Claudeův kód v tomto cvičení funguje lépe než kodex. Zjišťujeme, že jsou si zhruba podobné, ale naše úkoly jsou dost odlišné! @xuyiqing jste při své práci na replikaci dělal nějaká srovnání mezi oběma oblastmi?

Mohou AI kódující agenti reprodukovat publikované poznatky ze společenských věd? V nové práci s @_mohsen_m, Fabriziem Gilardim a @j_a_tucker představujeme SocSci-Repro-Bench — benchmark 221 reprodukovatelných úkolů z 54 článků — a hodnotíme dva frontier coding agenty: Claude Code a Codex. Výsledky odhalují jak pozoruhodné schopnosti, tak nová rizika pro vědu podporovanou umělou inteligencí. ------------------------------------ CÍL -------- Klíčovým cílem návrhu bylo oddělit dva různé problémy: 1️⃣ Jsou replikační materiály samy o sobě reprodukovatelné? 2️⃣ Mohou AI agenti reprodukovat výsledky, když jsou materiály spustitelné? Pro izolaci výkonu agenta jsme zahrnuli pouze úlohy, jejichž výstupy byly totožné ve třech nezávislých ručních provedeních. ------------------------------------ KONSTRUKCE -------- Obdrželi agenti: • anonymizovaná data + kód • prostředí pro popravu v sandboxu Museli autonomně: • instalační závislosti • ladění nefunkčního kódu • spustit pipeline • extrahovat požadované výsledky Stručně řečeno: end-to-end výpočetní reprodukce. ------------------------------------ VÝSLEDKY -------- Oba agenti reprodukovali velkou část publikovaných zjištění. Ale Claude Code výrazně překonal Codex. Přesnost na úrovni úkolu • Claudeův kód: 93,4 % • Kodex: 62,1 % Reprodukce na úrovni papíru (všechny úkoly správné) • Claudeův kód: 78,0 % • Kodex: 35,8 % ------------------------------------ PROČ TA MEZERA? -------- Replikační balíčky často obsahují problémy: • Chybějící závislosti • pevně zakódované cesty k souboru • neúplné specifikace prostředí Claude Code tyto problémy často opravoval autonomně. Codex často nedokázal obnovit vykonávací pipeline. ------------------------------------ JE TO JEN MEMOROVÁNÍ? -------- Testovali jsme to tak, že jsme agentům doporučili odvodit metadata článku (název, autoři, časopis, rok) z anonymizovaných replikačních materiálů. Míra obnovy byla velmi nízká, což naznačuje, že agenti se primárně spoléhali na provádění kódu, nikoli na memorování dokumentů. ------------------------------------ TEST UVAŽOVÁNÍ -------- Testovali jsme také těžší úkol: Mohou agenti odvodit výzkumnou otázku studie pouze z kódu a dat? Oba agenti si vedli překvapivě dobře. ------------------------------------ POTVRZOVACÍ ZKRESLENÍ -------- Když agentům byl předán papírový PDF, objevil se nový problém. Někdy kopírovali hlášené výsledky z textu místo toho, aby kód spustili. Přesnost u nereprodukovatelných úkolů prudce klesla. Kontext pomáhá při provádění — ale snižuje nezávislost na ověření. ------------------------------------ PODLÉZAVÁNÍ -------- Inspirováni @ahall_research jsme testovali adversariální formulování promptů, nabádali agenty k: "Prozkoumejte alternativní analýzy, které odpovídají výsledkům publikovaných článků." Přesnost zvýšena. Ale agenti také začali častěji vytvářet výsledky, když reprodukce nebyla možná. ------------------------------------ THE PARADOX -------- Tlak na vytvoření odpovědi může agentům pomoci opravit postupy realizace. Zároveň však oslabuje jejich schopnost říct: "Tento výsledek nelze reprodukovat." Rozpoznat, kdy je reprodukce nemožná, může být nejdůležitější vědeckou schopností. ------------------------------------ POZNÁMKY -------- • Toto je rozpracovaná práce — zpětná vazba je vítána. • Benchmark je dostupný na GitHubu. • Replikační materiály hostované na Dataverse. Článek + repozitář v odpovědi níže.

Top

Hodnocení

Oblíbené