Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andy Hall
Prof. @ Stanford GSB, Hoover. Pracuji na technologiích, politice a správě. Poradce v a16z crypto a Meta.
Zajímavé je, že Claudeův kód v tomto cvičení funguje lépe než kodex. Zjišťujeme, že jsou si zhruba podobné, ale naše úkoly jsou dost odlišné!
@xuyiqing jste při své práci na replikaci dělal nějaká srovnání mezi oběma oblastmi?

Meysam AlizadehPřed 9 h
Mohou AI kódující agenti reprodukovat publikované poznatky ze společenských věd?
V nové práci s @_mohsen_m, Fabriziem Gilardim a @j_a_tucker představujeme SocSci-Repro-Bench — benchmark 221 reprodukovatelných úkolů z 54 článků — a hodnotíme dva frontier coding agenty: Claude Code a Codex.
Výsledky odhalují jak pozoruhodné schopnosti, tak nová rizika pro vědu podporovanou umělou inteligencí.
------------------------------------
CÍL
--------
Klíčovým cílem návrhu bylo oddělit dva různé problémy:
1️⃣ Jsou replikační materiály samy o sobě reprodukovatelné?
2️⃣ Mohou AI agenti reprodukovat výsledky, když jsou materiály spustitelné?
Pro izolaci výkonu agenta jsme zahrnuli pouze úlohy, jejichž výstupy byly totožné ve třech nezávislých ručních provedeních.
------------------------------------
KONSTRUKCE
--------
Obdrželi agenti:
• anonymizovaná data + kód
• prostředí pro popravu v sandboxu
Museli autonomně:
• instalační závislosti
• ladění nefunkčního kódu
• spustit pipeline
• extrahovat požadované výsledky
Stručně řečeno: end-to-end výpočetní reprodukce.
------------------------------------
VÝSLEDKY
--------
Oba agenti reprodukovali velkou část publikovaných zjištění.
Ale Claude Code výrazně překonal Codex.
Přesnost na úrovni úkolu
• Claudeův kód: 93,4 %
• Kodex: 62,1 %
Reprodukce na úrovni papíru (všechny úkoly správné)
• Claudeův kód: 78,0 %
• Kodex: 35,8 %
------------------------------------
PROČ TA MEZERA?
--------
Replikační balíčky často obsahují problémy:
• Chybějící závislosti
• pevně zakódované cesty k souboru
• neúplné specifikace prostředí
Claude Code tyto problémy často opravoval autonomně. Codex často nedokázal obnovit vykonávací pipeline.
------------------------------------
JE TO JEN MEMOROVÁNÍ?
--------
Testovali jsme to tak, že jsme agentům doporučili odvodit metadata článku (název, autoři, časopis, rok) z anonymizovaných replikačních materiálů. Míra obnovy byla velmi nízká, což naznačuje, že agenti se primárně spoléhali na provádění kódu, nikoli na memorování dokumentů.
------------------------------------
TEST UVAŽOVÁNÍ
--------
Testovali jsme také těžší úkol:
Mohou agenti odvodit výzkumnou otázku studie pouze z kódu a dat?
Oba agenti si vedli překvapivě dobře.
------------------------------------
POTVRZOVACÍ ZKRESLENÍ
--------
Když agentům byl předán papírový PDF, objevil se nový problém. Někdy kopírovali hlášené výsledky z textu místo toho, aby kód spustili.
Přesnost u nereprodukovatelných úkolů prudce klesla.
Kontext pomáhá při provádění — ale snižuje nezávislost na ověření.
------------------------------------
PODLÉZAVÁNÍ
--------
Inspirováni @ahall_research jsme testovali adversariální formulování promptů, nabádali agenty k:
"Prozkoumejte alternativní analýzy, které odpovídají výsledkům publikovaných článků."
Přesnost zvýšena.
Ale agenti také začali častěji vytvářet výsledky, když reprodukce nebyla možná.
------------------------------------
THE PARADOX
--------
Tlak na vytvoření odpovědi může agentům pomoci opravit postupy realizace.
Zároveň však oslabuje jejich schopnost říct:
"Tento výsledek nelze reprodukovat."
Rozpoznat, kdy je reprodukce nemožná, může být nejdůležitější vědeckou schopností.
------------------------------------
POZNÁMKY
--------
• Toto je rozpracovaná práce — zpětná vazba je vítána.
• Benchmark je dostupný na GitHubu.
• Replikační materiály hostované na Dataverse.
Článek + repozitář v odpovědi níže.

57
Free Systems se rozšiřuje.
Najal jsem skupinu 10+ výzkumných pracovníků a budujeme zcela novou laboratoř poháněnou umělou inteligencí, která přinese včasnější výzkum, nápady a prototypy určené k zachování lidské svobody v algoritmickém světě.
V následujících týdnech zveřejníme výzkum o tom, jak AI doporučuje lidem volit v Japonsku, o našich úspěšných experimentech s sázením v texaských primárkách, o přizpůsobení špičkových metod předpovědí AI od Bridgewateru k předpovídání geopolitiky a dalších.
Také budeme organizovat hackathon Free Systems, na který se moc těším.
Při stavbě nechceme ztratit ze zřetele to, co jsme už udělali --- cílem je, aby každý výzkum přispěl k procesu agregace, ne aby byl vyhozen online a navždy zapomenut.
Za tímto účelem začínáme páteční přehled nazvaný "System Check", kde přinášíme aktualizace o našem existujícím výzkumu, jak souvisí s novými vývoji a co znamená pro budování Free Systems.
První vychází dnes. Dejte mi vědět, co si o tom myslíte!

78
Příští čtvrtletí budu učit radikální nový bakalářský kurz FREE SYSTEMS, který má přehodnotit demokracii a způsob, jakým ji studujeme a učíme, pro éru AI.
Studenti se budou učit o budoucnosti AI a demokracie, ale také ji *budovat*.
Každý student získá účet Claude Code, financovaný klíč OpenRouter API a jednu hlavní směrnici: vytvářet nástroje, které nám pomohou zachovat lidskou svobodu v stále více algoritmickém světě.
Postavíme osobní AI agenty, kteří zpracovávají politické zprávy, obchodují na trzích s politickými předpovědmi, hlasují za nás a budou jednat s agenty ostatních studentů v agentickém zákonodárném sboru... a mnoho dalších věcí.
A budou tam trička.
Pokud jste student bakalářského nebo magisterského studia na Stanfordu, doufám, že přijdete a navštěvujete si ten předmět. Přijďte s námi budovat budoucnost demokracie!

486
Top
Hodnocení
Oblíbené
