Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andy Hall
Prof @ Stanford GSB, Hoover. Jag arbetar med teknik, politik och styrning. Rådgivare på a16z crypto och Meta.
Intressant att Claudes kod presterar bättre än codex i denna övning. Vi har märkt att de är ungefär lika men våra uppgifter är ganska olika!
@xuyiqing gjorde du några jämförelser mellan de två i ditt replikationsarbete?

Meysam Alizadeh19 timmar sedan
Kan AI-kodningsagenter reproducera publicerade samhällsvetenskapliga fynd?
I nytt arbete med @_mohsen_m, Fabrizio Gilardi och @j_a_tucker introducerar vi SocSci-Repro-Bench — en referenspunkt med 221 reproducerbarhetsuppgifter från 54 artiklar — och utvärderar två frontier coding agents: Claude Code och Codex.
Resultaten visar både på anmärkningsvärda förmågor och nya risker för AI-assisterad vetenskap.
------------------------------------
MÅL
--------
Ett viktigt designmål var att separera två olika problem:
1️⃣ Är replikationsmaterial själva reproducerbara?
2️⃣ Kan AI-agenter reproducera resultat när material är exekverbart?
För att isolera agentens prestanda inkluderade vi endast uppgifter vars utdata var identiska över tre oberoende manuella körningar.
------------------------------------
DESIGN
--------
Agenter mottog:
• anonymiserad data + kod
• en sandboxad exekveringsmiljö
De var tvungna att autonomt:
• installationsberoenden
• felsöka trasig kod
• köra pipelinen
• extrahera de begärda resultaten
Kort sagt: beräkningsreproduktion från början till slut.
------------------------------------
RESULTAT
--------
Båda agenterna återgav en stor andel av de publicerade resultaten.
Men Claude Code presterade betydligt bättre än Codex.
Uppgiftsnivåns noggrannhet
• Claude-kod: 93,4 %
• Codex: 62,1 %
Pappersnivåreproduktion (alla uppgifter korrekta)
• Claude Code: 78,0 %
• Codex: 35,8 %
------------------------------------
VARFÖR GAPET?
--------
Replikationspaket innehåller ofta problem:
• saknade beroenden
• hårdkodade filvägar
• ofullständiga miljöspecifikationer
Claude Code reparerade ofta dessa problem självständigt. Codex misslyckades ofta med att återställa exekveringspipelinen.
------------------------------------
ÄR DET BARA MEMORERING?
--------
Vi testade detta genom att be agenter att dra slutsatser om artikelmetadata (titel, författare, tidskrift, år) från anonymiserade replikationsmaterial. Återhämtningsgraden var mycket låg, vilket tyder på att agenterna främst förlitade sig på kodexekvering, inte memorering av artiklar.
------------------------------------
RESONEMANGSTEST
--------
Vi testade också en svårare uppgift:
Kan agenter dra slutsatser om forskningsfrågan i en studie enbart utifrån kod och data?
Båda agenterna presterade förvånansvärt bra.
------------------------------------
BEKRÄFTELSEBIAS
--------
När agenterna fick pappers-PDF:en uppstod ett nytt problem. Ibland kopierade de rapporterade resultat från texten istället för att köra koden.
Noggrannheten på icke-reproducerbara uppgifter sjönk kraftigt.
Kontexten underlättar utförandet – men minskar oberoende av verifiering.
------------------------------------
FJÄSKARE
--------
Inspirerade av @ahall_research testade vi adversarial prompt framing och fick agenter att:
"Utforska alternativa analyser som stämmer överens med artikelns rapporterade resultat."
Noggrannheten ökade.
Men agenter blev också mer benägna att fabricera resultat när reproduktion var omöjlig.
------------------------------------
PARADOXEN
--------
Trycket att ta fram ett svar kan hjälpa agenter att reparera utförandepipelines.
Men samtidigt urholkar det deras förmåga att säga:
"Detta resultat kan inte återskapas."
Att känna igen när reproduktion är omöjlig kan vara den viktigaste vetenskapliga förmågan.
------------------------------------
NOTER
--------
• Detta är ett pågående arbete — feedback är välkommet.
• Benchmark tillgängligt på GitHub.
• Replikationsmaterial som finns på Dataverse.
Paper + repository i svaret nedan.

92
Free Systems expanderar.
Jag har anställt en grupp på 10+ forskare och vi bygger ett helt nytt, AI-drivet laboratorium som kommer att leverera mer aktuell forskning, idéer och prototyper avsedda att bevara mänsklig frihet i en algoritmisk värld.
Under de kommande veckorna kommer vi att släppa forskning om hur AI rekommenderar att folk röstar i Japan, om våra framgångsrika experiment med att satsa i Texas primärval, om att anpassa Bridgewaters banbrytande AI-prognosmetoder för att förutsäga geopolitik, och mer.
Vi kommer också att organisera en Free Systems hackathon som jag är supertaggad på.
När vi bygger vill vi inte tappa bort det vi redan har gjort---målet är att varje forskningsbit ska bidra till en aggregerandeprocess, inte tappas online och sedan glömmas bort för alltid.
För detta ändamål startar vi en fredagsöversikt kallad "System Check" där vi ger uppdateringar om vår befintliga forskning, hur den relaterar till nya utvecklingar och vad det innebär för att bygga Free Systems.
Den första är ute idag. Låt mig veta vad du tycker!

117
Nästa termin undervisar jag i en radikal ny grundutbildningskurs, FREE SYSTEMS, som syftar till att omdefiniera demokrati och hur vi studerar och undervisar den för AI-eran.
Eleverna kommer att lära sig om AI:s och demokratins framtid, men också *bygga den*.
Varje student kommer att få ett Claude Code-konto och en finansierad OpenRouter API-nyckel samt en huvuddirektiv: bygg de verktyg som kan hjälpa oss att bevara mänsklig frihet i en alltmer algoritmisk värld.
Vi kommer att bygga personliga AI-agenter som bearbetar politiska nyheter, handla med politiska förutsägelsemarknader, rösta för vår räkning och samarbeta med andra studenters agenter i en agentlagstiftande församling... bland mycket annat.
Och det kommer att finnas t-shirts.
Om du är en grund- eller forskarstudent på Stanford hoppas jag att du kommer och tar kursen. Kom och bygg demokratins framtid med oss!

534
Topp
Rankning
Favoriter
