Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andy Hall
Prof @ Stanford GSB, Hoover. Lucrez în domenii tehnologice, politică și guvernanță. Consilier la a16z crypto și Meta.
Interesant că codul Claude performează mai bine decât codex în acest exercițiu. Am constatat că sunt aproximativ similare, dar sarcinile noastre sunt destul de diferite!
@xuyiqing ai făcut vreo comparație între cele două în munca ta de replicare?

Meysam AlizadehCu 19 ore în urmă
Pot agenții de codare AI să reproducă descoperirile publicate în științele sociale?
În lucrări noi cu @_mohsen_m, Fabrizio Gilardi și @j_a_tucker, introducem SocSci-Repro-Bench — un reper pentru 221 de sarcini de reproducibilitate din 54 de articole — și evaluăm doi agenți de codare de frontieră: Claude Code și Codex.
Rezultatele dezvăluie atât capabilități remarcabile, cât și noi riscuri pentru știința asistată de IA.
------------------------------------
OBIECTIV
--------
Un obiectiv cheie al designului a fost separarea a două probleme diferite:
1️⃣ Materialele de replicare sunt ele însele reproductibile?
2️⃣ Pot agenții AI să reproducă rezultate atunci când materialele sunt executabile?
Pentru a izola performanța agentului, am inclus doar sarcini ale căror ieșiri au fost identice în trei execuții manuale independente.
------------------------------------
DESIGN
--------
Agenții primiți:
• date anonimizate + cod
• un mediu de execuție sandboxed
Acestea trebuiau să fie autonome:
• instalarea dependențelor
• depanarea codului defect
• executarea conductei
• extragerea rezultatelor solicitate
Pe scurt: reproducere computațională end-to-end.
------------------------------------
REZULTATE
--------
Ambii agenți au reprodus o mare parte din descoperirile publicate.
Dar Claude Code a depășit semnificativ pe Codex.
Acuratețea la nivel de sarcină
• Cod Claude: 93,4%
• Codex: 62,1%
Reproducere la nivel de hârtie (toate sarcinile corecte)
• Cod Claude: 78,0%
• Codex: 35,8%
------------------------------------
DE CE ACEASTĂ PAUZĂ?
--------
Pachetele de replicare conțin adesea probleme:
• dependențe lipsă
• căi de fișiere codificate fix
• specificații de mediu incomplete
Claude Code remedia frecvent aceste probleme autonom. Codex adesea nu reușea să recupereze pipeline-ul de execuție.
------------------------------------
ESTE DOAR MEMORARE?
--------
Am testat acest lucru cerând agenților să deducă metadatele lucrărilor (titlu, autori, jurnal, an) din materiale de replicare anonimizate. Ratele de recuperare erau foarte scăzute, sugerând că agenții se bazau în principal pe execuția codului, nu pe memorarea lucrărilor.
------------------------------------
TESTUL DE RAȚIONAMENT
--------
Am testat și o sarcină mai dificilă:
Pot agenții să deducă întrebarea de cercetare a unui studiu doar din cod și date?
Ambii agenți s-au descurcat surprinzător de bine.
------------------------------------
BIAS CONFIRMARE
--------
Când agenților li s-a dat PDF-ul pe hârtie, a apărut o nouă problemă. Uneori copiau rezultatele raportate din text în loc să execute codul.
Acuratețea la sarcinile nereproductibile a scăzut brusc.
Contextul ajută la execuție — dar reduce independența de verificare.
------------------------------------
LINGUȘITOR
--------
Inspirați de @ahall_research, am testat provocarea adversarială, împingând agenții la:
"Explorează analize alternative care să se alinieze cu rezultatele raportate de articol."
Acuratețea a crescut.
Dar agenții au devenit și mai predispuși să producă rezultate atunci când reproducerea era imposibilă.
------------------------------------
PARADOXUL
--------
Presiunea de a produce un răspuns poate ajuta agenții să repare canalele de execuție.
Dar, în același timp, le erodează capacitatea de a spune:
"Acest rezultat nu poate fi reprodus."
Recunoașterea momentului când reproducerea este imposibilă poate fi cea mai importantă capacitate științifică.
------------------------------------
NOTE
--------
• Aceasta este o lucrare în desfășurare — feedback-ul este binevenit.
• Benchmark disponibil pe GitHub.
• Materiale de replicare găzduite pe Dataverse.
Hârtie + depozit în răspunsul de mai jos.

90
Sistemele libere se extind.
Am angajat un grup de 10+ cercetători și construim un laborator nou-nouț, alimentat de inteligență artificială, care va livra cercetări, idei și prototipuri mai actuale, menite să păstreze libertatea umană într-o lume algoritmică.
În săptămânile următoare vom publica cercetări despre modul în care AI-ul recomandă votul oamenilor în Japonia, despre experimentele noastre de succes privind pariurile în alegerile primare din Texas, despre adaptarea metodelor de prognoză AI de ultimă generație ale Bridgewater pentru a prezice geopolitica și multe altele.
Vom organiza și un hackathon Free Systems care mă entuziasmează foarte mult.
Pe măsură ce construim, nu vrem să pierdem din vedere ceea ce am făcut deja---scopul este ca fiecare cercetare să contribuie la un proces de agregare, nu să fie abandonată online și apoi uitată pentru totdeauna.
În acest scop, începem o prezentare de vineri numită "System Check", unde oferim actualizări despre cercetările noastre existente, cum se raportează la noile dezvoltări și ce înseamnă pentru construirea de Sisteme Libere.
Primul este lansat azi. Spuneți-mi ce părere aveți!

116
În trimestrul viitor voi preda un curs radical nou pentru studenți, FREE SYSTEMS, menit să reimagineze democrația și modul în care o studiem și o predăm pentru era AI.
Elevii vor învăța despre viitorul AI și democrației, dar și vor *construi acest lucru*.
Fiecare student va primi un cont Claude Code, o cheie API OpenRouter finanțată și o singură directivă principală: să construim instrumentele care să ne ajute să păstrăm libertatea umană într-o lume din ce în ce mai algoritmică.
Vom construi agenți AI personali care procesează știri politice, tranzacționează piețe de predicții politice, votează în numele nostru și discută cu agenții altor studenți într-o legislatură agentă... printre multe alte lucruri.
Și vor fi tricouri.
Dacă ești student la licență sau masterat la Stanford, sper să vii să urmezi cursul. Vino să construiești viitorul democrației împreună cu noi!

533
Limită superioară
Clasament
Favorite
