Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andy Hall
Prof @ Stanford GSB, Hoover. Lavoro su tecnologia, politica e governance. Consulente presso a16z crypto e Meta.
Interessante che il codice di Claude funzioni meglio di Codex in questo esercizio. Abbiamo riscontrato che sono abbastanza simili, ma i nostri compiti sono piuttosto diversi!
@xuyiqing hai fatto dei confronti tra i due nel tuo lavoro di replicazione?

Meysam Alizadeh9 ore fa
Gli agenti di codifica AI possono riprodurre i risultati pubblicati delle scienze sociali?
In un nuovo lavoro con @_mohsen_m, Fabrizio Gilardi e @j_a_tucker, introduciamo SocSci-Repro-Bench — un benchmark di 221 compiti di riproducibilità tratti da 54 articoli — e valutiamo due agenti di codifica all'avanguardia: Claude Code e Codex.
I risultati rivelano sia capacità notevoli che nuovi rischi per la scienza assistita dall'AI.
------------------------------------
GOAL
--------
Un obiettivo chiave del design era separare due problemi diversi:
1️⃣ I materiali di replicazione stessi sono riproducibili?
2️⃣ Gli agenti AI possono riprodurre risultati quando i materiali sono eseguibili?
Per isolare le prestazioni degli agenti, abbiamo incluso solo compiti i cui output erano identici in tre esecuzioni manuali indipendenti.
------------------------------------
DESIGN
--------
Gli agenti hanno ricevuto:
• dati + codice anonimizzati
• un ambiente di esecuzione sandboxed
Dovevano autonomamente:
• installare dipendenze
• debugare codice rotto
• eseguire la pipeline
• estrarre i risultati richiesti
In breve: riproduzione computazionale end-to-end.
------------------------------------
RISULTATI
--------
Entrambi gli agenti hanno riprodotto una grande parte dei risultati pubblicati.
Ma Claude Code ha superato notevolmente Codex.
Precisione a livello di compito
• Claude Code: 93.4%
• Codex: 62.1%
Riproduzione a livello di articolo (tutti i compiti corretti)
• Claude Code: 78.0%
• Codex: 35.8%
------------------------------------
PERCHÉ LA DIFFERENZA?
--------
I pacchetti di replicazione spesso contengono problemi:
• dipendenze mancanti
• percorsi di file hard-coded
• specifiche ambientali incomplete
Claude Code ha frequentemente riparato autonomamente questi problemi. Codex spesso non è riuscito a recuperare la pipeline di esecuzione.
------------------------------------
È SOLO MEMORIZZAZIONE?
--------
Abbiamo testato questo chiedendo agli agenti di dedurre i metadati dell'articolo (titolo, autori, rivista, anno) dai materiali di replicazione anonimizzati. I tassi di recupero erano molto bassi, suggerendo che gli agenti si affidavano principalmente all'esecuzione del codice, non alla memorizzazione degli articoli.
------------------------------------
TEST DI RAGIONAMENTO
--------
Abbiamo anche testato un compito più difficile:
Gli agenti possono dedurre la domanda di ricerca di uno studio solo da codice e dati?
Entrambi gli agenti hanno performato sorprendentemente bene.
------------------------------------
BIAS DI CONFERMA
--------
Quando agli agenti è stato fornito il PDF dell'articolo, è emerso un nuovo problema. A volte copiavano i risultati riportati dal testo invece di eseguire il codice.
L'accuratezza nei compiti non riproducibili è diminuita drasticamente.
Il contesto aiuta l'esecuzione — ma riduce l'indipendenza della verifica.
------------------------------------
SYCOPHANCY
--------
Ispirati da @ahall_research, abbiamo testato il framing di prompt avversari, spingendo gli agenti a:
"esplorare analisi alternative che si allineano con i risultati riportati nell'articolo."
L'accuratezza è aumentata.
Ma gli agenti sono diventati anche più propensi a fabbricare risultati quando la riproduzione era impossibile.
------------------------------------
IL PARADOSSO
--------
La pressione per produrre una risposta può aiutare gli agenti a riparare le pipeline di esecuzione.
Ma erode simultaneamente la loro capacità di dire:
"Questo risultato non può essere riprodotto."
Riconoscere quando la riproduzione è impossibile potrebbe essere la capacità scientifica più importante.
------------------------------------
NOTE
--------
• Questo è un lavoro in corso — il feedback è benvenuto.
• Benchmark disponibile su GitHub.
• Materiali di replicazione ospitati su Dataverse.
Articolo + repository nella risposta qui sotto.

58
Free Systems si sta espandendo.
Ho assunto un gruppo di oltre 10 ricercatori e stiamo costruendo un nuovissimo laboratorio potenziato dall'AI che fornirà ricerche, idee e prototipi più tempestivi, destinati a preservare la libertà umana in un mondo algoritmico.
Nelle prossime settimane pubblicheremo ricerche su come l'AI consiglia le persone su come votare in Giappone, sui nostri esperimenti di successo scommettendo nelle primarie del Texas, sull'adattamento dei metodi di previsione all'avanguardia di Bridgewater per prevedere la geopolitica e altro ancora.
Organizzeremo anche un hackathon di Free Systems che mi entusiasma molto.
Mentre costruiamo, non vogliamo perdere di vista ciò che abbiamo già fatto---l'obiettivo è che ogni pezzo di ricerca contribuisca a un processo aggregato, non venga semplicemente pubblicato online e poi dimenticato per sempre.
A tal fine, stiamo avviando un aggiornamento del venerdì chiamato "System Check" dove forniamo aggiornamenti sulla nostra ricerca esistente, su come si relaziona con i nuovi sviluppi e su cosa significa per costruire Free Systems.
Il primo è uscito oggi. Fammi sapere cosa ne pensi!

79
Il prossimo trimestre insegnerò un corso radicale per studenti universitari, SISTEMI GRATUITI, pensato per ripensare la democrazia e come la studiamo e la insegniamo per l'era dell'AI.
Gli studenti apprenderanno il futuro dell'AI e della democrazia, ma anche *lo costruiranno*.
Ogni studente avrà un account Claude Code e una chiave API OpenRouter finanziata e un obiettivo principale: costruire gli strumenti che possono aiutarci a preservare la libertà umana in un mondo sempre più algoritmico.
Costruiremo agenti AI personali che elaborano notizie politiche, operano nei mercati di previsione politica, votano per nostro conto e deliberano con gli agenti di altri studenti in un'assemblea agentica... tra molte altre cose.
E ci saranno t-shirt.
Se sei uno studente universitario o laureato di Stanford, spero che tu venga a seguire il corso. Vieni a costruire il futuro della democrazia con noi!

488
Principali
Ranking
Preferiti
