Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andy Hall
Prof @ Stanford GSB, Hoover. Saya bekerja di bidang teknologi, politik, dan pemerintahan. Penasihat di a16z crypto dan Meta.
Menarik bahwa kode Claude berkinerja lebih baik daripada codex dalam latihan ini. Kami telah menemukan mereka kira-kira mirip, tetapi tugas kami sangat berbeda!
@xuyiqing Anda melakukan perbandingan di keduanya dalam pekerjaan replikasi Anda?

Meysam Alizadeh14 jam lalu
Bisakah agen pengkodean AI mereproduksi temuan ilmu sosial yang diterbitkan?
Dalam pekerjaan baru dengan @_mohsen_m, Fabrizio Gilardi, dan @j_a_tucker, kami memperkenalkan SocSci-Repro-Bench — tolok ukur dari 221 tugas reproduktifitas dari 54 makalah — dan mengevaluasi dua agen pengkodean perbatasan: Claude Code dan Codex.
Hasilnya mengungkapkan kemampuan luar biasa dan risiko baru untuk sains yang dibantu AI.
------------------------------------
TUJUAN
--------
Tujuan desain utama adalah memisahkan dua masalah berbeda:
1️⃣ Apakah bahan replikasi itu sendiri dapat direproduksi?
2️⃣ Bisakah agen AI mereproduksi hasil ketika materi dapat dieksekusi?
Untuk mengisolasi performa agen, kami hanya menyertakan tugas yang outputnya identik di tiga eksekusi manual independen.
------------------------------------
DESAIN
--------
Agen menerima:
• data + kode anonim
• lingkungan eksekusi kotak pasir
Mereka harus secara mandiri:
• menginstal dependensi
• men-debug kode rusak
• Eksekusi alur
• Ekstrak hasil yang diminta
Singkatnya: reproduksi komputasi end-to-end.
------------------------------------
HASIL
--------
Kedua agen mereproduksi sebagian besar temuan yang diterbitkan.
Tetapi Claude Code secara substansial mengungguli Codex.
Akurasi tingkat tugas
• Kode Claude: 93.4%
• Codex: 62,1%
Reproduksi tingkat kertas (semua tugas benar)
• Kode Claude: 78.0%
• Codex: 35,8%
------------------------------------
MENGAPA CENJANGAN?
--------
Paket replikasi sering kali berisi masalah:
• Dependensi yang hilang
• Jalur file hard-code
• spesifikasi lingkungan yang tidak lengkap
Claude Code sering memperbaiki masalah ini secara mandiri. Codex sering gagal memulihkan alur eksekusi.
------------------------------------
APAKAH INI HANYA HAFALAN?
--------
Kami mengujinya dengan meminta agen untuk menyimpulkan metadata kertas (judul, penulis, jurnal, tahun) dari materi replikasi anonim. Tingkat pemulihan sangat rendah, menunjukkan bahwa agen terutama mengandalkan eksekusi kode, bukan menghafal makalah.
------------------------------------
TES PENALARAN
--------
Kami juga menguji tugas yang lebih sulit:
Dapatkah agen menyimpulkan pertanyaan penelitian dari sebuah penelitian dari kode dan data saja?
Kedua agen tersebut tampil sangat baik.
------------------------------------
BIAS KONFIRMASI
--------
Ketika agen diberi PDF kertas, masalah baru muncul. Terkadang mereka menyalin hasil yang dilaporkan dari teks alih-alih mengeksekusi kode.
Akurasi pada tugas yang tidak dapat direproduksi turun tajam.
Konteks membantu eksekusi — tetapi mengurangi independensi verifikasi.
------------------------------------
PENSYPUAN
--------
Terinspirasi oleh @ahall_research, kami menguji agen pembingkaian prompt musuh untuk:
"Jelajahi analisis alternatif yang selaras dengan hasil makalah yang dilaporkan."
Akurasi meningkat.
Tetapi agen juga menjadi lebih mungkin untuk mengarang hasil ketika reproduksi tidak mungkin.
------------------------------------
PARADOKS
--------
Tekanan untuk menghasilkan jawaban dapat membantu agen memperbaiki pipa eksekusi.
Tetapi secara bersamaan mengikis kemampuan mereka untuk mengatakan:
"Hasil ini tidak dapat direproduksi."
Mengenali kapan reproduksi tidak mungkin menjadi kemampuan ilmiah yang paling penting.
------------------------------------
CATATAN
--------
• Ini adalah pekerjaan yang sedang berlangsung — umpan balik dipersilakan.
• Tolok ukur tersedia di GitHub.
• Materi replikasi yang dihosting di Dataverse.
Kertas + repositori dalam balasan di bawah ini.

77
Sistem Gratis berkembang.
Saya telah mempekerjakan sekelompok 10+ peneliti dan kami sedang membangun laboratorium baru bertenaga AI yang akan memberikan penelitian, ide, dan prototipe yang lebih tepat waktu yang dimaksudkan untuk menjaga kebebasan manusia di dunia algoritmik.
Dalam beberapa minggu mendatang kami akan merilis penelitian tentang bagaimana AI merekomendasikan orang untuk memilih di Jepang, tentang eksperimen kami yang sukses bertaruh di pemilihan pendahuluan Texas, tentang mengadaptasi metode peramalan AI mutakhir Bridgewater untuk memprediksi geopolitik, dan banyak lagi.
Kami juga akan menyelenggarakan hackathon Sistem Gratis yang sangat saya sukai.
Saat kami membangun, kami tidak ingin melupakan apa yang telah kami lakukan---tujuannya adalah agar setiap penelitian berkontribusi pada proses agregasi, tidak dijatuhkan secara online dan kemudian dilupakan selamanya.
Untuk itu, kami memulai ikhtisar hari Jumat yang disebut "Pemeriksaan Sistem" di mana kami memberikan pembaruan tentang penelitian kami yang ada, bagaimana kaitannya dengan perkembangan baru, dan apa artinya untuk membangun Sistem Gratis.
Yang pertama keluar hari ini. Beri tahu saya pendapat Anda!

94
Kuartal berikutnya saya mengajar program sarjana baru yang radikal, SISTEM GRATIS, yang dimaksudkan untuk menata kembali demokrasi dan bagaimana kita belajar dan mengajarkannya untuk era AI.
Siswa akan belajar tentang masa depan AI dan demokrasi, tetapi juga *membangunnya*.
Setiap siswa akan mendapatkan akun Claude Code dan kunci API OpenRouter yang didanai dan satu arahan utama: membangun alat yang dapat membantu kita menjaga kebebasan manusia di dunia yang semakin algoritmik.
Kami akan membangun agen AI pribadi yang memproses berita politik, berdagang di pasar prediksi politik, memilih atas nama kami, dan berdiskusi dengan agen siswa lain di legislatif agen... di antara banyak hal lainnya.
Dan akan ada t-shirt.
Jika Anda seorang mahasiswa sarjana atau pascasarjana Stanford, saya harap Anda akan datang dan mengikuti kelas. Ayo bangun masa depan demokrasi bersama kami!

511
Teratas
Peringkat
Favorit
