Akan menyukai ini! Saya mencoba mendanai survei pengguna yang kuat pada tahun 2024 tetapi pemimpin proyek akhirnya mengambil peran lain, masih berpikir itu akan bagus. Salah satu tantangannya adalah pengguna yang paling saya sayangi adalah staf perusahaan AI dan mungkin sulit untuk mendapatkan info terperinci dari mereka
Sejujurnya, panel gaya Consumer Reports dari pengguna yang kuat mungkin lebih baik daripada METR dll. untuk mengukur kemajuan AI, jauh lebih kuat untuk kemata-mata.
Tidak dimaksudkan untuk terdengar skeptis, sebagai pengguna yang kuat, saya pikir ada kemajuan yang sangat nyata selama beberapa bulan terakhir.
Posting baru: pada 14 Januari, saya memprediksi bahwa cakrawala waktu SWE oleh EOY akan menjadi ~24 jam. Sekarang saya pikir itu akan menjadi >100 jam, dan mungkin tidak terbatas. Untuk pertama kalinya, saya tidak melihat bukti kuat terhadap otomatisasi R&D AI *tahun ini.* Tautan di bawah ini.
Ayo bekerja denganku! METR sedang mencari insinyur, ilmuwan, dan direktur operasi. Tautan untuk membuka posting di utas, dan jangan ragu untuk DM jika Anda memiliki pertanyaan!
Tim kami sedang kurus saat ini!
Untuk terus meningkatkan otonomi agen AI, dan mengembangkan evaluasi untuk memantau sistem AI dan kecenderungannya untuk menumbangkan kontrol manusia, kita membutuhkan lebih banyak staf teknik dan penelitian yang hebat. Silakan mendaftar di bawah ini atau DM saya!