Sejujurnya, panel gaya Consumer Reports dari pengguna yang kuat mungkin lebih baik daripada METR dll. untuk mengukur kemajuan AI, jauh lebih kuat untuk kemata-mata. Tidak dimaksudkan untuk terdengar skeptis, sebagai pengguna yang kuat, saya pikir ada kemajuan yang sangat nyata selama beberapa bulan terakhir.