老實說,一個類似消費者報告的強力用戶小組可能比METR等更適合衡量AI的進展,對於波動性更具韌性。 並不是想表現出懷疑,作為一名強力用戶,我認為在過去幾個月中,進展是非常明顯的,這是我的看法。