老实说,一个类似消费者报告的强用户小组可能比METR等更适合衡量AI的进展,因为它对波动性更具鲁棒性。 并不是想表现出怀疑,作为一个强用户,我认为在过去几个月里,进展是非常明显的,供你参考。