Szczerze mówiąc, panel użytkowników o dużej mocy w stylu Consumer Reports może być lepszy niż METR itp. do mierzenia postępów AI, znacznie bardziej odporny na skoki. Nie chcę brzmieć sceptycznie, jako użytkownik o dużej mocy uważam, że w ciągu ostatnich kilku miesięcy nastąpił niezwykle zauważalny postęp, jeśli to coś znaczy.