Honestamente, um painel de utilizadores avançados ao estilo do Consumer Reports pode ser melhor do que o METR, etc., para medir o progresso da IA, muito mais robusto a picos. Não quero soar cético, como utilizador avançado, acho que tem havido um progresso extremamente notável nos últimos meses, para que conste.