Adoraria isso! Tentei financiar uma pesquisa com utilizadores avançados em 2024, mas o responsável pelo projeto acabou por assumir outro cargo, ainda acho que seria ótimo. Um desafio é que os utilizadores avançados que mais me interessam atualmente são funcionários de empresas de IA e pode ser difícil obter informações detalhadas deles.
Honestamente, um painel de utilizadores avançados ao estilo do Consumer Reports pode ser melhor do que o METR, etc., para medir o progresso da IA, muito mais robusto a picos.
Não quero soar cético, como utilizador avançado, acho que tem havido um progresso extremamente notável nos últimos meses, para que conste.
Novo post: em 14 de janeiro, previ que o horizonte de tempo do SWE até o final do ano seria de ~24 horas. Agora, acho que será >100 horas, e talvez sem limites. Pela primeira vez, não vejo evidências sólidas contra a automação de P&D em IA *este ano.* Link abaixo.
Venha trabalhar comigo! A METR está à procura de engenheiros, cientistas e um diretor de operações. Links para as vagas abertas no tópico, e sintam-se à vontade para me enviar uma mensagem se tiverem perguntas!
Our team is stretched thin at the moment!
To continue upper-bounding the autonomy of AI agents, and developing evaluations for monitoring AI systems and their propensity to subvert human control, we need more great engineering and research staff. Please apply below or DM me!