Adoraria isso! Tentei financiar uma pesquisa para usuários avançados em 2024, mas o líder do projeto acabou assumindo outro papel, ainda acho que seria ótimo. Um desafio é que os usuários avançados que mais me importo agora são funcionários de empresas de IA e pode ser difícil obter informações detalhadas deles
Honestamente, um painel de usuários avançados no estilo Consumer Reports pode ser melhor do que o METR, etc., para medir o progresso da IA, muito mais robusto contra espinhos.
Não quero soar cético, como usuário avançado acho que houve um progresso extremamente perceptível nos últimos meses, para constar.
Novo post: em 14 de janeiro, previ que o horizonte de tempo do SWE até o fim do ano seria ~24 horas. Agora acho que serão >100 horas, e talvez ilimitadas. Pela primeira vez, não vejo evidências sólidas contra a automação de P&D em IA *este ano.* Link abaixo.
Venha trabalhar comigo! O METR está procurando engenheiros, cientistas e um diretor de operações. Links para posts abertos no tópico, e fique à vontade para mandar mensagem privada se tiver dúvidas!
Nossa equipe está sobrecarregada no momento!
Para continuar ampliando a autonomia dos agentes de IA e desenvolvendo avaliações para monitorar sistemas de IA e sua propensão a subverter o controle humano, precisamos de mais equipes de engenharia e pesquisa de qualidade. Por favor, inscreva-se abaixo ou me mande uma mensagem privada!