Мне это очень нравится! Я пытался профинансировать опрос для активных пользователей в 2024 году, но руководитель проекта в итоге занял другую должность, все равно думаю, что это было бы здорово. Одна из проблем заключается в том, что активные пользователи, которые меня больше всего интересуют сейчас, это сотрудники AI-компаний, и может быть сложно получить от них подробную информацию.
Честно говоря, панель опытных пользователей в стиле Consumer Reports может быть лучше, чем METR и т. д., для измерения прогресса в области ИИ, она гораздо более устойчива к резким изменениям.
Не хочу звучать скептически, как опытный пользователь, я думаю, что за последние несколько месяцев был крайне заметный прогресс, если это что-то значит.
Новый пост: 14 января я предсказал, что временной горизонт SWE к концу года составит ~24 часа. Теперь я думаю, что это будет >100 часов, и, возможно, без ограничений. Впервые я не вижу убедительных доказательств против автоматизации ИИ НИОКР *в этом году.* Ссылка ниже.
Приходите работать со мной! METR ищет инженеров, ученых и директора по операциям. Ссылки на открытые вакансии в теме, и не стесняйтесь писать в личку, если у вас есть вопросы!
Наша команда в данный момент перегружена!
Чтобы продолжать повышать автономию AI-агентов и разрабатывать оценки для мониторинга AI-систем и их склонности подрывать человеческий контроль, нам нужно больше отличных инженеров и исследователей. Пожалуйста, подайте заявку ниже или напишите мне в личные сообщения!