Mình rất thích điều này! Mình đã cố gắng tài trợ cho một cuộc khảo sát người dùng quyền lực vào năm 2024 nhưng người phụ trách dự án đã chuyển sang một vai trò khác, mình vẫn nghĩ điều đó sẽ rất tuyệt. Một thách thức là những người dùng quyền lực mà mình quan tâm nhất hiện tại là nhân viên của các công ty AI và có thể sẽ khó khăn để lấy thông tin chi tiết từ họ.
Thật lòng mà nói, một hội đồng người dùng mạnh mẽ theo kiểu Consumer Reports có thể tốt hơn METR v.v. trong việc đo lường tiến bộ của AI, vì nó có khả năng chống lại sự biến động tốt hơn nhiều.
Không có ý định nghe có vẻ hoài nghi, với tư cách là một người dùng mạnh mẽ, tôi nghĩ rằng đã có sự tiến bộ rất đáng chú ý trong vài tháng qua, nếu có thể nói như vậy.
Bài viết mới: vào ngày 14 tháng 1, tôi đã dự đoán rằng thời gian chân trời SWE đến cuối năm sẽ khoảng ~24 giờ. Bây giờ tôi nghĩ nó sẽ >100 giờ, và có thể không giới hạn. Lần đầu tiên, tôi không thấy bằng chứng vững chắc nào chống lại tự động hóa R&D AI *năm nay.* Liên kết bên dưới.
Hãy làm việc với tôi! METR đang tìm kiếm kỹ sư, nhà khoa học và một giám đốc vận hành. Liên kết đến các vị trí mở trong chủ đề, và hãy thoải mái nhắn tin nếu bạn có câu hỏi!
Đội ngũ của chúng tôi đang bị căng thẳng vào lúc này!
Để tiếp tục nâng cao khả năng tự chủ của các tác nhân AI, và phát triển các đánh giá để giám sát các hệ thống AI và xu hướng của chúng trong việc lật đổ sự kiểm soát của con người, chúng tôi cần thêm nhiều nhân viên kỹ thuật và nghiên cứu xuất sắc. Vui lòng nộp đơn bên dưới hoặc nhắn tin cho tôi!