Bardzo bym to chciał! Próbowałem sfinansować badanie użytkowników zaawansowanych w 2024 roku, ale lider projektu zajął inną rolę, nadal uważam, że byłoby to świetne. Jednym z wyzwań jest to, że użytkownicy zaawansowani, na których najbardziej mi zależy, to pracownicy firm AI i może być trudno uzyskać od nich szczegółowe informacje.
Szczerze mówiąc, panel użytkowników o dużej mocy w stylu Consumer Reports może być lepszy niż METR itp. do mierzenia postępów AI, znacznie bardziej odporny na skoki.
Nie chcę brzmieć sceptycznie, jako użytkownik o dużej mocy uważam, że w ciągu ostatnich kilku miesięcy nastąpił niezwykle zauważalny postęp, jeśli to coś znaczy.
Nowy post: 14 stycznia przewidziałem, że horyzont czasowy SWE do końca roku wyniesie ~24 godziny. Teraz myślę, że będzie to >100 godzin, a może nawet nieograniczone. Po raz pierwszy nie widzę solidnych dowodów przeciwko automatyzacji badań i rozwoju AI *w tym roku.* Link poniżej.
Pracuj ze mną! METR poszukuje inżynierów, naukowców oraz dyrektora operacyjnego. Linki do otwartych ofert w wątku, a jeśli masz pytania, śmiało pisz na DM!
Our team is stretched thin at the moment!
To continue upper-bounding the autonomy of AI agents, and developing evaluations for monitoring AI systems and their propensity to subvert human control, we need more great engineering and research staff. Please apply below or DM me!