Mi piacerebbe molto! Ho provato a finanziare un sondaggio per utenti esperti nel 2024, ma il responsabile del progetto ha finito per assumere un altro ruolo, penso comunque che sarebbe fantastico. Una sfida è che gli utenti esperti che mi interessano di più in questo momento sono il personale delle aziende di AI e potrebbe essere difficile ottenere informazioni dettagliate da loro.
Onestamente, un pannello di utenti esperti in stile Consumer Reports potrebbe essere migliore di METR ecc. per misurare i progressi dell'AI, molto più robusto rispetto alle fluttuazioni.
Non voglio sembrare scettico, ma come utente esperto penso che ci siano stati progressi estremamente evidenti negli ultimi mesi, per quanto ne so.
Nuovo post: il 14 gennaio ho previsto che l'orizzonte temporale di SWE entro la fine dell'anno sarebbe stato di ~24 ore. Ora penso che sarà >100 ore, e forse illimitato. Per la prima volta, non vedo prove solide contro l'automazione della R&D AI *quest'anno.* Link qui sotto.
Vieni a lavorare con me! METR è alla ricerca di ingegneri, scienziati e un direttore delle operazioni. Trovi i link agli annunci aperti nel thread e sentiti libero di inviarmi un DM se hai domande!
Il nostro team è attualmente sotto pressione!
Per continuare a limitare l'autonomia degli agenti AI e sviluppare valutazioni per monitorare i sistemi AI e la loro propensione a sovvertire il controllo umano, abbiamo bisogno di più ottimo personale ingegneristico e di ricerca. Si prega di candidarsi qui sotto o di inviarmi un DM!