Zou dit geweldig vinden! Ik heb geprobeerd een enquête onder power users te financieren in 2024, maar de projectleider is uiteindelijk een andere rol gaan vervullen. Ik denk nog steeds dat het geweldig zou zijn. Een uitdaging is dat de power users die ik nu het meest belangrijk vind, medewerkers van AI-bedrijven zijn en het kan moeilijk zijn om gedetailleerde informatie van hen te krijgen.
Eerlijk gezegd zou een panel van power users in de stijl van Consumer Reports beter kunnen zijn dan METR enz. voor het meten van AI-vooruitgang, veel robuuster tegen schommelingen.
Het is niet bedoeld om sceptisch te klinken, als power user denk ik dat er de afgelopen maanden extreem merkbare vooruitgang is geweest, voor zover dat helpt.
Nieuwe post: op 14 januari voorspelde ik dat de SWE-tijdshorizon tegen het einde van het jaar ongeveer 24 uur zou zijn. Nu denk ik dat het >100 uur zal zijn, en misschien onbeperkt. Voor het eerst zie ik geen solide bewijs tegen AI R&D-automatisering *dit jaar.* Link hieronder.
Kom werken met mij! METR is op zoek naar ingenieurs, wetenschappers en een operationeel directeur. Links naar openstaande vacatures in de thread, en voel je vrij om een DM te sturen als je vragen hebt!
Ons team is momenteel erg uitgedund!
Om de autonomie van AI-agenten verder te begrenzen en evaluaties te ontwikkelen voor het monitoren van AI-systemen en hun neiging om menselijke controle te ondermijnen, hebben we meer geweldige engineering- en onderzoekspersoneel nodig. Solliciteer hieronder of stuur me een DM!