Skulle älska detta! Jag försökte finansiera en undersökning av avancerade användare 2024 men projektledaren tog en annan roll, tycker fortfarande att det vore toppen. En utmaning är att de power users jag bryr mig mest om just nu är AI-anställda och det kan vara svårt att få detaljerad information från dem
Ärligt talat kan en panel i Consumer Reports-stil med avancerade användare vara bättre än METR osv. för att mäta AI-framsteg, mycket mer robust mot taggighet.
Jag är inte menad att låta skeptisk, men som avancerad användare tycker jag att det har skett mycket märkbara framsteg de senaste månaderna, för vad det är värt.
Nytt inlägg: den 14 januari förutspådde jag att den svenska tidshorisonten vid slutslut skulle vara ~24 timmar. Nu tror jag att det blir >100 timmar, och kanske obegränsat. För första gången ser jag inga solida bevis mot AI-FoU-automatisering *i år.* Länk nedan.
Kom och jobba med mig! METR söker ingenjörer, forskare och en operativ chef. Länkar till öppna inlägg i tråden, och tveka inte att skicka ett DM om du har frågor!
Vårt team är för närvarande utsträckt!
För att fortsätta att övergränsa AI-agenters autonomi och utveckla utvärderingar för att övervaka AI-system och deras benägenhet att undergräva mänsklig kontroll, behöver vi fler skickliga ingenjörs- och forskningspersonal. Vänligen ansök nedan eller skicka ett DM!