Skulle älska detta! Jag försökte finansiera en undersökning av avancerade användare 2024 men projektledaren tog en annan roll, tycker fortfarande att det vore toppen. En utmaning är att de power users jag bryr mig mest om just nu är AI-anställda och det kan vara svårt att få detaljerad information från dem
Ärligt talat kan en panel i Consumer Reports-stil med avancerade användare vara bättre än METR osv. för att mäta AI-framsteg, mycket mer robust mot taggighet.
Jag är inte menad att låta skeptisk, men som avancerad användare tycker jag att det har skett mycket märkbara framsteg de senaste månaderna, för vad det är värt.
Nytt inlägg: den 14 januari förutspådde jag att den svenska tidshorisonten vid slutslut skulle vara ~24 timmar. Nu tror jag att det blir >100 timmar, och kanske obegränsat. För första gången ser jag inga solida bevis mot AI-FoU-automatisering *i år.* Länk nedan.
Kom och jobba med mig! METR söker ingenjörer, forskare och en operativ chef. Länkar till öppna inlägg i tråden, och tveka inte att skicka ett DM om du har frågor!
Our team is stretched thin at the moment!
To continue upper-bounding the autonomy of AI agents, and developing evaluations for monitoring AI systems and their propensity to subvert human control, we need more great engineering and research staff. Please apply below or DM me!