Hadde elsket dette! Jeg prøvde å finansiere en undersøkelse av avanserte brukere i 2024, men prosjektlederen endte opp med å ta en annen rolle, og jeg synes fortsatt det hadde vært flott. En utfordring er at de avanserte brukerne jeg bryr meg mest om nå er ansatte i AI-selskaper, og det kan være vanskelig å få detaljert informasjon fra dem
Ærlig talt kan et panel i Consumer Reports-stil med avanserte brukere være bedre enn METR osv. for å måle AI-fremgang, mye mer robust mot piggete effekter.
Ikke ment som skeptisk, men som en avansert bruker synes jeg det har vært svært merkbar fremgang de siste månedene, for ordens skyld.
Nytt innlegg: 14. januar forutsa jeg at SVE-tidshorisonten ved første slutt ville være ~24 timer. Nå tror jeg det blir >100 timer, og kanskje ubegrenset. For første gang ser jeg ikke solide bevis mot AI FoU-automatisering *i år.* Lenke nedenfor.
Kom og jobb med meg! METR søker ingeniører, forskere og en driftsdirektør. Lenker til åpne innlegg i tråden, og ta gjerne kontakt på DM hvis du har spørsmål!
Teamet vårt er strukket tynnt for øyeblikket!
For å fortsette å oppgrense autonomien til AI-agenter, og utvikle evalueringer for overvåking av AI-systemer og deres tilbøyelighet til å undergrave menneskelig kontroll, trenger vi flere dyktige ingeniør- og forskningsansatte. Søk gjerne nedenfor eller send meg en DM!