To bych moc rád! V roce 2024 jsem se snažil financovat průzkum pro pokročilé uživatele, ale vedoucí projektu nakonec převzal jinou roli, stále si myslím, že by to bylo skvělé. Jednou z výzev je, že nejvíc mi teď záleží na pokročilých uživatelích jsou zaměstnanci AI firem a může být těžké od nich získat podrobné informace
Upřímně, panel pokročilých uživatelů ve stylu Consumer Reports by mohl být lepší než METR atd. pro měření pokroku AI, mnohem odolnější vůči špičkám.
Nechci znít skepticky, jako zkušený uživatel si myslím, že za posledních pár měsíců byl opravdu znatelný pokrok.
Nový příspěvek: 14. ledna jsem předpověděl, že časový horizont SWE do EOY bude ~24 hodin. Teď si myslím, že to bude >100 hodin a možná i neomezené. Poprvé letos nevidím pevné důkazy proti automatizaci výzkumu a vývoje AI. Odkaz níže.
Pojď pracovat se mnou! METR hledá inženýry, vědce a ředitele provozu. Odkazy na otevřené příspěvky ve vlákně, a klidně mi napište do zpráv, pokud máte otázky!
Our team is stretched thin at the moment!
To continue upper-bounding the autonomy of AI agents, and developing evaluations for monitoring AI systems and their propensity to subvert human control, we need more great engineering and research staff. Please apply below or DM me!