Würde ich lieben! Ich habe versucht, eine Umfrage für Power-User im Jahr 2024 zu finanzieren, aber der Projektleiter hat letztendlich eine andere Rolle übernommen. Ich denke immer noch, dass es großartig wäre. Eine Herausforderung ist, dass die Power-User, die mir momentan am meisten am Herzen liegen, Mitarbeiter von KI-Unternehmen sind, und es könnte schwierig sein, detaillierte Informationen von ihnen zu erhalten.
Ehrlich gesagt könnte ein Panel von Power-Usern im Stil von Consumer Reports besser sein als METR usw. zur Messung des Fortschritts von KI, da es viel robuster gegenüber Schwankungen ist.
Das soll nicht skeptisch klingen, als Power-User denke ich, dass es in den letzten Monaten äußerst bemerkenswerte Fortschritte gegeben hat, wenn das etwas wert ist.
Neuer Beitrag: Am 14. Januar habe ich vorhergesagt, dass der SWE-Zeithorizont bis Ende des Jahres bei ~24 Stunden liegen würde. Jetzt denke ich, dass es >100 Stunden sein wird und vielleicht unbegrenzt. Zum ersten Mal sehe ich keine soliden Beweise gegen die Automatisierung von AI-F&E *in diesem Jahr.* Link unten.
Komm arbeite mit mir! METR sucht Ingenieure, Wissenschaftler und einen Betriebsleiter. Links zu offenen Stellen im Thread, und zögere nicht, mir eine DM zu senden, wenn du Fragen hast!
Unser Team ist im Moment stark ausgelastet!
Um die Autonomie von KI-Agenten weiterhin nach oben zu begrenzen und Bewertungen zur Überwachung von KI-Systemen und deren Neigung zur Untergrabung menschlicher Kontrolle zu entwickeln, benötigen wir mehr großartige Ingenieure und Forschungspersonal. Bitte bewerbt euch unten oder schickt mir eine DM!