J'adorerais ça ! J'ai essayé de financer une enquête auprès des utilisateurs avancés en 2024, mais le responsable du projet a fini par prendre un autre rôle, je pense toujours que ce serait génial. Un défi est que les utilisateurs avancés qui m'intéressent le plus en ce moment sont des employés d'entreprises d'IA et il pourrait être difficile d'obtenir des informations détaillées de leur part.
Honnêtement, un panel d'utilisateurs avancés à la manière de Consumer Reports pourrait être meilleur que METR, etc. pour mesurer les progrès de l'IA, beaucoup plus robuste face aux fluctuations.
Je ne veux pas paraître sceptique, en tant qu'utilisateur avancé, je pense qu'il y a eu des progrès extrêmement notables au cours des derniers mois, pour ce que ça vaut.
Nouveau post : le 14 janvier, j'ai prédit que l'horizon temporel de SWE d'ici la fin de l'année serait d'environ 24 heures. Maintenant, je pense qu'il sera supérieur à 100 heures, et peut-être illimité. Pour la première fois, je ne vois pas de preuves solides contre l'automatisation de la R&D en IA *cette année.* Lien ci-dessous.
Venez travailler avec moi ! METR recherche des ingénieurs, des scientifiques et un directeur des opérations. Liens vers les postes ouverts dans le fil de discussion, et n'hésitez pas à m'envoyer un message si vous avez des questions !
Notre équipe est actuellement très sollicitée !
Pour continuer à renforcer l'autonomie des agents IA et développer des évaluations pour surveiller les systèmes IA et leur tendance à subvertir le contrôle humain, nous avons besoin de plus de personnel d'ingénierie et de recherche talentueux. Veuillez postuler ci-dessous ou m'envoyer un message !