DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Andrej Karpathy

Bâtiment @EurekaLabsAI. Précédemment directeur de l’IA @ Tesla, équipe fondatrice @ OpenAI, CS231n/PhD @ Stanford. J’aime entraîner de grands réseaux neuronaux profonds.

À l'ère du pré-entraînement, ce qui comptait, c'était le texte d'internet. Vous voudriez principalement une grande collection diversifiée et de haute qualité de documents internet à partir desquels apprendre. À l'ère du finetuning supervisé, ce sont les conversations qui comptaient. Des travailleurs sous contrat sont engagés pour créer des réponses à des questions, un peu comme ce que vous verriez sur Stack Overflow / Quora, etc., mais orienté vers les cas d'utilisation des LLM. Aucun des deux précédents ne disparaîtra (à mon avis), mais à cette époque de l'apprentissage par renforcement, ce sont maintenant les environnements qui comptent. Contrairement aux précédents, ils donnent au LLM l'opportunité d'interagir réellement - de prendre des actions, de voir des résultats, etc. Cela signifie que vous pouvez espérer faire beaucoup mieux qu'une imitation experte statistique. Et ils peuvent être utilisés à la fois pour l'entraînement et l'évaluation du modèle. Mais tout comme auparavant, le problème central est maintenant de nécessiter un ensemble large, diversifié et de haute qualité d'environnements, comme exercices pour que le LLM puisse s'entraîner. D'une certaine manière, je me rappelle du tout premier projet d'OpenAI (gym), qui était exactement un cadre espérant construire une grande collection d'environnements dans le même schéma, mais c'était bien avant les LLM. Donc, les environnements étaient des tâches de contrôle académique simples de l'époque, comme cartpole, ATARI, etc. Le hub d'environnements @PrimeIntellect (et le dépôt `verifiers` sur GitHub) construit la version modernisée ciblant spécifiquement les LLM, et c'est un grand effort/une grande idée. J'ai proposé que quelqu'un construise quelque chose comme ça plus tôt cette année : Les environnements ont la propriété qu'une fois que le squelette du cadre est en place, en principe, la communauté/l'industrie peut paralléliser à travers de nombreux domaines différents, ce qui est excitant. Dernière pensée - personnellement et à long terme, je suis optimiste sur les environnements et les interactions agentiques mais je suis pessimiste sur l'apprentissage par renforcement spécifiquement. Je pense que les fonctions de récompense sont super suspectes, et je pense que les humains n'utilisent pas l'apprentissage par renforcement pour apprendre (peut-être le font-ils pour certaines tâches motrices, etc., mais pas pour des tâches de résolution de problèmes intellectuels). Les humains utilisent différents paradigmes d'apprentissage qui sont significativement plus puissants et efficaces en échantillonnage et qui n'ont pas encore été correctement inventés et mis à l'échelle, bien que des esquisses et des idées précoces existent (comme juste un exemple, l'idée de "l'apprentissage par prompt système", déplaçant la mise à jour vers des tokens/contextes et non des poids et distillant éventuellement vers des poids comme un processus séparé un peu comme le sommeil le fait).

Poursuivant le parcours d'une expérience de codage optimale assistée par LLM. En particulier, je constate qu'au lieu de me concentrer sur une seule chose parfaite, mon utilisation se diversifie de plus en plus à travers quelques flux de travail que je "couds" ensemble les avantages/inconvénients : Personnellement, le pain et le beurre (~75% ?) de mon assistance LLM continue d'être juste (Cursor) la complétion par tabulation. C'est parce que je trouve que rédiger des morceaux concrets de code/commentaires moi-même et au bon endroit dans le code est un moyen à large bande de communiquer "la spécification de la tâche" au LLM, c'est-à-dire qu'il s'agit principalement de bits de spécification de tâche - cela prend trop de bits et trop de latence pour communiquer ce que je veux par texte, et c'est plus rapide de le démontrer dans le code et au bon endroit. Parfois, le modèle de complétion par tabulation est ennuyeux, donc je l'active/désactive beaucoup. Le niveau suivant consiste à mettre en surbrillance un morceau concret de code et à demander une sorte de modification. Le niveau suivant est Claude Code / Codex / etc., fonctionnant à côté de Cursor, que j'utilise pour des morceaux plus importants de fonctionnalité qui sont également assez faciles à spécifier dans une invite. Ceux-ci sont super utiles, mais restent globalement mitigés et légèrement frustrants par moments. Je ne fonctionne pas en mode YOLO car ils peuvent s'égarer et faire des choses stupides que vous ne vouliez/pas besoin et j'échappe assez souvent. Je n'ai pas non plus appris à être productif en utilisant plus d'une instance en parallèle - une seule semble déjà assez difficile. Je n'ai pas trouvé de bonne façon de garder CLAUDE[.]md bon ou à jour. Je dois souvent faire un passage de "nettoyages" pour le style de codage, ou des questions de goût en matière de code. Par exemple, ils sont trop défensifs et utilisent souvent trop les instructions try/catch, ils compliquent souvent les abstractions, ils alourdissent le code (par exemple, des constructions if-else imbriquées alors qu'une compréhension de liste ou un if-then-else en une ligne fonctionnerait), ou ils dupliquent des morceaux de code au lieu de créer une belle fonction d'aide, des choses comme ça... ils n'ont fondamentalement pas de sens du goût. Ils sont indispensables dans les cas où je m'aventure dans un territoire de codage plus intuitif où je suis moins familier (par exemple, écrire du rust récemment, ou des commandes sql, ou tout autre chose que j'ai moins fait auparavant). J'ai aussi essayé CC pour m'apprendre des choses en parallèle du code qu'il écrivait, mais cela n'a pas du tout fonctionné - il veut vraiment juste écrire du code beaucoup plus qu'il ne veut expliquer quoi que ce soit en cours de route. J'ai essayé de faire faire à CC de l'optimisation d'hyperparamètres, ce qui était très amusant. Ils sont également super utiles dans toutes sortes de visualisations personnalisées ou d'utilitaires ou de débogage de code à enjeux faibles que je n'écrirais jamais autrement parce que cela aurait pris beaucoup trop de temps. Par exemple, CC peut produire 1 000 lignes de visualisation/code extensif juste pour identifier un bug spécifique, qui est ensuite complètement supprimé juste après l'avoir trouvé. C'est l'ère du code post-pénurie - vous pouvez simplement créer puis supprimer des milliers de lignes de code super personnalisées et super éphémères maintenant, c'est ok, ce n'est plus cette chose précieuse et coûteuse. Le dernier niveau de défense est GPT5 Pro, que j'utilise pour les choses les plus difficiles. Par exemple, il m'est arrivé quelques fois maintenant que moi / Cursor / CC soyons tous bloqués sur un bug pendant 10 minutes, mais quand je copie-colle le tout dans 5 Pro, il part pendant 10 minutes mais finit par trouver un bug vraiment subtil. Il est très puissant. Il peut déterrer toutes sortes de documents ésotériques et de papiers, etc. Je l'ai également utilisé pour d'autres tâches plus substantielles, par exemple des suggestions sur la façon de nettoyer les abstractions (résultats mitigés, parfois de bonnes idées mais pas toutes), ou une revue de littérature entière sur la façon dont les gens font ceci ou cela et il revient avec de bonnes ressources / indications pertinentes. Quoi qu'il en soit, le codage semble complètement ouvert à la possibilité à travers un certain nombre de "types" de codage et ensuite un certain nombre d'outils avec leurs avantages/inconvénients. Il est difficile d'éviter le sentiment d'anxiété de ne pas être à la pointe de ce qui est collectivement possible, d'où une pluie de pensées aléatoires du dimanche et une bonne dose de curiosité sur ce que les autres découvrent.

Meilleurs

Classement

Favoris