DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Andrej Karpathy

Gebouw @EurekaLabsAI. Voorheen directeur van AI @ Tesla, oprichtend team @ OpenAI, CS231n/PhD @ Stanford. Ik vind het leuk om grote diepe neurale netwerken te trainen.

In het tijdperk van pretraining was internettekst belangrijk. Je zou voornamelijk een grote, diverse, hoogwaardige verzameling internetdocumenten willen hebben om van te leren. In het tijdperk van gesuperviseerde finetuning waren het gesprekken. Contractwerkers worden ingehuurd om antwoorden te creëren op vragen, een beetje zoals je zou zien op Stack Overflow / Quora, of iets dergelijks, maar gericht op LLM-gebruikscases. Geen van beide bovenstaande gaat verdwijnen (imo), maar in dit tijdperk van versterkend leren zijn het nu omgevingen. In tegenstelling tot het bovenstaande geven ze de LLM de kans om daadwerkelijk te interageren - acties te ondernemen, uitkomsten te zien, enz. Dit betekent dat je kunt hopen veel beter te presteren dan statistische expertimitatie. En ze kunnen zowel voor modeltraining als evaluatie worden gebruikt. Maar net als voorheen is het kernprobleem nu dat er een grote, diverse, hoogwaardige set omgevingen nodig is, als oefeningen voor de LLM om tegen te oefenen. In sommige opzichten word ik herinnerd aan OpenAI's allereerste project (gym), dat precies een framework was dat hoopte een grote verzameling omgevingen in hetzelfde schema op te bouwen, maar dit was lang voordat LLM's bestonden. Dus de omgevingen waren eenvoudige academische controle taken van die tijd, zoals cartpole, ATARI, enz. De @PrimeIntellect omgevingenhub (en de `verifiers` repo op GitHub) bouwt de gemoderniseerde versie specifiek gericht op LLM's, en het is een geweldige inspanning/idee. Ik heb eerder dit jaar voorgesteld dat iemand iets dergelijks zou bouwen: Omgevingen hebben de eigenschap dat zodra het skelet van het framework op zijn plaats is, in principe de gemeenschap / industrie kan paralleliseren over veel verschillende domeinen, wat spannend is. Laatste gedachte - persoonlijk en op lange termijn ben ik optimistisch over omgevingen en agentische interacties, maar ik ben pessimistisch over versterkend leren specifiek. Ik denk dat beloningsfuncties super verdacht zijn, en ik denk dat mensen RL niet gebruiken om te leren (misschien doen ze dat voor sommige motorische taken, maar niet voor intellectuele probleemoplossingstaken). Mensen gebruiken verschillende leerparadigma's die aanzienlijk krachtiger en monsterlijk efficiënter zijn en die nog niet goed zijn uitgevonden en opgeschaald, hoewel vroege schetsen en ideeën bestaan (als slechts één voorbeeld, het idee van "systeem prompt leren", waarbij de update naar tokens/contexten gaat en niet naar gewichten en optioneel distilleren naar gewichten als een apart proces, een beetje zoals slaap dat doet).

De reis naar een optimale LLM-ondersteunde programmeerervaring gaat verder. In het bijzonder merk ik dat, in plaats van me te concentreren op één perfecte oplossing, mijn gebruik steeds diverser wordt over een paar workflows die ik "samenvoeg" met de voor- en nadelen: Persoonlijk blijft het brood en boter (~75%?) van mijn LLM-assistentie gewoon (Cursor) tab-completeren. Dit komt omdat ik merk dat het schrijven van concrete stukjes code/opmerkingen zelf en op de juiste plek in de code een hoge bandbreedte manier is om "taakspecificatie" aan de LLM te communiceren, d.w.z. het gaat voornamelijk om taak-specificatie onderdelen - het kost te veel bits en te veel latentie om te communiceren wat ik wil in tekst, en het is sneller om het gewoon in de code en op de juiste plek te demonstreren. Soms is het tab-completemodel vervelend, dus schakel ik het vaak aan/uit. De volgende laag is het markeren van een concreet stuk code en vragen om een soort wijziging. De volgende laag is Claude Code / Codex / enz., dat naast Cursor draait, waar ik naartoe ga voor grotere stukken functionaliteit die ook redelijk gemakkelijk in een prompt te specificeren zijn. Deze zijn super nuttig, maar nog steeds gemengd en soms iets frustrerend. Ik werk niet in YOLO-modus omdat ze van het pad kunnen afwijken en domme dingen kunnen doen die je niet wilde/nodig had en ik druk vrij vaak op ESC. Ik heb ook niet geleerd om productief te zijn met meer dan één instantie parallel - één voelt al moeilijk genoeg. Ik heb nog niet ontdekt hoe ik CLAUDE[.]md goed of up-to-date kan houden. Ik moet vaak een "opruimronde" doen voor de programmeerstijl of zaken van code-smaak. Bijv. ze zijn te defensief en gebruiken vaak te veel try/catch-statements, ze compliceren vaak abstracties, ze overbelasten de code (bijv. geneste if-else-constructies wanneer een lijstcomprehensie of een one-liner if-then-else zou werken), of ze dupliceren codefragmenten in plaats van een mooie helperfunctie te creëren, dingen zoals dat... ze hebben eigenlijk geen gevoel voor smaak. Ze zijn onmisbaar in gevallen waarin ik in een meer vibe-codingterritorium kom waar ik minder bekend mee ben (bijv. recent wat rust schrijven, of sql-commando's, of iets anders dat ik minder vaak heb gedaan). Ik heb ook geprobeerd CC me dingen te leren naast de code die het schreef, maar dat werkte helemaal niet - het wil echt veel liever gewoon code schrijven dan iets onderweg uit te leggen. Ik heb geprobeerd CC hyperparameter-tuning te laten doen, wat zeer amusant was. Ze zijn ook super nuttig voor allerlei soorten lagere-stakes eenmalige aangepaste visualisaties of hulpprogramma's of debugcode die ik anders nooit zou schrijven omdat het veel te lang zou hebben geduurd. Bijv. CC kan 1.000 regels eenmalige uitgebreide visualisatie/code in elkaar zetten gewoon om een specifieke bug te identificeren, die meteen wordt verwijderd nadat we deze hebben gevonden. Het is het code-post-scarcity-tijdperk - je kunt gewoon duizenden regels super aangepaste, super ephemere code creëren en vervolgens verwijderen, het is oké, het is niet meer dit kostbare dure ding. De laatste verdedigingslaag is GPT5 Pro, waar ik naartoe ga voor de moeilijkste dingen. Bijv. het is me nu een paar keer overkomen dat ik / Cursor / CC allemaal vastzaten op een bug voor 10 minuten, maar wanneer ik het hele ding naar 5 Pro kopieer en plak, gaat het 10 minuten aan de slag maar vindt het dan daadwerkelijk een zeer subtiele bug. Het is erg sterk. Het kan allerlei esoterische documenten en artikelen en dergelijke opgraven. Ik heb het ook gebruikt voor andere zwaardere taken, bijv. suggesties over hoe abstracties op te schonen (gemengde resultaten, soms goede ideeën maar niet allemaal), of een volledige literatuurreview over hoe mensen dit of dat doen en het komt terug met goede relevante bronnen / aanwijzingen. Hoe dan ook, coderen voelt volledig opengebroken met mogelijkheden over een aantal "soorten" coderen en dan een aantal tools met hun voor- en nadelen. Het is moeilijk om het gevoel van angst te vermijden om niet aan de voorhoede te staan van wat collectief mogelijk is, vandaar de willekeurige zondagse douche van gedachten en een goede hoeveelheid nieuwsgierigheid over wat anderen ontdekken.

Boven

Positie

Favorieten