Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Gebouw @EurekaLabsAI. Voorheen directeur van AI @ Tesla, oprichtend team @ OpenAI, CS231n/PhD @ Stanford. Ik vind het leuk om grote diepe neurale netwerken te trainen.
Ik had dezelfde gedachte, dus ik ben ermee aan het spelen in nanochat. Bijv. hier zijn 8 agenten (4 claude, 4 codex), met elk 1 GPU die nanochat-experimenten uitvoeren (proberen de logit softcap te verwijderen zonder regressie). De TLDR is dat het niet werkt en het een rommel is... maar het is nog steeds heel mooi om naar te kijken :)
Ik heb een paar opstellingen geprobeerd: 8 onafhankelijke solo-onderzoekers, 1 hoofdonderzoeker die werk geeft aan 8 junior onderzoekers, enz. Elk onderzoeksprogramma is een git-tak, elke wetenschapper forked het in een feature-tak, git worktrees voor isolatie, eenvoudige bestanden voor communicatie, skip Docker/VM's voor eenvoud op dit moment (ik vind dat instructies genoeg zijn om interferentie te voorkomen). De onderzoeksorganisatie draait in tmux-vensterroosters van interactieve sessies (zoals Teams) zodat het mooi is om naar te kijken, hun individuele werk te zien, en "over te nemen" indien nodig, d.w.z. geen -p.
Maar goed, de reden dat het tot nu toe niet werkt, is dat de ideeën van de agenten gewoon erg slecht zijn uit de doos, zelfs bij de hoogste intelligentie. Ze denken niet zorgvuldig na over experimenteel ontwerp, ze voeren een beetje onsamenhangende variaties uit, ze creëren geen sterke baselines en ableren dingen niet goed, ze controleren runtime of flops niet zorgvuldig. (bijvoorbeeld, een agent ontdekte gisteren "dat het vergroten van de verborgen grootte van het netwerk de validatieverlies verbetert, wat een totaal spurious resultaat is gezien het feit dat een groter netwerk een lagere validatieverlies zal hebben in het oneindige dataregime, maar dan traint het ook veel langer, het is niet duidelijk waarom ik moest binnenkomen om dat aan te geven). Ze zijn erg goed in het implementeren van elk goed afgebakend en beschreven idee, maar ze genereren ze niet creatief.
Maar het doel is dat je nu een organisatie programmeert (bijv. een "onderzoeksorganisatie") en zijn individuele agenten, dus de "broncodes" zijn de verzameling van prompts, vaardigheden, tools, enz. en processen die het vormen. Bijv. een dagelijkse stand-up in de ochtend is nu onderdeel van de "org-code". En het optimaliseren van nanochat pretraining is slechts een van de vele taken (bijna zoals een evaluatie). Dan - gegeven een willekeurige taak, hoe snel genereert jouw onderzoeksorganisatie vooruitgang daarop?

Thomas Wolf28 feb 2026
Waarom is de NanoGPT speedrun-uitdaging nog niet volledig AI-geautomatiseerd onderzoek?
873
Met de komende tsunami van vraag naar tokens zijn er aanzienlijke kansen om het onderliggende geheugen+rekenkracht *precies goed* te orkestreren voor LLM's.
De fundamentele en niet-voor-de-hand-liggende beperking is dat, vanwege het chipfabricageproces, je twee volledig verschillende geheugenpools krijgt (met ook verschillende fysieke implementaties): 1) on-chip SRAM die onmiddellijk naast de rekeneenheden ligt, die ongelooflijk snel is maar van zeer lage capaciteit, en 2) off-chip DRAM dat een extreem hoge capaciteit heeft, maar waarvan je de inhoud alleen door een lange rietje kunt zuigen. Bovenop dit alles zijn er veel details van de architectuur (bijv. systolische arrays), numeriek, enz.
Het ontwerp van het optimale fysieke substraat en vervolgens de orkestratie van geheugen+rekenkracht over de top volumeworkflows van LLM's (inference prefill/decode, training/finetuning, enz.) met de beste doorvoer/latentie/$ is waarschijnlijk de meest interessante intellectuele puzzel van vandaag met de hoogste beloningen (\cite 4.6T van NVDA). Alles om veel tokens snel en goedkoop te krijgen. Arguably is de workflow die het belangrijkst kan zijn (inference decode *en* over lange tokencontexten in strakke agentische lussen) degene die het moeilijkst gelijktijdig te bereiken is door de ~beide kampen van wat er vandaag bestaat (HBM-eerst NVIDIA aangrenzend en SRAM-eerst Cerebras aangrenzend). Hoe dan ook, het MatX-team is van A++-kwaliteit, dus het is mijn genoegen om een kleine betrokkenheid te hebben en gefeliciteerd met de financiering!

Reiner Pope25 feb 2026
We bouwen een LLM-chip die veel hogere doorvoer levert dan welke andere chip dan ook, terwijl we ook de laagste latentie bereiken. We noemen het de MatX One.
De MatX One-chip is gebaseerd op een splitsbare systolische array, die de energie- en oppervlakte-efficiëntie heeft waar grote systolische arrays om bekend staan, terwijl het ook een hoge benutting krijgt op kleinere matrices met flexibele vormen. De chip combineert de lage latentie van SRAM-eerst ontwerpen met de lange-context ondersteuning van HBM. Deze elementen, plus een frisse kijk op numeriek, leveren een hogere doorvoer op LLM's dan welk aangekondigd systeem dan ook, terwijl ze tegelijkertijd de latentie van SRAM-eerst ontwerpen evenaren. Hogere doorvoer en lagere latentie geven je slimmere en snellere modellen voor je abonnementsdollar.
We hebben een Series B van $500M opgehaald om de ontwikkeling af te ronden en de productie snel op te schalen, met tapeout binnen een jaar. De ronde werd geleid door Jane Street, een van de meest tech-savvy Wall Street bedrijven, en Situational Awareness LP, wiens oprichter @leopoldasch het definitieve memo over AGI schreef. Deelnemers zijn onder andere @sparkcapital, @danielgross en @natfriedman’s fonds, @patrickc en @collision, @TriatomicCap, @HarpoonVentures, @karpathy, @dwarkesh_sp, en anderen. We verwelkomen ook investeerders uit de toeleveringsketen, waaronder Marvell en Alchip.
@MikeGunter_ en ik zijn MatX begonnen omdat we vonden dat de beste chip voor LLM's ontworpen moet worden vanuit eerste principes met een diep begrip van wat LLM's nodig hebben en hoe ze zich zullen ontwikkelen. We zijn bereid om in te boeten op de prestaties van kleine modellen, laag-volume workloads, en zelfs de eenvoud van programmeren om zo'n chip te leveren.
We zijn nu een team van 100 personen met mensen die nadenken over alles, van leerschema's, tot Swing Modulo Scheduling, tot guard/round/sticky bits, tot blind-mated verbindingen—allemaal in hetzelfde gebouw. Als je ons wilt helpen bij het architecten, ontwerpen en implementeren van vele generaties chips in grote volumes, overweeg dan om je bij ons aan te sluiten.
474
Boven
Positie
Favorieten
