Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Bâtiment @EurekaLabsAI. Précédemment directeur de l’IA @ Tesla, équipe fondatrice @ OpenAI, CS231n/PhD @ Stanford. J’aime entraîner de grands réseaux neuronaux profonds.
J'ai eu la même pensée, donc j'ai joué avec dans nanochat. Par exemple, voici 8 agents (4 claude, 4 codex), chacun avec 1 GPU exécutant des expériences nanochat (essayant de supprimer le softcap logit sans régression). Le TLDR est que ça ne fonctionne pas et c'est un désordre... mais c'est toujours très joli à regarder :)
J'ai essayé quelques configurations : 8 chercheurs indépendants, 1 scientifique en chef donnant du travail à 8 chercheurs juniors, etc. Chaque programme de recherche est une branche git, chaque scientifique la fork en une branche de fonctionnalité, des worktrees git pour l'isolation, des fichiers simples pour les communications, en évitant Docker/VMs pour la simplicité pour l'instant (je trouve que les instructions suffisent à prévenir les interférences). L'organisation de recherche fonctionne dans des grilles de fenêtres tmux de sessions interactives (comme Teams) afin que ce soit joli à regarder, voir leur travail individuel, et "prendre le relais" si nécessaire, c'est-à-dire pas de -p.
Mais bon, la raison pour laquelle ça ne fonctionne pas jusqu'à présent est que les idées des agents sont tout simplement assez mauvaises dès le départ, même à la plus haute intelligence. Ils ne réfléchissent pas soigneusement à la conception des expériences, ils exécutent des variations un peu non-sensiques, ils ne créent pas de bases solides et n'ablatent pas les choses correctement, ils ne contrôlent pas soigneusement le temps d'exécution ou les flops. (juste comme exemple, un agent hier a "découvert" qu'augmenter la taille cachée du réseau améliore la perte de validation, ce qui est un résultat totalement spurié étant donné qu'un réseau plus grand aura une perte de validation plus faible dans le régime de données infinies, mais ensuite il s'entraîne aussi beaucoup plus longtemps, il n'est pas clair pourquoi j'ai dû intervenir pour le faire remarquer). Ils sont très bons pour mettre en œuvre n'importe quelle idée bien définie et décrite, mais ils ne les génèrent pas de manière créative.
Mais l'objectif est que vous programmez maintenant une organisation (par exemple, une "organisation de recherche") et ses agents individuels, donc le "code source" est la collection de prompts, compétences, outils, etc. et processus qui la composent. Par exemple, un stand-up quotidien le matin fait maintenant partie du "code de l'organisation". Et optimiser le pré-entraînement de nanochat n'est qu'une des nombreuses tâches (presque comme une évaluation). Ensuite - étant donné une tâche arbitraire, à quelle vitesse votre organisation de recherche génère-t-elle des progrès dessus ?

Thomas Wolf28 févr. 2026
Pourquoi le défi de speedrun de NanoGPT n'est-il pas entièrement automatisé par l'IA à ce stade ?
872
Avec le tsunami de demande à venir pour les tokens, il existe d'importantes opportunités pour orchestrer la mémoire et le calcul sous-jacents *juste comme il faut* pour les LLMs.
La contrainte fondamentale et non évidente est que, en raison du processus de fabrication des puces, vous obtenez deux pools de mémoire complètement distincts (avec des implémentations physiques différentes également) : 1) la SRAM sur puce qui est immédiatement à côté des unités de calcul, incroyablement rapide mais de très faible capacité, et 2) la DRAM hors puce qui a une capacité extrêmement élevée, mais dont le contenu ne peut être aspiré que par une longue paille. En plus de cela, il y a de nombreux détails de l'architecture (par exemple, les tableaux systoliques), les numériques, etc.
La conception du substrat physique optimal et ensuite l'orchestration de la mémoire et du calcul à travers les flux de travail de volume supérieur des LLMs (pré-remplissage/décodage d'inférence, entraînement/ajustement fin, etc.) avec le meilleur débit/latence/$ est probablement le puzzle intellectuel le plus intéressant d'aujourd'hui avec les plus grandes récompenses (\cite 4.6T de NVDA). Tout cela pour obtenir de nombreux tokens, rapidement et à moindre coût. On peut dire que le flux de travail qui pourrait avoir le plus d'importance (décodage d'inférence *et* sur de longs contextes de tokens dans des boucles agentiques serrées) est celui qui est le plus difficile à réaliser simultanément par les ~deux camps de ce qui existe aujourd'hui (NVIDIA adjacent à HBM en premier et Cerebras adjacent à SRAM en premier). Quoi qu'il en soit, l'équipe MatX est de grade A++, donc c'est un plaisir pour moi d'avoir une petite implication et félicitations pour la levée de fonds !

Reiner Pope25 févr. 2026
Nous construisons une puce LLM qui offre un débit beaucoup plus élevé que toute autre puce tout en atteignant la latence la plus basse. Nous l'appelons la MatX One.
La puce MatX One est basée sur un tableau systolique divisible, qui possède l'efficacité énergétique et de surface pour laquelle les grands tableaux systoliques sont connus, tout en obtenant une haute utilisation sur des matrices plus petites avec des formes flexibles. La puce combine la faible latence des conceptions à SRAM en premier avec le support de long contexte de la HBM. Ces éléments, associés à une nouvelle approche des numériques, offrent un débit plus élevé sur les LLM que tout système annoncé, tout en égalant simultanément la latence des conceptions à SRAM en premier. Un débit plus élevé et une latence plus faible vous donnent des modèles plus intelligents et plus rapides pour votre dollar d'abonnement.
Nous avons levé 500 millions de dollars lors d'une série B pour finaliser le développement et rapidement augmenter la fabrication, avec un tapeout dans moins d'un an. Le tour a été dirigé par Jane Street, l'une des entreprises de Wall Street les plus technophiles, et Situational Awareness LP, dont le fondateur @leopoldasch a écrit le mémo définitif sur l'AGI. Les participants incluent @sparkcapital, le fonds de @danielgross et @natfriedman, @patrickc et @collision, @TriatomicCap, @HarpoonVentures, @karpathy, @dwarkesh_sp, et d'autres. Nous accueillons également des investisseurs à travers la chaîne d'approvisionnement, y compris Marvell et Alchip.
@MikeGunter_ et moi avons fondé MatX parce que nous estimions que la meilleure puce pour les LLM devait être conçue à partir de principes fondamentaux avec une compréhension approfondie de ce dont les LLM ont besoin et comment ils évolueront. Nous sommes prêts à renoncer à la performance des petits modèles, aux charges de travail à faible volume, et même à la facilité de programmation pour réaliser une telle puce.
Nous sommes maintenant une équipe de 100 personnes avec des personnes qui réfléchissent à tout, des plannings de taux d'apprentissage, à la planification Swing Modulo, aux bits de garde/ronde/collants, aux connexions à emboîtement aveugle—tout dans le même bâtiment. Si vous souhaitez nous aider à architecturer, concevoir et déployer de nombreuses générations de puces en grande quantité, envisagez de nous rejoindre.
473
Meilleurs
Classement
Favoris
