Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Construindo @EurekaLabsAI. Anteriormente Diretor de AI @ Tesla, equipe fundadora @ OpenAI, CS231n/PhD @ Stanford. Eu gosto de treinar grandes redes neurais profundas.
Tive a mesma ideia, então tenho brincado com isso no nanochat. Por exemplo, aqui estão 8 agentes (4 claude, 4 codex), com 1 GPU cada rodando experimentos nanochat (tentando excluir o softcap logit sem regressão). O resumo é que não funciona e é uma bagunça... Mas ainda assim é muito bonito de se ver :)
Tentei algumas configurações: 8 pesquisadores independentes solo, 1 cientista-chefe dando trabalho para 8 pesquisadores juniores, etc. Cada programa de pesquisa é um branch git, cada cientista faz fork em um branch de funcionalidades, árvores de trabalho git para isolamento, arquivos simples para comunicações, pule Docker/VMs para simplificar no momento (acho que instruções são suficientes para evitar interferências). A organização de pesquisa roda em grades de janelas tmux de sessões interativas (como o Teams) para que seja bonito de olhar, ver o trabalho individual deles e "assumir" se necessário, ou seja, sem -p.
Mas ok, o motivo de não funcionar até agora é que as ideias dos agentes são bem ruins logo de cara, mesmo com a inteligência mais alta. Eles não pensam cuidadosamente no design dos experimentos, executam variações um pouco sem sentido, não criam linhas de base fortes nem ablatam as coisas corretamente, não controlam cuidadosamente o tempo de execução ou os fracassos. (Só para dar um exemplo, um agente ontem "descobriu" que aumentar o tamanho oculto da rede melhora a perda de validação, o que é um resultado totalmente espúrio dado que uma rede maior terá uma perda de validação menor no regime de dados infinitos, mas também treina por muito mais tempo, não está claro por que precisei vir apontar isso). Eles são muito bons em implementar qualquer ideia bem definida e descrita, mas não a geram de forma criativa.
Mas o objetivo é que você esteja programando uma organização (por exemplo, uma "organização de pesquisa") e seus agentes individuais, então o "código-fonte" é a coleção de prompts, habilidades, ferramentas, etc. e processos que o compõem. Por exemplo, uma reunião diária de pé pela manhã agora faz parte do "código de organização". E otimizar o pré-treinamento do nanochat é apenas uma das muitas tarefas (quase como uma avaliação). Então – dado um tarefa arbitrária, quão rápido sua organização de pesquisa gera progresso nela?

Thomas Wolf28 de fev. de 2026
Por que o desafio do speedrun do NanoGPT ainda não é uma pesquisa totalmente automatizada por IA?
870
Com o tsunami de demanda por tokens que se aproxima, há oportunidades significativas para orquestrar a memória+computação subjacente *exatamente da perfeição* para os LLMs.
A restrição fundamental e não óbvia é que, devido ao processo de fabricação do chip, você obtém dois pools de memória completamente distintos (de implementações físicas diferentes também): 1) SRAM no chip, que fica imediatamente ao lado das unidades de computação, que é incrivelmente rápida, mas de capacidade muito baixa, e 2) DRAM off-chip que tem capacidade extremamente alta, mas cujo conteúdo só pode ser sugado por um canudo longo. Além disso, há muitos detalhes da arquitetura (por exemplo, arrays sistólicos), números, etc.
O design do substrato físico ótimo e depois a orquestração de memória+computação nos fluxos de trabalho de maior volume dos LLMs (inferência prepreenchimento/decodificação, treinamento/ajuste fino, etc.) com o melhor throughput/latência/$, é provavelmente o quebra-cabeça intelectual mais interessante de hoje, com as maiores recompensas (\cite 4,6T do NVDA). Tudo isso para conseguir muitos tokens, rápido e barato. Pode-se argumentar que o fluxo de trabalho que pode importar mais (decodificação por inferência *e* em contextos longos de tokens em loops agentivos apertados) é o mais difícil de alcançar simultaneamente pelos ~ambos os campos do que existe hoje (adjacente à NVIDIA primeiro HBM e Cerebras adjacente primeiro à SRAM). Enfim, a equipe do MatX tem nota A++, então é um prazer ter um pequeno envolvimento e parabéns pelo aumento!

Reiner Pope25 de fev. de 2026
Estamos construindo um chip LLM que entrega um throughput muito maior do que qualquer outro chip, ao mesmo tempo em que alcança a menor latência. Chamamos de MatX One.
O chip MatX One é baseado em uma matriz sistólica splittable, que possui a eficiência energética e de área pelas quais grandes matrizes sistólicas são famosas, além de obter alta utilização em matrizes menores com formas flexíveis. O chip combina a baixa latência dos projetos SRAM-first com o suporte de contexto longo do HBM. Esses elementos, além de uma nova abordagem numérica, entregam maior throughput em LLMs do que qualquer sistema anunciado, ao mesmo tempo em que igualam a latência dos projetos SRAM-first. Maior throughput e menor latência oferecem modelos mais inteligentes e rápidos pelo seu valor de assinatura.
Levantamos uma Série B de US$ 500 milhões para encerrar o desenvolvimento e rapidamente escalar a fabricação, com a tapeout em menos de um ano. A rodada foi liderada por Jane Street, uma das empresas mais tecnológicas de Wall Street, e pela Situational Awareness LP, cujo fundador @leopoldasch escreveu o memorando definitivo sobre AGI. Os participantes incluem @sparkcapital, @danielgross e @natfriedman's fund, @patrickc e @collision, @TriatomicCap, @HarpoonVentures, @karpathy, @dwarkesh_sp e outros. Também estamos recebendo investidores de toda a cadeia de suprimentos, incluindo Marvell e Alchip.
@MikeGunter_ e eu começamos a MatX porque achamos que o melhor chip para LLMs deveria ser projetado com base em princípios básicos, com um entendimento profundo do que os LLMs precisam e como eles irão evoluir. Estamos dispostos a abrir mão do desempenho de modelos pequenos, cargas de trabalho de baixo volume e até mesmo da facilidade de programação para entregar em um chip assim.
Agora somos uma equipe de 100 pessoas com pessoas que pensam em tudo, desde cronogramas de taxas de aprendizagem, até Agendamento Modulo de Swing, passando por bits/round/sticky, até conexões cegas — tudo no mesmo prédio. Se você quiser nos ajudar a arquitetar, projetar e implantar muitas gerações de chips em grande volume, considere se juntar a nós.
471
Melhores
Classificação
Favoritos
