Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Construyendo @EurekaLabsAI. Anteriormente Director de IA @ Tesla, equipo fundador @ OpenAI, CS231n/PhD @ Stanford. Me gusta entrenar grandes redes neuronales profundas.
Tuve el mismo pensamiento, así que he estado experimentando con ello en nanochat. Por ejemplo, aquí hay 8 agentes (4 claude, 4 codex), cada uno con 1 GPU ejecutando experimentos de nanochat (intentando eliminar el softcap de logit sin regresión). El resumen es que no funciona y es un desastre... pero sigue siendo muy bonito de ver :)
Probé algunas configuraciones: 8 investigadores independientes, 1 científico jefe dando trabajo a 8 investigadores junior, etc. Cada programa de investigación es una rama de git, cada científico la bifurca en una rama de características, git worktrees para aislamiento, archivos simples para comunicaciones, omitir Docker/VMs por simplicidad por ahora (encuentro que las instrucciones son suficientes para prevenir interferencias). La organización de investigación se ejecuta en cuadrículas de ventanas tmux de sesiones interactivas (como Teams) para que sea bonito de ver, ver su trabajo individual y "tomar el control" si es necesario, es decir, sin -p.
Pero bien, la razón por la que no funciona hasta ahora es que las ideas de los agentes son simplemente bastante malas desde el principio, incluso con la mayor inteligencia. No piensan cuidadosamente en el diseño del experimento, ejecutan variaciones un poco sin sentido, no crean bases sólidas y no ablationan las cosas correctamente, no controlan cuidadosamente el tiempo de ejecución o los flops. (solo como ejemplo, un agente ayer "descubrió" que aumentar el tamaño oculto de la red mejora la pérdida de validación, lo cual es un resultado totalmente espurio dado que una red más grande tendrá una menor pérdida de validación en el régimen de datos infinitos, pero luego también entrena durante mucho más tiempo, no está claro por qué tuve que intervenir para señalar eso). Son muy buenos implementando cualquier idea bien definida y descrita, pero no generan creativamente.
Pero el objetivo es que ahora estás programando una organización (por ejemplo, una "organización de investigación") y sus agentes individuales, así que el "código fuente" es la colección de prompts, habilidades, herramientas, etc. y procesos que la componen. Por ejemplo, una reunión diaria por la mañana ahora es parte del "código de la organización". Y optimizar el preentrenamiento de nanochat es solo una de las muchas tareas (casi como una evaluación). Entonces, dado un tarea arbitraria, ¿qué tan rápido genera progreso tu organización de investigación en ella?

Thomas Wolf28 feb 2026
¿Por qué el desafío de speedrun de NanoGPT no está completamente automatizado por IA en la investigación hasta ahora?
904
Con la inminente ola de demanda de tokens, hay oportunidades significativas para orquestar la memoria y el procesamiento subyacentes *justo bien* para los LLMs.
La restricción fundamental y no obvia es que, debido al proceso de fabricación de chips, obtienes dos grupos de memoria completamente distintos (de diferentes implementaciones físicas también): 1) SRAM en chip que está inmediatamente al lado de las unidades de procesamiento, que es increíblemente rápida pero de muy baja capacidad, y 2) DRAM fuera del chip, que tiene una capacidad extremadamente alta, pero cuyo contenido solo puedes extraer a través de una pajita larga. Además de esto, hay muchos detalles de la arquitectura (por ejemplo, arreglos sistólicos), numéricos, etc.
El diseño del sustrato físico óptimo y luego la orquestación de memoria y procesamiento a través de los flujos de trabajo de volumen superior de los LLMs (inferencia, prellenado/decodificación, entrenamiento/ajuste fino, etc.) con el mejor rendimiento/latencia/$ es probablemente el rompecabezas intelectual más interesante de hoy con las mayores recompensas (\cite 4.6T de NVDA). Todo esto para obtener muchos tokens, rápido y barato. Se podría argumentar que el flujo de trabajo que puede importar más (decodificación de inferencia *y* sobre contextos de tokens largos en bucles agenciales ajustados) es el que más difícil es de lograr simultáneamente por los ~dos grupos de lo que existe hoy (NVIDIA adyacente a HBM primero y Cerebras adyacente a SRAM primero). De todos modos, el equipo de MatX es de grado A++, así que es un placer tener una pequeña participación y ¡felicitaciones por la recaudación!

Reiner Pope25 feb 2026
Estamos construyendo un chip LLM que ofrece un rendimiento mucho mayor que cualquier otro chip, al mismo tiempo que logra la latencia más baja. Lo llamamos MatX One.
El chip MatX One se basa en un arreglo sistólico divisible, que tiene la eficiencia energética y de área por la que son famosos los grandes arreglos sistólicos, mientras que también logra una alta utilización en matrices más pequeñas con formas flexibles. El chip combina la baja latencia de los diseños con SRAM primero con el soporte de contexto largo de HBM. Estos elementos, más un enfoque renovado en la aritmética, ofrecen un mayor rendimiento en LLMs que cualquier sistema anunciado, mientras que simultáneamente igualan la latencia de los diseños con SRAM primero. Un mayor rendimiento y una menor latencia te brindan modelos más inteligentes y rápidos por tu dinero de suscripción.
Hemos recaudado $500M en una Serie B para finalizar el desarrollo y escalar rápidamente la fabricación, con el tapeout en menos de un año. La ronda fue liderada por Jane Street, una de las firmas más tecnológicas de Wall Street, y Situational Awareness LP, cuyo fundador @leopoldasch escribió el memorando definitivo sobre AGI. Los participantes incluyen a @sparkcapital, @danielgross y el fondo de @natfriedman, @patrickc y @collision, @TriatomicCap, @HarpoonVentures, @karpathy, @dwarkesh_sp, y otros. También estamos dando la bienvenida a inversores a lo largo de la cadena de suministro, incluyendo a Marvell y Alchip.
@MikeGunter_ y yo comenzamos MatX porque sentimos que el mejor chip para LLMs debería ser diseñado desde los primeros principios con una profunda comprensión de lo que los LLMs necesitan y cómo evolucionarán. Estamos dispuestos a renunciar al rendimiento de modelos pequeños, cargas de trabajo de bajo volumen e incluso a la facilidad de programación para entregar un chip así.
Ahora somos un equipo de 100 personas que piensan en todo, desde horarios de tasa de aprendizaje, hasta programación de Swing Modulo, hasta bits de guardia/redondeo/adherentes, hasta conexiones ciegas, todo en el mismo edificio. Si deseas ayudarnos a arquitectar, diseñar y desplegar muchas generaciones de chips en gran volumen, considera unirte a nosotros.
498
Parte superior
Clasificación
Favoritos
