Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Construyendo @EurekaLabsAI. Anteriormente Director de IA @ Tesla, equipo fundador @ OpenAI, CS231n/PhD @ Stanford. Me gusta entrenar grandes redes neuronales profundas.
Tuve la misma idea, así que he estado probándolo en nanochat. Por ejemplo, aquí hay 8 agentes (4 claude, 4 códex), con 1 GPU cada uno ejecutando experimentos nanochat (intentando eliminar el softcap de logit sin regresión). El resumen es que no funciona y es un desastre... Pero sigue siendo muy bonito de ver :)
Probé varias configuraciones: 8 investigadores independientes en solitario, 1 científico jefe dando trabajo a 8 investigadores junior, etc. Cada programa de investigación es una rama git, cada científico lo bifurca en una rama de funcionalidad, árboles de trabajo git para aislamiento, archivos simples para comunicaciones, salta Docker/VMs por simplicidad ahora mismo (encuentro que las instrucciones son suficientes para evitar interferencias). La organización de investigación funciona en cuadrículas de ventanas tmux de sesiones interactivas (como Teams) para que sea bonito de ver, ver su trabajo individual y "tomar el control" si es necesario, es decir, sin -p.
Pero vale, la razón por la que no funciona hasta ahora es que las ideas de los agentes son bastante malas desde el principio, incluso con la inteligencia más alta. No piensan cuidadosamente en el diseño de los experimentos, ejecutan variaciones un poco absurdas, no crean líneas base fuertes ni ablacionan las cosas correctamente, no controlan cuidadosamente el tiempo de ejecución o los flops. (Por ejemplo, ayer un agente "descubrió" que aumentar el tamaño oculto de la red mejora la pérdida de validación, lo cual es un resultado totalmente innecesario dado que una red más grande tendrá una pérdida de validación menor en el régimen de datos infinitos, pero además entrena mucho más tiempo, no está claro por qué tuve que intervenir para señalarlo). Son muy buenos implementando cualquier idea bien definida y descrita, pero no la generan creativamente.
Pero el objetivo es que ahora estés programando una organización (por ejemplo, una "organización de investigación") y sus agentes individuales, así que el "código fuente" es la colección de prompts, habilidades, herramientas, etc. y procesos que lo componen. Por ejemplo, una reunión diaria de pie por la mañana ahora forma parte del "código de organización". Y optimizar el preentrenamiento de nanochat es solo una de las muchas tareas (casi como una evaluación). Entonces, dada una tarea arbitraria, ¿qué tan rápido genera progresos en ella tu organización de investigación?

Thomas Wolf28 feb 2026
¿Por qué el reto de speedrun de NanoGPT no es ya una investigación completamente automatizada por IA?
889
Con el inminente tsunami de demanda de tokens, existen oportunidades significativas para orquestar la memoria subyacente + cálculo *justo a la perfección* para los LLMs.
La restricción fundamental y no obvia es que, debido al proceso de fabricación del chip, se obtienen dos pools de memoria completamente distintos (de diferentes implementaciones físicas también): 1) SRAM integrada que está justo al lado de las unidades de cálculo, que es increíblemente rápida pero de muy baja capacidad, y 2) DRAM fuera del chip que tiene una capacidad extremadamente alta, pero cuyo contenido solo puedes aspirar con una pajita larga. Además, hay muchos detalles de la arquitectura (por ejemplo, arrays sistólicos), números, etc.
El diseño del sustrato físico óptimo y luego la orquestación de memoria+computación a lo largo de los flujos de trabajo de mayor volumen de los LLMs (prellenado/decodificación de inferencia, entrenamiento/ajuste fino, etc.) con el mejor rendimiento de rendimiento/latencia/dinero es probablemente el puzle intelectual más interesante de hoy en día con las mayores recompensas (\cite 4,6T de NVDA). Todo para conseguir muchas fichas, rápido y barato. Se podría argumentar que el flujo de trabajo que más importe (decodificación por inferencia *y* sobre contextos largos de tokens en bucles agentivos ajustados) es el más difícil de lograr simultáneamente por los ~ambos bandos de lo que existe hoy en día (adyacente a NVIDIA primero con HBM y adyacente a Cerebras con SRAM primero). En fin, el equipo de MatX tiene un nivel A++, así que es un placer tener una pequeña participación y ¡enhorabuena por el aumento!

Reiner Pope25 feb 2026
Estamos construyendo un chip LLM que ofrece un rendimiento mucho mayor que cualquier otro chip y, al mismo tiempo, la latencia más baja. Lo llamamos MatX One.
El chip MatX One se basa en una matriz sistólica divisible, que tiene la eficiencia energética y de área por la que son famosas las matrices sistólicas grandes, además de obtener una alta utilización en matrices más pequeñas con formas flexibles. El chip combina la baja latencia de los diseños SRAM primero con el soporte de contexto largo de HBM. Estos elementos, junto con una nueva visión numérica, ofrecen un mayor rendimiento en los LLM que cualquier sistema anunciado, al tiempo que igualan la latencia de los diseños SRAM primero. Un mayor rendimiento y menor latencia te dan modelos más inteligentes y rápidos por tu dinero de suscripción.
Hemos recaudado una Serie B de 500 millones de dólares para finalizar el desarrollo y escalar rápidamente la fabricación, con el tapeout en menos de un año. La ronda estuvo liderada por Jane Street, una de las firmas más expertas en tecnología de Wall Street, y Situational Awareness LP, cuyo fundador @leopoldasch escribió el memorando definitivo sobre la AGI. Entre los participantes se encuentran @sparkcapital, @danielgross y @natfriedman's fund, @patrickc y @collision, @TriatomicCap, @HarpoonVentures, @karpathy, @dwarkesh_sp y otros. También damos la bienvenida a inversores de toda la cadena de suministro, incluyendo Marvell y Alchip.
@MikeGunter_ y yo fundamos MatX porque considerábamos que el mejor chip para LLMs debía diseñarse con principios básicos, con un profundo entendimiento de lo que los LLMs necesitan y cómo evolucionarán. Estamos dispuestos a renunciar al rendimiento de modelos pequeños, cargas de trabajo de bajo volumen e incluso facilidad de programación para cumplir con un chip así.
Ahora somos un equipo de 100 personas con personas que piensan en todo, desde los horarios de tasas de aprendizaje, hasta la programación Swing Modulo, los puntos de guardia/redondo/pegajoso, hasta las conexiones a ciegas—todo en el mismo edificio. Si quieres ayudarnos a diseñar, diseñar y desplegar muchas generaciones de chips en gran volumen, considera unirte a nosotros.
487
Populares
Ranking
Favoritas
