Santo cielo... Este documento explica en silencio por qué la mayoría de los modelos de “razonamiento” se desmoronan en el momento en que los desconectas de bancos de pruebas limpios y los lanzas al mundo real. El equipo de LongCat aborda una pregunta que el campo sigue esquivando: si los modelos de hoy son tan buenos en razonamiento, ¿por qué aún fallan en comportamientos básicos de agentes una vez que las herramientas fallan, las instrucciones se vuelven confusas o los entornos se resisten? Su respuesta es incómoda. El razonamiento no falla porque las cadenas de pensamiento sean demasiado cortas. Falla porque entrenamos el pensamiento sin consecuencias. El documento presenta LongCat-Flash-Thinking-2601, un modelo Mixture-of-Experts de 560B parámetros construido en torno a una idea simple pero radical: el razonamiento solo se vuelve fiable cuando se ve obligado a actuar, observar fallos y adaptarse dentro de entornos reales. En lugar de tratar el razonamiento como generación de texto, lo enmarcan como un bucle: observar → planear → actuar → recibir retroalimentación → revisar. Ese cambio tiene repercusiones en todas partes. Los datos ya no son indicaciones estáticas. El entrenamiento no son trayectorias limpias. La evaluación no son respuestas de una sola vez. Una de las contribuciones más importantes es la escalabilidad del entorno. Los autores generan automáticamente más de 10,000 entornos ejecutables en más de 20 dominios, cada uno basado en herramientas reales, bases de datos reales y múltiples caminos de solución válidos. La dificultad aumenta estructuralmente, no por trucos ingeniosos de indicaciones. Crucialmente, no sanitizan el mundo. Fallos de herramientas, instrucciones ambiguas, salidas parciales y retroalimentación ruidosa son inyectadas deliberadamente. El ruido no es un error. Es el currículo. Para mantener el entrenamiento estable a esta escala, extienden el RL asíncrono (DORA) para manejar interacciones de largo horizonte y múltiples turnos con decenas de miles de entornos concurrentes sin colapsar. En el momento de la inferencia, introducen el Modo de Pensamiento Pesado. En lugar de una larga cadena de pensamiento, el modelo ejecuta caminos de razonamiento paralelos y luego reflexiona sobre ellos antes de actuar. Esto supera consistentemente la auto-consistencia en tareas complejas y agenciales. Los resultados hablan por sí mismos. Rendimiento de vanguardia en BrowseComp, τ²-Bench y VitaBench. Fuertes resultados en matemáticas, codificación y búsqueda. Y lo más importante, mucha menos degradación en condiciones ruidosas. La verdadera conclusión es más aguda que cualquier número de referencia: La calidad del razonamiento ya no es el cuello de botella. La generalización lo es. Y la generalización no proviene de mejores indicaciones o pensamientos más largos. Proviene de entornos que se resisten....