Vay canına... Bu makale, çoğu "akıl yürütme" modelinin temiz kıyaslamalardan çıkarılıp gerçek dünyaya atıldığında neden dağıldığını, sessizce açıklıyor. LongCat ekibi, alanın sürekli kaçındığı bir soruyu ele alıyor: Günümüz modelleri akıl yürütmede bu kadar iyiyse, araçlar bozulduğunda, talimatlar bulanıklaştığında veya ortamlar geri itildiğinde neden temel ajan davranışında başarısız oluyorlar? Cevapları rahatsız edici. Akıl yürütme başarısız olmaz çünkü düşünce zincirleri çok kısa olur. Sonuçsuz düşünmeyi eğitdiğimiz için başarısız oldu. Makale, basit ama radikal bir fikir etrafında inşa edilmiş 560B parametreli Uzmanlar Karışımı modeli olan LongCat-Flash-Thinking-2601'i tanıtıyor: akıl yürütme ancak gerçek ortamlarda harekete geçmek, başarısızlığı gözlemlemek ve uyum sağlamak zorunda kaldığında güvenilir hale gelir. Akıl yürütmeyi metin üretimi olarak ele almak yerine, bunu bir döngü şeklinde çerçeveliyorlar: Gözlemleyin→ plan → harekete geçin→ geri bildirim alın → gözden geçirin. Bu değişim her yerde dalgalanıyor. Veri artık statik istemler değil. Eğitim temiz bir yol değil. Değerlendirme tek soru cevaplar değildir. En önemli katkılardan biri çevresel ölçeklendirmedir. Yazarlar, her biri gerçek araçlara, gerçek veritabanlarına ve birden fazla geçerli çözüm yoluna dayanan 20+ alan boyunca 10.000+ çalıştırılabilir ortam otomatik olarak üretir. Zorluk yapısal olarak artar, zekice yönlendirme numaralarıyla değil. En önemlisi, dünyayı dezenfekte etmiyorlar. Araç arızaları, belirsiz talimatlar, kısmi çıkışlar ve gürültülü geri bildirim kasıtlı olarak enjekte edilir. Gürültü bir hata değildir. Müfredatın özüdür. Bu ölçekte eğitimi istikrarlı tutmak için, on binlerce eşzamanlı ortamla uzun ufuklu, çok dönüşlü etkileşimleri çökmeden yönetecek asenkron RL (DORA) sunurlar. Çıkarım zamanında, Ağır Düşünme Modu tanıtılır. Uzun bir düşünce zinciri yerine, model paralel akıl yürütme yolları yürütür ve harekete geçmeden önce bunlar üzerinde yansıtılır. Bu, karmaşık, ajanik görevlerde sürekli olarak öz-tutarlılığı geride bırakıyor. Sonuçlar çok sesli. BrowseComp, τ²-Bench ve VitaBench platformlarında son teknoloji performans. Güçlü matematik, kodlama ve arama sonuçları. Ve en önemlisi, gürültülü koşullarda bozulma çok daha az. Asıl çıkarım herhangi bir kıyaslama rakamından daha keskin: Artık mantık kalitesi darboğaz değil. Genelleştirme ise bu. Ve genelleme daha iyi önerilerden ya da uzun düşüncelerden gelmez. Geri iten ortamlardan gelir....