DApp Mağazası | Etkinlikler ve Oyunlar için Web3 Merkezi

Trend Olan Konular

Connor Davis

@getoutbox_ai kurucusu Ücretsiz 👉 olarak AI Ajanları nasıl oluşturulacağını öğrenin https://t.co/q9zPwlldZ4

MIT, LLM mantığının neden duvara vurulduğunu ve bunu nasıl aşacağını sessizce açıklayan bir makale yayımladı. Yaygın hikaye, modellerin ölçek, veri veya zeka eksikliği nedeniyle zor problemlerde başarısız olduğudur. Bu makale çok daha yapısal bir şeyi savunuyor: modeller gelişmeyi durduruyor çünkü öğrenme sinyali kayboluyor. Bir görev çok zorlaştığında, başarı oranları sıfıra düşer, pekiştirme öğrenmenin optimize edecek hiçbir şeyi kalmaz ve akıl yürütme durağanlaşır. Başarısızlık bilişsel değil, pedagojiktir. Yazarlar basit ama radikal bir yeniden çerçeveleme öneriyor. Modellerin daha zor problemleri nasıl çözeceğini sormak yerine, modellerin kendilerine öğreten problemleri nasıl üretebileceğini sorarlar. Sistemleri olan SOAR, tek bir önceden eğitilmiş modeli iki role ayırıyor: son derece zor hedeflere başvuran öğrenci ve yeni eğitim problemleri üreten bir öğretmen. Sorun şu ki, öğretmen zekice veya gerçekçi sorular ürettiği için ödüllendirilmiyor. Yalnızca öğrencinin performansı sabit bir gerçek değerlendirme problemi setinde iyileşirse ödüllendirilir. Gelişme olmadan, hiç ödül demek. Bu teşvik her şeyi yeniden şekillendiriyor. Öğretmen, öğrencinin mevcut yetenek sınırları içinde yer alan orta seviye, basamak taşı problemleri oluşturmayı öğrenir. Bu sorunlar, hedef görevin basitleştirilmiş versiyonları değildir ve dikkat çekici bir şekilde, doğru çözümler bile gerektirmezler. Önemli olan, yapılarının öğrenciyi doğru türde akıl yürütmeyi uygulamaya zorlamasıdır; böylece doğrudan denetim başarısız olsa bile gradyan sinyalinin ortaya çıkmasına izin verir. Deneysel sonuçlar bu noktayı acı verici şekilde netleştiriyor. Modellerin sıfır başarıyla başladığı ve standart güçlendirme öğrenmenin tamamen düz durduğu benchmarklarda, SOAR çıkmazı kırıyor ve performansı istikrarlı bir şekilde iyileştiriyor. Model, öğrenilebilirlik sınırını daha iyi düşünerek değil, kendisi için daha iyi bir öğrenme ortamı inşa ederek kaçırır. Daha derin ima ise rahatsız edici. Birçok sözde "akıl yürütme sınırı" zekanın sınırları olmayabilir. Bunlar, dünyanın ücretsiz öğrenilebilir problemler sunduğunu varsayan eğitim sistemlerinin eserleridir. Bu makale, modellerin kendi müfredatlarını şekillendirebilseydi, akıl yürütme platolarının temel engeller değil, mühendislik problemlerine dönüştüğünü öne sürüyor. Yeni mimariler yok, ekstra insan verisi, daha büyük modeller yok. Sadece ödüllendirdiğimiz şeyde bir değişim: cevaplar yerine öğrenme ilerlemesi.

Vay canına... Bu makale, çoğu "akıl yürütme" modelinin temiz kıyaslamalardan çıkarılıp gerçek dünyaya atıldığında neden dağıldığını, sessizce açıklıyor. LongCat ekibi, alanın sürekli kaçındığı bir soruyu ele alıyor: Günümüz modelleri akıl yürütmede bu kadar iyiyse, araçlar bozulduğunda, talimatlar bulanıklaştığında veya ortamlar geri itildiğinde neden temel ajan davranışında başarısız oluyorlar? Cevapları rahatsız edici. Akıl yürütme başarısız olmaz çünkü düşünce zincirleri çok kısa olur. Sonuçsuz düşünmeyi eğitdiğimiz için başarısız oldu. Makale, basit ama radikal bir fikir etrafında inşa edilmiş 560B parametreli Uzmanlar Karışımı modeli olan LongCat-Flash-Thinking-2601'i tanıtıyor: akıl yürütme ancak gerçek ortamlarda harekete geçmek, başarısızlığı gözlemlemek ve uyum sağlamak zorunda kaldığında güvenilir hale gelir. Akıl yürütmeyi metin üretimi olarak ele almak yerine, bunu bir döngü şeklinde çerçeveliyorlar: Gözlemleyin→ plan → harekete geçin→ geri bildirim alın → gözden geçirin. Bu değişim her yerde dalgalanıyor. Veri artık statik istemler değil. Eğitim temiz bir yol değil. Değerlendirme tek soru cevaplar değildir. En önemli katkılardan biri çevresel ölçeklendirmedir. Yazarlar, her biri gerçek araçlara, gerçek veritabanlarına ve birden fazla geçerli çözüm yoluna dayanan 20+ alan boyunca 10.000+ çalıştırılabilir ortam otomatik olarak üretir. Zorluk yapısal olarak artar, zekice yönlendirme numaralarıyla değil. En önemlisi, dünyayı dezenfekte etmiyorlar. Araç arızaları, belirsiz talimatlar, kısmi çıkışlar ve gürültülü geri bildirim kasıtlı olarak enjekte edilir. Gürültü bir hata değildir. Müfredatın özüdür. Bu ölçekte eğitimi istikrarlı tutmak için, on binlerce eşzamanlı ortamla uzun ufuklu, çok dönüşlü etkileşimleri çökmeden yönetecek asenkron RL (DORA) sunurlar. Çıkarım zamanında, Ağır Düşünme Modu tanıtılır. Uzun bir düşünce zinciri yerine, model paralel akıl yürütme yolları yürütür ve harekete geçmeden önce bunlar üzerinde yansıtılır. Bu, karmaşık, ajanik görevlerde sürekli olarak öz-tutarlılığı geride bırakıyor. Sonuçlar çok sesli. BrowseComp, τ²-Bench ve VitaBench platformlarında son teknoloji performans. Güçlü matematik, kodlama ve arama sonuçları. Ve en önemlisi, gürültülü koşullarda bozulma çok daha az. Asıl çıkarım herhangi bir kıyaslama rakamından daha keskin: Artık mantık kalitesi darboğaz değil. Genelleştirme ise bu. Ve genelleme daha iyi önerilerden ya da uzun düşüncelerden gelmez. Geri iten ortamlardan gelir. Demo dışında çalışan ajanlar istiyorsan, onları temiz, hayali dünyalarda eğitmeyi bırakmalıyız. Zeka, her şeyin doğru gittiği yerde şekillendirilmez. Bir şeylerin kırıldığı yerde dövülür. Makale: LongCat-Flash-Thinking-2601 Teknik Raporu Tam makaleyi buradan okuyabilirsiniz:

En İyiler

Sıralama

Takip Listesi