المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
بئسًا... تشرح هذه الورقة بهدوء لماذا تنهار معظم نماذج "التفكير" بمجرد فصلها عن المعايير النظيفة وإسقاطها في العالم الحقيقي.
فريق LongCat يتناول سؤالا يستمر المجال في تفاديه: إذا كانت نماذج اليوم جيدة جدا في التفكير المنطقي، فلماذا لا تزال تفشل في سلوك الوكلاء الأساسي بمجرد تعطل الأدوات، أو تصبح التعليمات غير واضحة، أو مقاومة البيئات؟
إجابتهم غير مريحة. التفكير لا يفشل لأن سلاسل التفكير قصيرة جدا. يفشل لأننا دربنا التفكير بدون عواقب.
تقدم الورقة نموذج LongCat-Flash-Thinking-2601، وهو نموذج مزيج من الخبراء بقيمة 560B مبني حول فكرة بسيطة لكنها جذرية: يصبح التفكير موثوقا فقط عندما يجبر على التصرف، وملاحظة الفشل، والتكيف داخل بيئات حقيقية.
بدلا من التعامل مع الاستدلال كأنه توليد نصوص، يصيغونه كحلقة متكررة:
راقب → التخطيط → التصرف → الحصول على ملاحظات → المراجعة.
هذا التحول ينتشر في كل مكان. لم تعد البيانات مجرد أوامر ثابتة. التدريب ليس مسارات نظيفة. التقييم ليس إجابات من ضربة واحدة.
واحدة من أهم المساهمات هي توسيع البيئة. يقوم المؤلفون تلقائيا بإنشاء 10,000+ بيئة تنفيذية عبر 20+ نطاق، كل منها مبني على أدوات حقيقية، وقواعد بيانات حقيقية، ومسارات حلول متعددة صالحة. تزداد الصعوبة من الناحية الهيكلية، وليس بحركات سريعة ذكية.
والأهم من ذلك، أنها لا تعقم العالم. أعطال الأدوات، والتعليمات الغامضة، والمخرجات الجزئية، والتغذية الراجعة الصاخبة يتم ضخن عمدا. الضوضاء ليست مشكلة في الواقع. إنه المنهج الدراسي.
للحفاظ على استقرار التدريب على هذا المستوى، يتم تمديد التعلم التقهي غير المتزامن (DORA) للتعامل مع التفاعلات طويلة الأفق ومتعددة الأدوار مع عشرات الآلاف من البيئات المتزامنة دون أن تنهار.
عند وقت الاستدلال، يقدمون وضع التفكير الثقيل. بدلا من سلسلة طويلة من الأفكار، يسير النموذج على مسارات التفكير المتوازية ثم يتأمل عبرها قبل أن يتصرف. هذا يتفوق باستمرار على الاتساق الذاتي في المهام المعقدة والوكائية.
النتائج تتحدث بقوة. أداء متطور على BrowseComp، τ²-Bench، وVitaBench. رياضيات قوية وبرمجة ونتائج بحث. والأهم من ذلك، تدهور أقل بكثير في ظروف الضوضاء.
الخلاصة الحقيقية أشد من أي رقم مرجعي:
جودة التفكير لم تعد عنق الزجاجة.
التعميم هو.
والتعميم لا يأتي من محفزات أفضل أو أفكار أطول. بل يأتي من بيئات تدفع الهجوم....

الأفضل
المُتصدِّرة
التطبيقات المفضلة
