المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Connor Davis
مؤسس @getoutbox_ai
تعلم كيفية بناء الذكاء الاصطناعي Agents مجانا 👉 https://t.co/q9zPwlldZ4
نشر معهد ماساتشوستس للتكنولوجيا مؤخرا ورقة تشرح بهدوء لماذا يصطدم منطق ماجستير اللغة الكبيرة بالجدار وكيفية تجاوزه.
القصة المعتادة هي أن النماذج تفشل في المشكلات الصعبة لأنها تفتقر إلى الحجم أو البيانات أو الذكاء.
تجادل هذه الورقة بشيء أكثر هيكلية: النماذج تتوقف عن التحسن لأن إشارة التعلم تختفي. عندما تصبح المهمة صعبة جدا، تنهار معدلات النجاح نحو الصفر، ولا يكون هناك ما يتحسين، ويتوقف التفكير في التفكير. الفشل ليس معرفيا، بل تربوي.
يقترح المؤلفون إعادة صياغة بسيطة لكنها جذرية. بدلا من السؤال عن كيفية جعل النماذج تحل مشاكل أصعب، يسألون كيف يمكن للنماذج توليد مشاكل تعلمها.
نظامهم، SOAR، يقسم نموذجا واحدا مدربا مسبقا إلى دورين: طالب يحاول تنفيذ مهام صعبة للغاية، ومعلم يولد مشاكل تدريبية جديدة. المشكلة هي أن المعلم لا يكافأ على طرح أسئلة ذكية أو واقعية. يكافأ فقط إذا تحسن أداء الطالب في مجموعة ثابتة من مسائل التقييم الحقيقية. عدم وجود تحسن يعني صفر مكافأة.
هذا الحافز يعيد تشكيل كل شيء.
يتعلم المعلم توليد مسائل متوسطة ومرحلة انتقالية تقع ضمن حدود قدرة الطالب الحالية. هذه المشاكل ليست نسخا مبسطة من المهمة المستهدفة، والأكثر لافتة أنها لا تتطلب حتى حلولا صحيحة.
ما يهم هو أن هيكلها يجبر الطالب على ممارسة نوع الاستدلال الصحيح، مما يسمح بظهور إشارة تدرج حتى عندما يفشل الإشراف المباشر.
النتائج التجريبية توضح النقطة بشكل مؤلم. في اختبارات الأداء حيث تبدأ النماذج بدون نجاح وتعلم التعزيز القياسي بشكل كامل، يكسر SOAR الجمود ويحسن الأداء بشكل مستمر.
النموذج يخرج من حافة قابلية التعلم ليس بالتفكير العميق، بل ببناء بيئة تعلم أفضل لنفسه.
الدلالة الأعمق غير مريحة. العديد من "حدود التفكير" المفترضة قد لا تكون حدودا للذكاء على الإطلاق. هي آثار لأنظمة تدريب تفترض أن العالم يوفر مشكلات قابلة للتعلم مجانا.
تشير هذه الورقة إلى أنه إذا استطاعت النماذج تشكيل منهجها الخاص، فإن هضبات التفكير تصبح مشاكل هندسية وليست حواجز أساسية.
لا هياكل جديدة، ولا بيانات بشرية إضافية، ولا نماذج أكبر. مجرد تحول في ما نكافئه: التقدم في التعلم بدلا من الإجابات.

40
بئسًا... تشرح هذه الورقة بهدوء لماذا تنهار معظم نماذج "التفكير" بمجرد فصلها عن المعايير النظيفة وإسقاطها في العالم الحقيقي.
فريق LongCat يتناول سؤالا يستمر المجال في تفاديه: إذا كانت نماذج اليوم جيدة جدا في التفكير المنطقي، فلماذا لا تزال تفشل في سلوك الوكلاء الأساسي بمجرد تعطل الأدوات، أو تصبح التعليمات غير واضحة، أو مقاومة البيئات؟
إجابتهم غير مريحة. التفكير لا يفشل لأن سلاسل التفكير قصيرة جدا. يفشل لأننا دربنا التفكير بدون عواقب.
تقدم الورقة نموذج LongCat-Flash-Thinking-2601، وهو نموذج مزيج من الخبراء بقيمة 560B مبني حول فكرة بسيطة لكنها جذرية: يصبح التفكير موثوقا فقط عندما يجبر على التصرف، وملاحظة الفشل، والتكيف داخل بيئات حقيقية.
بدلا من التعامل مع الاستدلال كأنه توليد نصوص، يصيغونه كحلقة متكررة:
راقب → التخطيط → التصرف → الحصول على ملاحظات → المراجعة.
هذا التحول ينتشر في كل مكان. لم تعد البيانات مجرد أوامر ثابتة. التدريب ليس مسارات نظيفة. التقييم ليس إجابات من ضربة واحدة.
واحدة من أهم المساهمات هي توسيع البيئة. يقوم المؤلفون تلقائيا بإنشاء 10,000+ بيئة تنفيذية عبر 20+ نطاق، كل منها مبني على أدوات حقيقية، وقواعد بيانات حقيقية، ومسارات حلول متعددة صالحة. تزداد الصعوبة من الناحية الهيكلية، وليس بحركات سريعة ذكية.
والأهم من ذلك، أنها لا تعقم العالم. أعطال الأدوات، والتعليمات الغامضة، والمخرجات الجزئية، والتغذية الراجعة الصاخبة يتم ضخن عمدا. الضوضاء ليست مشكلة في الواقع. إنه المنهج الدراسي.
للحفاظ على استقرار التدريب على هذا المستوى، يتم تمديد التعلم التقهي غير المتزامن (DORA) للتعامل مع التفاعلات طويلة الأفق ومتعددة الأدوار مع عشرات الآلاف من البيئات المتزامنة دون أن تنهار.
عند وقت الاستدلال، يقدمون وضع التفكير الثقيل. بدلا من سلسلة طويلة من الأفكار، يسير النموذج على مسارات التفكير المتوازية ثم يتأمل عبرها قبل أن يتصرف. هذا يتفوق باستمرار على الاتساق الذاتي في المهام المعقدة والوكائية.
النتائج تتحدث بقوة. أداء متطور على BrowseComp، τ²-Bench، وVitaBench. رياضيات قوية وبرمجة ونتائج بحث. والأهم من ذلك، تدهور أقل بكثير في ظروف الضوضاء.
الخلاصة الحقيقية أشد من أي رقم مرجعي:
جودة التفكير لم تعد عنق الزجاجة.
التعميم هو.
والتعميم لا يأتي من محفزات أفضل أو أفكار أطول. بل يأتي من بيئات تدفع الهجوم.
إذا أردنا وكلاء يعملون خارج العروض التجريبية، علينا أن نتوقف عن تدريبهم في عوالم نظيفة وخيالية. الذكاء لا يصنع حيث تسير الأمور على ما يرام. إنه مصنوع حيث تنكسر الأشياء.
الورقة: التقرير الفني لونغ كات-فلاش-ثينكنغ-2601
اقرأ الورقة كاملة هنا على:

68
الأفضل
المُتصدِّرة
التطبيقات المفضلة

