المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
بحث جديد حول تقييم وكلاء الترميز عبر التكامل المستمر.
وكلاء البرمجة يتجاوزون الإصلاحات المعزولة للأخطاء فقط.
إذا كانوا سيمتلكون خطوط أنابيب CI، نحتاج إلى معايير تعكس التعقيد الفعلي لصيانة قاعدة الكود.
معظم اختبارات وكيل البرمجة اليوم تختبر ما إذا كان الوكيل قادرا على إصلاح مشكلة واحدة. لكن هندسة البرمجيات الحقيقية تتطلب الحفاظ على قواعد شيفرة كاملة مع مرور الوقت.
يقوم SWE-CI بتقييم قدرات الوكلاء من خلال سير عمل التكامل المستمر: تشغيل مجموعات الاختبار، التقاط الانحدارات، والحفاظ على جودة الكود عبر عدة تغييرات.
الورقة:
تعلم كيفية بناء وكلاء ذكاء اصطناعي فعالين في أكاديميتنا:

الأفضل
المُتصدِّرة
التطبيقات المفضلة
