بحث جديد حول تقييم وكلاء الترميز عبر التكامل المستمر. وكلاء البرمجة يتجاوزون الإصلاحات المعزولة للأخطاء فقط. إذا كانوا سيمتلكون خطوط أنابيب CI، نحتاج إلى معايير تعكس التعقيد الفعلي لصيانة قاعدة الكود. معظم اختبارات وكيل البرمجة اليوم تختبر ما إذا كان الوكيل قادرا على إصلاح مشكلة واحدة. لكن هندسة البرمجيات الحقيقية تتطلب الحفاظ على قواعد شيفرة كاملة مع مرور الوقت. يقوم SWE-CI بتقييم قدرات الوكلاء من خلال سير عمل التكامل المستمر: تشغيل مجموعات الاختبار، التقاط الانحدارات، والحفاظ على جودة الكود عبر عدة تغييرات. الورقة: تعلم كيفية بناء وكلاء ذكاء اصطناعي فعالين في أكاديميتنا: