Penelitian baru tentang evaluasi agen pengkodean melalui integrasi berkelanjutan. Agen pengkodean bergerak melampaui perbaikan bug yang terisolasi. Jika mereka akan memiliki alur CI, kami memerlukan tolok ukur yang mencerminkan kompleksitas aktual dari pemeliharaan basis kode. Sebagian besar tolok ukur agen pengkodean saat ini menguji apakah agen dapat memperbaiki satu masalah. Tetapi rekayasa perangkat lunak nyata melibatkan pemeliharaan seluruh basis kode dari waktu ke waktu. SWE-CI mengevaluasi kemampuan agen melalui alur kerja integrasi berkelanjutan: menjalankan rangkaian pengujian, menangkap regresi, dan mempertahankan kualitas kode di beberapa perubahan. Kertas: Pelajari cara membangun agen AI yang efektif di akademi kami: