關於通過持續集成評估編碼代理的新研究。 編碼代理正在超越孤立的錯誤修復。 如果他們要擁有 CI 管道,我們需要反映代碼庫維護實際複雜性的基準。 目前大多數編碼代理基準測試代理是否能修復單一問題。但真正的軟體工程涉及隨著時間維護整個代碼庫。 SWE-CI 通過持續集成工作流程評估代理能力:運行測試套件、捕捉回歸和在多次變更中維護代碼質量。 論文: 在我們的學院學習如何構建有效的 AI 代理: