Cercetări noi privind evaluarea agenților de codare prin integrare continuă. Agenții de codare depășesc remedierile izolate de erori. Dacă vor să dețină pipeline-uri CI, avem nevoie de benchmark-uri care să reflecte complexitatea reală a întreținerii bazei de cod. Majoritatea benchmark-urilor agenților de codare de astăzi testează dacă un agent poate rezolva o singură problemă. Dar ingineria software reală implică întreținerea întregilor baze de cod în timp. SWE-CI evaluează capabilitățile agenților prin fluxuri de lucru de integrare continue: rularea suitelor de testare, detectarea regresiilor și menținerea calității codului prin multiple modificări. Hârtie: Învață să construiești agenți AI eficienți în academia noastră: