Nuove ricerche sulla valutazione degli agenti di codifica tramite integrazione continua. Gli agenti di codifica stanno andando oltre le correzioni di bug isolate. Se devono gestire le pipeline CI, abbiamo bisogno di benchmark che riflettano la reale complessità della manutenzione del codice. La maggior parte dei benchmark degli agenti di codifica oggi testa se un agente può risolvere un singolo problema. Ma la vera ingegneria del software implica la manutenzione di interi codici nel tempo. SWE-CI valuta le capacità degli agenti attraverso flussi di lavoro di integrazione continua: eseguendo suite di test, catturando regressioni e mantenendo la qualità del codice attraverso più modifiche. Documento: Impara a costruire agenti AI efficaci nella nostra accademia: