Nova pesquisa sobre a avaliação de agentes de codificação através da integração contínua. Os agentes de codificação estão indo além de correções de bugs isoladas. Se eles vão assumir os pipelines de CI, precisamos de benchmarks que reflitam a verdadeira complexidade da manutenção da base de código. A maioria dos benchmarks de agentes de codificação hoje testa se um agente pode corrigir um único problema. Mas a verdadeira engenharia de software envolve a manutenção de bases de código inteiras ao longo do tempo. O SWE-CI avalia as capacidades dos agentes através de fluxos de trabalho de integração contínua: executando suítes de testes, capturando regressões e mantendo a qualidade do código em várias alterações. Artigo: Aprenda a construir agentes de IA eficazes em nossa academia: