Novas pesquisas sobre avaliação de agentes codificadores por meio de integração contínua. Os agentes de codificação estão indo além de correções de bugs isolados. Se eles vão possuir pipelines de CI, precisamos de benchmarks que reflitam a complexidade real da manutenção da base de código. A maioria dos benchmarks de agentes de codificação hoje testa se um agente consegue corrigir um único problema. Mas a engenharia de software de verdade envolve manter bases de código inteiras ao longo do tempo. O SWE-CI avalia as capacidades dos agentes por meio de fluxos de trabalho contínuos de integração: executando suítes de testes, detectando regressões e mantendo a qualidade do código em múltiplas alterações. Papel: Aprenda a construir agentes de IA eficazes em nossa academia: