Nueva investigación sobre la evaluación de agentes codificadores mediante integración continua. Los agentes de codificación están avanzando más allá de correcciones de errores aislados. Si van a poseer pipelines de CI, necesitamos benchmarks que reflejen la complejidad real del mantenimiento de la base de código. La mayoría de los benchmarks de agentes de codificación hoy en día prueban si un agente puede solucionar un solo problema. Pero la ingeniería de software real implica mantener bases de código completas a lo largo del tiempo. SWE-CI evalúa las capacidades de los agentes mediante flujos de trabajo de integración continua: ejecutando suites de pruebas, detectando regresiones y manteniendo la calidad del código a través de múltiples cambios. Papel: Aprende a crear agentes de IA efectivos en nuestra academia: