Nieuw onderzoek naar het evalueren van coderingsagenten via continue integratie. Coderingsagenten gaan verder dan geïsoleerde bugfixes. Als ze de CI-pijplijnen gaan beheren, hebben we benchmarks nodig die de werkelijke complexiteit van het onderhoud van de codebasis weerspiegelen. De meeste benchmarks voor coderingsagenten testen vandaag de dag of een agent een enkel probleem kan oplossen. Maar echte software-engineering omvat het onderhouden van volledige codebases in de loop van de tijd. SWE-CI evalueert de capaciteiten van agenten via continue integratieworkflows: het uitvoeren van testpakketten, het opvangen van regressies en het handhaven van de codekwaliteit over meerdere wijzigingen heen. Paper: Leer effectieve AI-agenten te bouwen in onze academie: