Neue Forschung zur Bewertung von Codierungsagenten über kontinuierliche Integration. Codierungsagenten gehen über isolierte Fehlerbehebungen hinaus. Wenn sie CI-Pipelines übernehmen sollen, benötigen wir Benchmarks, die die tatsächliche Komplexität der Wartung von Codebasen widerspiegeln. Die meisten Benchmarks für Codierungsagenten testen heute, ob ein Agent ein einzelnes Problem beheben kann. Aber echte Softwareentwicklung umfasst die Wartung ganzer Codebasen über einen längeren Zeitraum. SWE-CI bewertet die Fähigkeiten von Agenten durch kontinuierliche Integrations-Workflows: Ausführen von Test-Suiten, Erkennen von Regressionen und Aufrechterhalten der Codequalität über mehrere Änderungen hinweg. Papier: Lerne, effektive KI-Agenten in unserer Akademie zu entwickeln: