Ny forskning på evaluering av kodingsagenter via kontinuerlig integrasjon. Kodingsagenter beveger seg utover isolerte feilrettinger. Hvis de skal eie CI-pipelines, trenger vi benchmarks som reflekterer den faktiske kompleksiteten i vedlikehold av kodebasen. De fleste kodeagent-benchmarks i dag tester om en agent kan løse et enkelt problem. Men ekte programvareutvikling innebærer å vedlikeholde hele kodebaser over tid. SWE-CI evaluerer agenters kapasiteter gjennom kontinuerlige integrasjonsarbeidsflyter: kjøring av testsuiter, fange regresjoner og opprettholde kodekvalitet gjennom flere endringer. Artikkel: Lær å bygge effektive AI-agenter i vår akademi: