Nový výzkum v oblasti hodnocení kódujících agentů pomocí kontinuální integrace. Kódující agenti se posouvají dál než k izolovaným opravám chyb. Pokud budou vlastnit CI pipeline, potřebujeme benchmarky, které odrážejí skutečnou složitost údržby kódové základny. Většina dnešních benchmarků pro agenty kódování testuje, zda agent dokáže opravit jeden problém. Ale skutečné softwarové inženýrství znamená udržování celých kódových základen v průběhu času. SWE-CI hodnotí schopnosti agentů prostřednictvím postupů kontinuální integrace: spouštění testovacích sad, zachycení regresí a udržování kvality kódu při více změnách. Článek: Naučte se vytvářet efektivní AI agenty v naší akademii: