DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Cercetări noi privind evaluarea agenților de codare prin integrare continuă. Agenții de codare depășesc remedierile izolate de erori. Dacă vor să dețină pipeline-uri CI, avem nevoie de benchmark-uri care să reflecte complexitatea reală a întreținerii bazei de cod. Majoritatea benchmark-urilor agenților de codare de astăzi testează dacă un agent poate rezolva o singură problemă. Dar ingineria software reală implică întreținerea întregilor baze de cod în timp. SWE-CI evaluează capabilitățile agenților prin fluxuri de lucru de integrare continue: rularea suitelor de testare, detectarea regresiilor și menținerea calității codului prin multiple modificări. Hârtie: Învață să construiești agenți AI eficienți în academia noastră:

Limită superioară

Clasament

Favorite