Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Cercetări noi privind evaluarea agenților de codare prin integrare continuă.
Agenții de codare depășesc remedierile izolate de erori.
Dacă vor să dețină pipeline-uri CI, avem nevoie de benchmark-uri care să reflecte complexitatea reală a întreținerii bazei de cod.
Majoritatea benchmark-urilor agenților de codare de astăzi testează dacă un agent poate rezolva o singură problemă. Dar ingineria software reală implică întreținerea întregilor baze de cod în timp.
SWE-CI evaluează capabilitățile agenților prin fluxuri de lucru de integrare continue: rularea suitelor de testare, detectarea regresiilor și menținerea calității codului prin multiple modificări.
Hârtie:
Învață să construiești agenți AI eficienți în academia noastră:

Limită superioară
Clasament
Favorite
