Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Neue Forschung zur Bewertung von Codierungsagenten über kontinuierliche Integration.
Codierungsagenten gehen über isolierte Fehlerbehebungen hinaus.
Wenn sie CI-Pipelines übernehmen sollen, benötigen wir Benchmarks, die die tatsächliche Komplexität der Wartung von Codebasen widerspiegeln.
Die meisten Benchmarks für Codierungsagenten testen heute, ob ein Agent ein einzelnes Problem beheben kann. Aber echte Softwareentwicklung umfasst die Wartung ganzer Codebasen über einen längeren Zeitraum.
SWE-CI bewertet die Fähigkeiten von Agenten durch kontinuierliche Integrations-Workflows: Ausführen von Test-Suiten, Erkennen von Regressionen und Aufrechterhalten der Codequalität über mehrere Änderungen hinweg.
Papier:
Lerne, effektive KI-Agenten in unserer Akademie zu entwickeln:

Top
Ranking
Favoriten
