Новое исследование по оценке кодирующих агентов через непрерывную интеграцию. Кодирующие агенты выходят за рамки изолированных исправлений ошибок. Если они собираются управлять CI-пайплайнами, нам нужны эталоны, которые отражают реальную сложность обслуживания кодовой базы. Большинство эталонов кодирующих агентов сегодня проверяют, может ли агент исправить единственную проблему. Но реальная разработка программного обеспечения включает в себя обслуживание целых кодовых баз с течением времени. SWE-CI оценивает возможности агентов через рабочие процессы непрерывной интеграции: запуск тестовых наборов, выявление регрессий и поддержание качества кода при множественных изменениях. Статья: Научитесь создавать эффективных AI-агентов в нашей академии: