Memperkenalkan EvoSkill: kerangka kerja yang menganalisis kegagalan agen dan secara otomatis membangun keterampilan yang hilang, yang mengarah pada peningkatan cepat pada tolok ukur yang sulit dan keterampilan yang dapat digeneralisasi di seluruh kasus penggunaan. +12.1% pada SealQA +7.3% untuk OfficeQA (SOTA) +5.3% di BrowseComp melalui transfer zero-shot dari SealQA Baca lebih lanjut di bawah ini 🧵
2/ Keterampilan agen adalah abstraksi yang kuat untuk memecahkan masalah cakrawala panjang, tetapi tidak dapat diskalakan dengan mudah Agen pengkodean (Claude Code, Codex, OpenHands) adalah pemecah tujuan umum yang kuat. Namun pada tugas khusus jangka panjang, kesalahan bertambah tanpa ketertelusuran dan keahlian khusus domain tidak ada. Keterampilan telah muncul sebagai metode abstraksi yang kuat untuk meningkatkan kinerja agen pada tugas dunia nyata, tetapi keterampilan saat ini dibuat dengan tangan secara ketat oleh para ahli. Kami telah menemukan jalan untuk mengotomatiskan pengembangan keterampilan yang andal.
3/ EvoSkill menerapkan turunan umpan balik tekstual untuk penemuan keterampilan Loop menjalankan tiga agen khusus: 1. Pelaksana: Mencoba sekumpulan tugas di bawah konfigurasi keterampilan saat ini 2. Pengusul: Menganalisis pelacakan yang gagal, mereferensikan riwayat umpan balik kumulatif dari proposal sebelumnya, dan mengidentifikasi kesenjangan kemampuan berdampak tertinggi 3. Pembangun Keterampilan: Mewujudkan proposal ke dalam folder keterampilan terstruktur (SKILL.md + skrip + referensi, dll...) Perbatasan Pareto dari konfigurasi top-N mengatur pemilihan, di mana hanya keterampilan yang meningkatkan validasi set pengujian yang bertahan.
4/ EvoSkill mencapai kinerja cepat hanya dengan menggunakan sebagian kecil dari data benchmark Kami menguji performa di tiga benchmark: 1. OfficeQA (penalaran atas korporasi besar): 60,6% → 67,9% (+7,3%) dan mencapai SOTA di semua sistem 2. SealQA (QA yang ditambah pencarian): 26,6% → 38,7% (+12,1%) 3. BrowseComp (pencarian fakta web terbuka): 43.5% → 48.8% (+5.3%); transfer tembakan nol dari keterampilan yang dikembangkan SealQA, tidak ada modifikasi Hasil BrowseComp berasal dari keterampilan yang dikembangkan pada SealQA (perumusan ulang kueri, verifikasi multi-sumber, persistensi pencarian terstruktur) yang mentransfer zero-shot ke tolok ukur dengan pertanyaan yang berbeda, distribusi kesulitan, dan kondisi pengambilan. Ini menunjukkan pengoptimalan tingkat keterampilan menghasilkan kemampuan umum domain daripada overfitting khusus tugas.
5/ Pengoptimalan tingkat keterampilan adalah abstraksi yang lebih baik untuk menghasilkan kemampuan yang dapat ditransfer lebih modular daripada petunjuk atau kode EvoSkill sepenuhnya open-source. Kami percaya keterampilan berada di tempat kritis yang tidak dapat dijangkau oleh prompt dan kode—cukup terstruktur untuk mengkodekan prosedur multi-langkah dengan logika/verifikasi percabangan, dan cukup mudah dibaca sehingga pengembang dapat memeriksa, mengedit, dan meneruskan ke agen yang berbeda pada model yang berbeda. Kami melanjutkan pekerjaan ini di domain yang lebih luas (pengkodean, multimodal) bekerja sama dengan Virginia Tech (@tuvllms, @noahpro99, Jaydon Bingham, dan @WeiyuanChen01) dan terbuka untuk kolaborasi dengan komunitas penelitian yang lebih luas.
141