نقدم EvoSkill: إطار عمل يحلل فشل الوكلاء ويبني المهارات المفقودة تلقائيا، مما يؤدي إلى تحسين سريع في المعايير الصعبة والمهارات القابلة للتعميم عبر حالات الاستخدام. +12.1٪ على SealQA +7.3٪ في OfficeQA (SOTA) +5.3٪ على BrowseComp عبر نقل الطلقات الصفرية من SealQA اقرأ المزيد أدناه 🧵
2/ مهارات الوكيل هي تجريد قوي لحل المشكلات ذات الأفق البعيد، لكنها لا يمكن أن تتوسع بسهولة وكلاء البرمجة (كلود كود، كودكس، أوبن هاندز) هم محللون أقوياء للأغراض العامة. ومع ذلك، في المهام المتخصصة ذات الأفق البعيد، تتراكم الأخطاء بدون إمكانية التتبع، وتكون الخبرة الخاصة بالمجال غائبة. ظهرت المهارات كطريقة تجريدية قوية لتحسين أداء الوكلاء في المهام الواقعية، لكن مهارات اليوم مصممة يدويا بدقة من قبل خبراء. لقد اكتشفنا طريقا لأتمتة تطوير المهارات بشكل موثوق.
3/ تطبيق EvoSkill النزول عبر التغذية الراجعة النصية على اكتشاف المهارات تشغل الحلقة ثلاثة عوامل متخصصة: 1. المنفذ: يحاول دفعة من المهام ضمن تكوين المهارة الحالي 2. المقترح: يحلل الآثار الفاشلة، ويقارن تاريخ التغذية الراجعة التراكمي للمقترحات السابقة، ويحدد فجوة القدرات الأعلى تأثيرا 3. بناء المهارات: يجسد الاقتراح في مجلد مهارات منظم (SKILL.md + السكريبتات + المراجع، إلخ...) حدود باريتو من تكوينات Top-N تحكم الاختيار، حيث تبقى فقط المهارات التي تحسن في التحقق من مجموعة الاختبار.
4/ تحقق EvoSkill أداء سريعا باستخدام جزء بسيط فقط من بيانات المعيار اختبرنا الأداء عبر ثلاثة معايير قياسية: 1. OfficeQA (الاستدلال على الكوربورات الكبيرة): 60.6٪ → 67.9٪ (+7.3٪) وتحقيق SOTA عبر جميع الأنظمة 2. SealQA (ضمان الجودة المعزز بالبحث): 26.6٪ → 38.7٪ (+12.1٪) 3. BrowseComp (البحث عن الحقائق على الويب المفتوح): 43.5٪ → 48.8٪ (+5.3٪); نقل بدون طلقة من مهارات SealQA، بدون تعديل نشأت نتيجة BrowseComp من مهارات تطورت في SealQA (إعادة صياغة الاستعلام، التحقق من مصادر متعددة، استمرارية البحث المنظم) التي تنقل الطلقة الصفرية إلى معيار مختلف مع أسئلة مختلفة، وتوزيع صعوبة، وشروط استرجاع مختلفة. هذا يشير إلى أن تحسين مستوى المهارة ينتج قدرات عامة في المجال بدلا من الإفراط في التوافق الخاص.
5/ تحسين مستوى المهارة هو تجريد أفضل لإنتاج قدرات قابلة للنقل أكثر مرونة من الأوامر أو الكود EvoSkill مفتوح المصدر بالكامل. نعتقد أن المهارات تقع في نقطة حرجة لا تستطيع التعليمات والكود الوصول إليها—منظمة بما يكفي لترميز إجراءات متعددة الخطوات مع منطق/تحقق متفرع، وقابلة للقراءة بما يكفي ليتمكن المطور من الفحص والتحرير وتمريرها إلى وكيل مختلف على نموذج مختلف. نواصل هذا العمل عبر مجالات أوسع (البرمجة، متعددة الوسائط) بالتعاون مع فيرجينيا تك (@tuvllms، @noahpro99، جايدون بينغهام، و@WeiyuanChen01) ونحن منفتحون على التعاون مع مجتمع البحث الأوسع.
‏‎135‏