متجر التطبيق اللامركزي | مركز Web3 للأحداث والألعاب

المواضيع الرائجة

Andy Hall

البروفيسور @ ستانفورد GSB، هوفر. أعمل على التكنولوجيا والسياسة والحوكمة. مستشار في a16z للكريبتو وميتا.

من المثير للاهتمام أن كود كلود يؤدي أداء أفضل من الكودكس في هذا التمرين. وجدنا أنهما متشابهان تقريبا لكن مهامنا مختلفة تماما! @xuyiqing قمت بأي مقارنات بين الاثنين في عملك على التكرار؟

هل يمكن لوكلاء الترميز بالذكاء الاصطناعي إعادة إنتاج نتائج منشورة في العلوم الاجتماعية؟ في عمل جديد مع @_mohsen_m، فابريتسيو جيلاردي، و@j_a_tucker، نقدم SocSci-Repro-Bench — وهو معيار ل 221 مهمة تكرار من 54 ورقة بحثية — ونقيم عاملين مميزين للترميز: كود كلود وكودكس. تكشف النتائج عن قدرات مذهلة ومخاطر جديدة للعلوم المدعومة بالذكاء الاصطناعي. ------------------------------------ الهدف -------- كان هدف التصميم الرئيسي هو فصل مشكلتين مختلفتين: 1️⃣ هل مواد النسخ نفسها قابلة للتكرار؟ 2️⃣ هل يمكن لوكلاء الذكاء الاصطناعي إعادة إنتاج النتائج عندما تكون المواد قابلة للتنفيذ؟ لعزل أداء الوكيل، قمنا فقط بتضمين مهام كانت مخرجاتها متطابقة عبر ثلاثة عمليات تنفيذ يدوية مستقلة. ------------------------------------ التصميم -------- الوكلاء المستلم: • بيانات مجهولة الهوية + كود • بيئة تنفيذ مفتوحة كان عليهم أن يكونوا بشكل مستقل: • تبعيات التثبيت • تصحيح الشيفرة المعطلة • تنفيذ خط الأنابيب • استخراج النتائج المطلوبة باختصار: إعادة إنتاج حسابية شاملة من طرف إلى طرف. ------------------------------------ النتائج -------- قام كلا الوكلين بإعادة إنتاج جزء كبير من النتائج المنشورة. لكن أداء كلود كود كان متفوقا بشكل كبير على كودكس. دقة على مستوى المهمة • رمز كلود: 93.4٪ • الكودكس: 62.1٪ إعادة إنتاج على مستوى الورق (جميع المهام صحيحة) • كود كلود: 78.0٪ • الكودكس: 35.8٪ ------------------------------------ لماذا الفجوة؟ -------- غالبا ما تحتوي حزم النسخ على مشاكل: • التبعيات المفقودة • مسارات الملفات المشفرة بشكل ثابت • مواصفات البيئة غير المكتملة كان كلود كود يصلح هذه المشاكل بشكل مستقل بشكل متكرر. غالبا ما فشل كودكس في استعادة خط أنابيب التنفيذ. ------------------------------------ هل هذا مجرد حفظ للحفظ؟ -------- اختبرنا ذلك من خلال طلب من الوكلاء استنتاج بيانات وصفية للأوراق (العنوان، المؤلفين، المجلة، السنة) من مواد النسخ المجهولة. كانت معدلات الاسترداد منخفضة جدا، مما يشير إلى أن الوكلاء يعتمدون بشكل أساسي على تنفيذ الشيفرة، وليس على حفظ الأوراق. ------------------------------------ اختبار الاستدلال -------- كما اختبرنا مهمة أصعب: هل يمكن للوكلاء استنتاج سؤال البحث في الدراسة من خلال الشيفرة والبيانات فقط؟ كلا العميلين أدوا بشكل مفاجئ. ------------------------------------ تحيز التأكيد -------- عندما تم إعطاء العملاء ملف PDF الورقي، ظهرت مشكلة جديدة. أحيانا كانوا ينقلون النتائج المبلغ عنها من النص بدلا من تنفيذ الكود. انخفضت الدقة في المهام غير القابلة للتكرار بشكل حاد. السياق يساعد في التنفيذ — لكنه يقلل من استقلالية التحقق. ------------------------------------ التملق -------- مستوحاة من @ahall_research، اختبرنا تأطير الأوامر العدائية، ودفعنا العوامل إلى: "استكشف تحليلات بديلة تتماشى مع نتائج الورقة العلمية." زادت الدقة. لكن الوكلاء أصبحوا أيضا أكثر ميلا لاختلاق النتائج عندما يصبح التكاثر مستحيلا. ------------------------------------ المفارقة -------- الضغط لإنتاج إجابة يمكن أن يساعد الوكلاء على إصلاح خطوط التنفيذ. لكن في الوقت نفسه يضعف قدرتهم على القول: "لا يمكن إعادة إنتاج هذه النتيجة." قد يكون التعرف على مستحيلة التكاثر هو أهم قدرة علمية. ------------------------------------ ملاحظات -------- • هذا عمل جاري — الملاحظات مرحب بها. • اختبار الاختبار متوفر على GitHub. • مواد النسخ المستضافة على Dataverse. ورقة + مستودع في الرد أدناه.

الأفضل

المُتصدِّرة

التطبيقات المفضلة