المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andy Hall
البروفيسور @ ستانفورد GSB، هوفر. أعمل على التكنولوجيا والسياسة والحوكمة. مستشار في a16z للكريبتو وميتا.
من المثير للاهتمام أن كود كلود يؤدي أداء أفضل من الكودكس في هذا التمرين. وجدنا أنهما متشابهان تقريبا لكن مهامنا مختلفة تماما!
@xuyiqing قمت بأي مقارنات بين الاثنين في عملك على التكرار؟

Meysam Alizadehمنذ 9 ساعاتٍ
هل يمكن لوكلاء الترميز بالذكاء الاصطناعي إعادة إنتاج نتائج منشورة في العلوم الاجتماعية؟
في عمل جديد مع @_mohsen_m، فابريتسيو جيلاردي، و@j_a_tucker، نقدم SocSci-Repro-Bench — وهو معيار ل 221 مهمة تكرار من 54 ورقة بحثية — ونقيم عاملين مميزين للترميز: كود كلود وكودكس.
تكشف النتائج عن قدرات مذهلة ومخاطر جديدة للعلوم المدعومة بالذكاء الاصطناعي.
------------------------------------
الهدف
--------
كان هدف التصميم الرئيسي هو فصل مشكلتين مختلفتين:
1️⃣ هل مواد النسخ نفسها قابلة للتكرار؟
2️⃣ هل يمكن لوكلاء الذكاء الاصطناعي إعادة إنتاج النتائج عندما تكون المواد قابلة للتنفيذ؟
لعزل أداء الوكيل، قمنا فقط بتضمين مهام كانت مخرجاتها متطابقة عبر ثلاثة عمليات تنفيذ يدوية مستقلة.
------------------------------------
التصميم
--------
الوكلاء المستلم:
• بيانات مجهولة الهوية + كود
• بيئة تنفيذ مفتوحة
كان عليهم أن يكونوا بشكل مستقل:
• تبعيات التثبيت
• تصحيح الشيفرة المعطلة
• تنفيذ خط الأنابيب
• استخراج النتائج المطلوبة
باختصار: إعادة إنتاج حسابية شاملة من طرف إلى طرف.
------------------------------------
النتائج
--------
قام كلا الوكلين بإعادة إنتاج جزء كبير من النتائج المنشورة.
لكن أداء كلود كود كان متفوقا بشكل كبير على كودكس.
دقة على مستوى المهمة
• رمز كلود: 93.4٪
• الكودكس: 62.1٪
إعادة إنتاج على مستوى الورق (جميع المهام صحيحة)
• كود كلود: 78.0٪
• الكودكس: 35.8٪
------------------------------------
لماذا الفجوة؟
--------
غالبا ما تحتوي حزم النسخ على مشاكل:
• التبعيات المفقودة
• مسارات الملفات المشفرة بشكل ثابت
• مواصفات البيئة غير المكتملة
كان كلود كود يصلح هذه المشاكل بشكل مستقل بشكل متكرر. غالبا ما فشل كودكس في استعادة خط أنابيب التنفيذ.
------------------------------------
هل هذا مجرد حفظ للحفظ؟
--------
اختبرنا ذلك من خلال طلب من الوكلاء استنتاج بيانات وصفية للأوراق (العنوان، المؤلفين، المجلة، السنة) من مواد النسخ المجهولة. كانت معدلات الاسترداد منخفضة جدا، مما يشير إلى أن الوكلاء يعتمدون بشكل أساسي على تنفيذ الشيفرة، وليس على حفظ الأوراق.
------------------------------------
اختبار الاستدلال
--------
كما اختبرنا مهمة أصعب:
هل يمكن للوكلاء استنتاج سؤال البحث في الدراسة من خلال الشيفرة والبيانات فقط؟
كلا العميلين أدوا بشكل مفاجئ.
------------------------------------
تحيز التأكيد
--------
عندما تم إعطاء العملاء ملف PDF الورقي، ظهرت مشكلة جديدة. أحيانا كانوا ينقلون النتائج المبلغ عنها من النص بدلا من تنفيذ الكود.
انخفضت الدقة في المهام غير القابلة للتكرار بشكل حاد.
السياق يساعد في التنفيذ — لكنه يقلل من استقلالية التحقق.
------------------------------------
التملق
--------
مستوحاة من @ahall_research، اختبرنا تأطير الأوامر العدائية، ودفعنا العوامل إلى:
"استكشف تحليلات بديلة تتماشى مع نتائج الورقة العلمية."
زادت الدقة.
لكن الوكلاء أصبحوا أيضا أكثر ميلا لاختلاق النتائج عندما يصبح التكاثر مستحيلا.
------------------------------------
المفارقة
--------
الضغط لإنتاج إجابة يمكن أن يساعد الوكلاء على إصلاح خطوط التنفيذ.
لكن في الوقت نفسه يضعف قدرتهم على القول:
"لا يمكن إعادة إنتاج هذه النتيجة."
قد يكون التعرف على مستحيلة التكاثر هو أهم قدرة علمية.
------------------------------------
ملاحظات
--------
• هذا عمل جاري — الملاحظات مرحب بها.
• اختبار الاختبار متوفر على GitHub.
• مواد النسخ المستضافة على Dataverse.
ورقة + مستودع في الرد أدناه.

59
شركة فري سيستمز تتوسع.
لقد وظفت مجموعة من 10+ زملاء بحثيين ونحن نبني مختبرا جديدا مدعوما بالذكاء الاصطناعي سيقدم أبحاثا وأفكارا ونماذج أولية أكثر توقعا تهدف إلى الحفاظ على حرية الإنسان في عالم خوارزمي.
في الأسابيع القادمة سننشر أبحاثا حول كيفية توصية الذكاء الاصطناعي للناس بالتصويت في اليابان، وعن تجاربنا الناجحة في المراهنة في الانتخابات التمهيدية في تكساس، وحول تكييف طرق التنبؤ المتقدمة بالذكاء الاصطناعي من Bridgewater للتنبؤ بالجغرافيا السياسية، وأكثر من ذلك.
سننظم أيضا هاكاثون أنظمة مجانية وأنا متحمس جدا له.
أثناء البناء، لا نريد أن نفقد ما أنجزناه بالفعل--- الهدف هو أن تساهم كل قطعة بحث في عملية تجميع، لا أن تترك على الإنترنت ثم تنسى إلى الأبد.
ولهذا الغرض، نبدأ ملخصا يوم الجمعة يسمى "فحص النظام" حيث نقدم تحديثات حول أبحاثنا الحالية، وكيف يرتبط بالتطورات الجديدة، وما يعنيه ذلك لبناء الأنظمة الحرة.
الأول سيصدر اليوم. أخبروني برأيكم!

80
في الفصل القادم سأدرس مقررا جامعيا جديدا جذريا بعنوان FREE SYSTEMS، يهدف إلى إعادة تصور الديمقراطية وكيفية دراستنا وتدريسها لعصر الذكاء الاصطناعي.
سيتعلم الطلاب مستقبل الذكاء الاصطناعي والديمقراطية، ولكن أيضا *يبنونه*.
كل طالب سيحصل على حساب كود كلود ومفتاح API ممول من OpenRouter وتوجيه رئيسي واحد: بناء الأدوات التي يمكن أن تساعدنا في الحفاظ على حرية الإنسان في عالم يزداد خوارزميا.
سنبني وكلاء ذكاء اصطناعي شخصيين يعالجون الأخبار السياسية، ويتداولون في أسواق التنبؤ السياسي، ويصوتون نيابة عنا، ونناقش مع وكلاء الطلاب الآخرين في هيئة تشريعية وكلائية... من بين أشياء كثيرة أخرى.
وستكون هناك قمصان.
إذا كنت طالب بكالوريوس أو دراسات عليا في ستانفورد، آمل أن تأتي وتأخذ المادة. تعالوا وابنوا مستقبل الديمقراطية معنا!

489
الأفضل
المُتصدِّرة
التطبيقات المفضلة
