وفقا لمعايير القياس، Qwen3.5 4B جيد مثل GPT 4o. صدر GPT 4o ~ منذ سنتين (مايو 2024). يعمل Qwen 3.5 4B بسهولة على الأجهزة المحمولة الحديثة. لذا الفجوة بين الذكاء الحدودي في مركز البيانات وتشغيل نموذج بنفس الجودة على هاتفك الآيفون قد تكون من سنتين إلى ثلاث سنوات. (ربما أقرب إلى 3 إذا كان Qwen3.5 4B أكثر تطورا من 40) لا أتوقع أن يتغير اتجاه زيادة الذكاء لكل واط. لذا من الممكن بعد 2-3 سنوات أن نستخدم نماذج GPT 5.x بجودة على آيفون. أمر غريب جدا.
@martinald لم أقم بالحساب (سأكون فضوليا جدا لرؤيته). لكن أراهن أنك تستطيع جعل طول السياق >100 ألف على هاتف ب 10 جيجابايت مع تكميم ذاكرة KV.
أي شخص يخبرني بالسياق هو المشكلة. الأمر محدود لكنه ليس مستحيلا. كوين 3.5 هو موديل هجين. يحتوي على 8 طبقات انتباه عالمية (headdim=128، رؤوس مفاتيح/قيمة=4). افترض أن كمية ذاكرة التخزين المؤقت KV بحجم 8 بت (دون فقدان في الجودة). مع 2GB يمكنك استيعاب ~65 ألف طول سياق. بداية جيدة. سأتحسن.
أي شخص يخبرني بالسياق هو المشكلة. الأمر محدود لكنه ليس مستحيلا. كوين 3.5 هو موديل هجين. يحتوي على 8 طبقات انتباه عالمية (headdim=256، رؤوس مفاتيح/قيمة=4). افترض أن كمية ذاكرة التخزين المؤقت KV بحجم 8 بت (دون فقدان في الجودة). مع 2GB يمكنك استيعاب ~65 ألف طول سياق. بداية جيدة. سأتحسن.
@simonw (قمت بمقارنة بعض النتائج وهي صحيحة حسب ما أرى)
هناك الكثير من التعليقات التي تقول إن هذا الطراز مليء بمقياس البنشماكس / تسربت في التقييمات / ليس بجودة 40. سيكون من الجيد لو قام أحدهم بتحليل دقيق باستخدام بعض المعايير المخفية والمتنوعة بشكل مثالي. ما هو الطراز الحدودي الذي يمكن مقارنته به Qwen 3.5 4B؟ ما هو التقدير المعقول للوقت من الحدود إلى الحافة؟ حتى الآن لا أرى أي دليل على أن الأمر أكثر من 3 سنوات، ومن المحتمل جدا أن يكون في نطاق 2-4 سنوات.
‏‎179‏