يا إلهي، @sanchitmonga22 فريق RunAnywhere AI ابتكر MetalRT في 48 ساعة، مما جفف سرعة فك ترميز نماذج اللغة الكبيرة على Apple Silicon إلى مستوى جديد، مستخدما نفس نموذج 4-بت على M4 Max، Qwen3-0.6B يعمل بسرعة 658 توك/ثانية، LFM 2.5-1.2B 570 توك/ثانية، والرمز الأول يستغرق فقط 6.6 مللي ثانية. مقارنة بنفس الوثيقة، فإن مؤشر MLX الخاص بآبل هو 19٪، ومتوسط llama.cpp المطرقة هو 67٪، ناهيك عن أوزو وأولاما، اللتين تتخلفان عن كل شيء. لطالما صرخ Apple Intelligence من آبل بالأولوية المحلية، لكن إمكانات الأجهزة تهدر فعليا بسبب قيود إطار العمل المختلفة، وهذا يعادل الإغلاق الكامل، حيث يهاجم MetalRT واجهة برمجة تطبيقات Metal مباشرة، ويقطع العبء الفوضوي لطبقة بايثون وطبقة التجريد، ويعدلها لتكون الذاكرة الموحدة + GPU لاستغلال هذه الموجة من الأداء المتطرف. القيمة الحقيقية للنموذج المحلي ليست أبدا "فقط تشغيله إذا استطعت"، لكنه يعمل بسرعة كافية، واقتصادي، وخاصة بما يكفي ليحل محل السحابة فعليا. 6.6 مللي ثانية يعني الرمز الأول الدردشة، الصوت، ملحق الكود، واتصال الوكيل ب JSON دون تأخير؛ ارتفاع توك/ثانية يمكن أن يوسع السياق، ويتعامل مع توازي الأدوات المتعددة، ويتجنب التشويش (التشويت). ومع عدم وجود أي شبكات، وعدم اشتراك، وعدم خروج البيانات من الجهاز، هذا هو شكل الذكاء الاصطناعي المحلي على مستوى الإنتاجية. الأسرع ليس لعرض أرقام التوك/ث، بل السماح للنموذج الصغير بالتفوق مباشرة على تجربة الاستجابة لنموذج السحابة الكبير على أجهزة آبل. من المفترض أن يتم لعب الذكاء الاصطناعي على الجهاز بهذه الطريقة، والآن بدأ يتسارع حقا. آبل فعلا جالسة في المنزل، مجتمع المصدر المفتوح يبني لفتح صندوق باندورا، الذكاء الاصطناعي المحلي مريح جدا، فقط آمل أن تظهر نماذج أكثر ذكاء.