OpenAI أصدر GPT-5.4 مؤخرا وكنا نختبره في كلاين طوال الأسبوع. لاحظنا زيادة في استخدام الحاسوب والمعرفة العامة، والمعايير تدعم ذلك: OSWorld (تقييم استخدام الحاسوب) ارتفع من 47.3٪ → 75.0٪، متجاوزا الأداء البشري عند 72.4٪! 🧵
GPT-5.4 أيضا لديه نافذة سياق مدتها مليون واحد، لكن تقييماتهم تظهر أن لعبة needle-in-a-haystack (MRCR v2) تحقق 97٪ عند 16-32 ألف رمز، وتنخفض إلى 57٪ عند 256-512 ألف، و36٪ فقط عند 512 ألف إلى 1 مليون. لذا من الجيد أن تضغط بانتظام!
‏‎109‏