OpenAI щойно відмовився від GPT-5.4, і ми тестували його в Cline весь тиждень. Ми помітили стрибок у використанні комп'ютера та загальних знань, і бенчмарки це підтверджують: OSWorld (оцінка використання комп'ютера) знизилася з 47,3% → 75,0%, перевищивши людську продуктивність — 72,4%! 🧵
GPT-5.4 також має контекстне вікно в 1 мільйон, але їхні оцінки показують, що needle-in-a-haystack (MRCR v2) набирає 97% при 16-32 тисячах токенів, падає до 57% при 256-512 тисячах і лише 36% при 512 тис. до 1 тисяч. Тож гарна ідея регулярно ущільнювати!
71