OpenAI 剛剛推出了 GPT-5.4,我們整個星期都在 Cline 測試它。我們注意到計算機使用率和一般知識都有所提升,基準測試也支持這一點: OSWorld(計算機使用評估)從 47.3% → 75.0%,超越了人類表現的 72.4%! 🧵
GPT-5.4 也有 1M 的上下文窗口,但他們的評估顯示,針對稻草堆中的針 (MRCR v2) 在 16-32K 代幣時得分為 97%,在 256-512K 時降至 57%,而在 512K-1M 時僅為 36%。 因此,定期壓縮是個好主意!
124