OpenAI 刚刚发布了 GPT-5.4,我们这一周一直在 Cline 中测试它。我们注意到计算机使用和一般知识都有所提升,基准测试也支持这一点: OSWorld(计算机使用评估)从 47.3% 上升到 75.0%,超越了人类的 72.4% 的表现!🧵
GPT-5.4 也有 1M 的上下文窗口,但他们的评估显示,针在干草堆中(MRCR v2)在 16-32K 令牌时得分为 97%,在 256-512K 时降至 57%,在 512K-1M 时仅为 36%。 所以定期压缩是个好主意!
129