热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
OpenAI 刚刚发布了 GPT-5.4,我们这一周一直在 Cline 中测试它。我们注意到计算机使用和一般知识都有所提升,基准测试也支持这一点:
OSWorld(计算机使用评估)从 47.3% 上升到 75.0%,超越了人类的 72.4% 的表现!🧵

GPT-5.4 也有 1M 的上下文窗口,但他们的评估显示,针在干草堆中(MRCR v2)在 16-32K 令牌时得分为 97%,在 256-512K 时降至 57%,在 512K-1M 时仅为 36%。
所以定期压缩是个好主意!

129
热门
排行
收藏
