熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
OpenAI 剛剛推出了 GPT-5.4,我們整個星期都在 Cline 測試它。我們注意到計算機使用率和一般知識都有所提升,基準測試也支持這一點:
OSWorld(計算機使用評估)從 47.3% → 75.0%,超越了人類表現的 72.4%! 🧵

GPT-5.4 也有 1M 的上下文窗口,但他們的評估顯示,針對稻草堆中的針 (MRCR v2) 在 16-32K 代幣時得分為 97%,在 256-512K 時降至 57%,而在 512K-1M 時僅為 36%。
因此,定期壓縮是個好主意!

124
熱門
排行
收藏
