热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
另一个未解决的(并且确实很难的)AI基准测试:"写一个令人满意的10段谋杀悬疑故事。你需要解决这个谜题的线索应该在前五段中足够清晰,以便你能够解决它,但又要模糊到绝大多数人无法解决。"
错误显而易见:
- 克劳德忘记在谜题中添加实际线索(而且细节太模糊),这是大型语言模型的经典规划问题,而使用Cowork或Code并没有帮助。
- ChatGPT 5.4 Pro创造了一个完全明显的线索,然后继续用那些困扰ChatGPT小说的过于复杂的隐喻和复杂性进行写作。不过,Pro的表现比Thinking要好。
- Gemini 3.1 Pro是最接近的,但冰块有点明显,而且它完全搞砸了关于冰块为何重要的解释。



热门
排行
收藏
