另一个未解决的(并且确实很难的)AI基准测试:"写一个令人满意的10段谋杀悬疑故事。你需要解决这个谜题的线索应该在前五段中足够清晰,以便你能够解决它,但又要模糊到绝大多数人无法解决。" 错误显而易见: - 克劳德忘记在谜题中添加实际线索(而且细节太模糊),这是大型语言模型的经典规划问题,而使用Cowork或Code并没有帮助。 - ChatGPT 5.4 Pro创造了一个完全明显的线索,然后继续用那些困扰ChatGPT小说的过于复杂的隐喻和复杂性进行写作。不过,Pro的表现比Thinking要好。 - Gemini 3.1 Pro是最接近的,但冰块有点明显,而且它完全搞砸了关于冰块为何重要的解释。