一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

另一个未解决的（并且确实很难的）AI基准测试："写一个令人满意的10段谋杀悬疑故事。你需要解决这个谜题的线索应该在前五段中足够清晰，以便你能够解决它，但又要模糊到绝大多数人无法解决。" 错误显而易见： - 克劳德忘记在谜题中添加实际线索（而且细节太模糊），这是大型语言模型的经典规划问题，而使用Cowork或Code并没有帮助。 - ChatGPT 5.4 Pro创造了一个完全明显的线索，然后继续用那些困扰ChatGPT小说的过于复杂的隐喻和复杂性进行写作。不过，Pro的表现比Thinking要好。 - Gemini 3.1 Pro是最接近的，但冰块有点明显，而且它完全搞砸了关于冰块为何重要的解释。