一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

另一個未解決的（且坦白說很難的）AI 基準測試："寫一個令人滿意的 10 段謀殺懸疑故事。解開謎團所需的線索應該在前五段中足夠清晰，以便你能解決它，但又要模糊到大多數人無法解決。" 錯誤顯示出來了： - 克勞德忘記將實際的線索添加到謎題中（而且細節過於模糊），這是 LLM 的一個經典規劃問題，而使用 Cowork 或 Code 並沒有幫助。 - ChatGPT 5.4 Pro 創造了一個完全明顯的線索，然後繼續用過於繁瑣的隱喻和複雜的情節來寫作，這些一直困擾著 ChatGPT 的小說。不過，Pro 的表現比 Thinking 好。 - Gemini 3.1 Pro 是最接近的，但冰的線索有點明顯，並且完全搞砸了關於為什麼冰的事情重要的解釋。