熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
另一個未解決的(且坦白說很難的)AI 基準測試:"寫一個令人滿意的 10 段謀殺懸疑故事。解開謎團所需的線索應該在前五段中足夠清晰,以便你能解決它,但又要模糊到大多數人無法解決。"
錯誤顯示出來了:
- 克勞德忘記將實際的線索添加到謎題中(而且細節過於模糊),這是 LLM 的一個經典規劃問題,而使用 Cowork 或 Code 並沒有幫助。
- ChatGPT 5.4 Pro 創造了一個完全明顯的線索,然後繼續用過於繁瑣的隱喻和複雜的情節來寫作,這些一直困擾著 ChatGPT 的小說。不過,Pro 的表現比 Thinking 好。
- Gemini 3.1 Pro 是最接近的,但冰的線索有點明顯,並且完全搞砸了關於為什麼冰的事情重要的解釋。



熱門
排行
收藏
