もう一つの未解決(そして正直難しい)AIベンチマーク:「満足のいく10段落の殺人ミステリーを書くこと。謎を解くために必要なピースは、最初の5段落で十分に明確で、解けるようにしつつも、大多数の人が解けないほどに分かりにくいものでなければならない」 誤りは明らかです: -クロードはパズルに実際の手がかりを加え忘れ(詳細があまりにも曖昧です)、これはLLMにとって典型的な計画問題であり、CoworkやCodeを使っても役に立ちません。 -ChatGPT 5.4 Proは、完全に明白なヒントを作り出し、その後、ChatGPTフィクションを悩ませてきた過剰な比喩や複雑さで書き始めます。ただし、ProはThinkingよりは良かったです。 -ジェミニ3.1プロが最も近いですが、氷が少し目立つので、氷の重要性の説明を完全に誤っています。