Một bài kiểm tra AI khác chưa được giải quyết (& thừa nhận là khó): "viết một câu chuyện giết người 10 đoạn thỏa mãn. Các mảnh ghép bạn cần để giải quyết bí ẩn nên rõ ràng đủ trong năm đoạn đầu tiên để bạn có thể giải quyết nó, nhưng mơ hồ đủ để phần lớn mọi người sẽ không làm được." Các lỗi đang tiết lộ: -Claude quên thêm manh mối thực sự vào câu đố (và các chi tiết thì quá mơ hồ), một vấn đề lập kế hoạch cổ điển cho các LLM, và không, việc sử dụng Cowork hoặc Code không giúp ích gì. -ChatGPT 5.4 Pro tạo ra một manh mối hoàn toàn rõ ràng và sau đó tiếp tục viết với những phép ẩn dụ và phức tạp quá mức đã ám ảnh văn học của ChatGPT. Pro đã làm tốt hơn Thinking, mặc dù. -Gemini 3.1 Pro là gần nhất, nhưng mảnh băng thì hơi rõ ràng, và nó hoàn toàn sai lầm trong việc giải thích tại sao điều đó lại quan trọng.