Kolejny nierozwiązany (i przyznajmy, trudny) benchmark AI: "napisz satysfakcjonującą 10-akapitową zagadkę kryminalną. Elementy, które musisz rozwiązać, powinny być na tyle jasne w pierwszych pięciu akapitach, że mógłbyś je rozwiązać, ale na tyle niejasne, że zdecydowana większość ludzi nie da rady" Błędy są ujawniające: -Claude zapomina dodać rzeczywisty trop do zagadki (a szczegóły są zbyt niejasne), klasyczny problem planowania dla LLM-ów, a użycie Cowork lub Code nie pomaga. -ChatGPT 5.4 Pro tworzy całkowicie oczywisty trop, a następnie pisze z nadmiernie skomplikowanymi metaforami i komplikacjami, które dręczą fikcję ChatGPT. Pro wypadł lepiej niż Thinking, chociaż. -Gemini 3.1 Pro jest najbliżej, ale lód jest trochę oczywisty, a całkowicie myli wyjaśnienie, dlaczego ta sprawa z lodem była ważna.