Et annet uløst (og innrømmet vanskelig) AI-benchmark: «skriv et tilfredsstillende 10-avsnitts mordmysterium. Delene du trenger for å løse mysteriet bør være tydelige nok i de fem første avsnittene til at du kan løse det, men uklare nok til at de aller fleste ikke gjør det." Feil avslører: -Claude glemmer å legge til selve ledetråden i puslespillet (og detaljene er for obskure), et klassisk planleggingsproblem for LLM-er, og nei, å bruke Cowork eller Code hjelper ikke. -ChatGPT 5.4 Pro lager et helt åpenbart spor og fortsetter deretter med å skrive med de overdrevne metaforene og komplikasjonene som har hjemsøkt ChatGPT-fiksjonen. Pro gjorde det bedre enn Thinking, da. -Gemini 3.1 Pro er nærmest, men isen er litt åpenbar, og det ødelegger fullstendig forklaringen på hvorfor isgreia var viktig.