Outro benchmark de IA não resolvido (e admitidamente difícil): "escreva um mistério de assassinato satisfatório em 10 parágrafos. As partes que você precisa para resolver o mistério devem ser claras o suficiente nos primeiros cinco parágrafos para que você possa resolver, mas obscuras o suficiente para que a grande maioria das pessoas não consiga" Erros reveladores: -Claude esquece de adicionar a pista real ao quebra-cabeça (e os detalhes são muito obscuros), um clássico problema de planejamento para LLMs, e não, usar Cowork ou Code não ajuda. -ChatGPT 5.4 Pro cria uma pista completamente óbvia e depois prossegue escrevendo com metáforas e complicações excessivamente elaboradas que assombraram a ficção do ChatGPT. O Pro foi melhor que o Thinking, porém. -Gemini 3.1 Pro é o mais próximo, mas o gelo é um pouco óbvio, e ele erra completamente a explicação sobre por que o problema do gelo era importante.