DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Un autre benchmark IA non résolu (& avouons-le difficile) : "écrire un mystère de meurtre satisfaisant en 10 paragraphes. Les éléments nécessaires pour résoudre le mystère doivent être suffisamment clairs dans les cinq premiers paragraphes pour que vous puissiez le résoudre, mais suffisamment obscurs pour que la grande majorité des gens ne le puisse pas." Les erreurs sont révélatrices : -Claude oublie d'ajouter l'indice réel au puzzle (et les détails sont trop obscurs), un problème de planification classique pour les LLM, et non, utiliser Cowork ou Code n'aide pas. -ChatGPT 5.4 Pro crée un indice complètement évident et ensuite procède à écrire avec des métaphores et des complications trop élaborées qui hantent la fiction de ChatGPT. Pro a fait mieux que Thinking, cependant. -Gemini 3.1 Pro est le plus proche, mais la glace est un peu évidente, et il rate complètement l'explication sur pourquoi la glace était importante.

Meilleurs

Classement

Favoris