Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Un autre benchmark IA non résolu (& avouons-le difficile) : "écrire un mystère de meurtre satisfaisant en 10 paragraphes. Les éléments nécessaires pour résoudre le mystère doivent être suffisamment clairs dans les cinq premiers paragraphes pour que vous puissiez le résoudre, mais suffisamment obscurs pour que la grande majorité des gens ne le puisse pas."
Les erreurs sont révélatrices :
-Claude oublie d'ajouter l'indice réel au puzzle (et les détails sont trop obscurs), un problème de planification classique pour les LLM, et non, utiliser Cowork ou Code n'aide pas.
-ChatGPT 5.4 Pro crée un indice complètement évident et ensuite procède à écrire avec des métaphores et des complications trop élaborées qui hantent la fiction de ChatGPT. Pro a fait mieux que Thinking, cependant.
-Gemini 3.1 Pro est le plus proche, mais la glace est un peu évidente, et il rate complètement l'explication sur pourquoi la glace était importante.



Meilleurs
Classement
Favoris
