Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Un altro benchmark AI irrisolto (e ammettiamolo, difficile): "scrivi un soddisfacente giallo di 10 paragrafi. I pezzi necessari per risolvere il mistero dovrebbero essere abbastanza chiari nei primi cinque paragrafi da poterlo risolvere, ma abbastanza oscuri da non essere compresi dalla stragrande maggioranza delle persone"
Gli errori sono rivelatori:
-Claude dimentica di aggiungere il vero indizio al puzzle (e i dettagli sono troppo oscuri), un classico problema di pianificazione per i LLM, e no, usare Cowork o Code non aiuta.
-ChatGPT 5.4 Pro crea un indizio completamente ovvio e poi procede a scrivere con le metafore e le complicazioni eccessivamente elaborate che hanno afflitto la narrativa di ChatGPT. Pro ha fatto meglio di Thinking, però.
-Gemini 3.1 Pro è il più vicino, ma il ghiaccio è un po' ovvio, e sbaglia completamente la spiegazione sul perché la cosa del ghiaccio fosse importante.



Principali
Ranking
Preferiti
