DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Un altro benchmark AI irrisolto (e ammettiamolo, difficile): "scrivi un soddisfacente giallo di 10 paragrafi. I pezzi necessari per risolvere il mistero dovrebbero essere abbastanza chiari nei primi cinque paragrafi da poterlo risolvere, ma abbastanza oscuri da non essere compresi dalla stragrande maggioranza delle persone" Gli errori sono rivelatori: -Claude dimentica di aggiungere il vero indizio al puzzle (e i dettagli sono troppo oscuri), un classico problema di pianificazione per i LLM, e no, usare Cowork o Code non aiuta. -ChatGPT 5.4 Pro crea un indizio completamente ovvio e poi procede a scrivere con le metafore e le complicazioni eccessivamente elaborate che hanno afflitto la narrativa di ChatGPT. Pro ha fatto meglio di Thinking, però. -Gemini 3.1 Pro è il più vicino, ma il ghiaccio è un po' ovvio, e sbaglia completamente la spiegazione sul perché la cosa del ghiaccio fosse importante.

Principali

Ranking

Preferiti