Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Et annet uløst (og innrømmet vanskelig) AI-benchmark: «skriv et tilfredsstillende 10-avsnitts mordmysterium. Delene du trenger for å løse mysteriet bør være tydelige nok i de fem første avsnittene til at du kan løse det, men uklare nok til at de aller fleste ikke gjør det."
Feil avslører:
-Claude glemmer å legge til selve ledetråden i puslespillet (og detaljene er for obskure), et klassisk planleggingsproblem for LLM-er, og nei, å bruke Cowork eller Code hjelper ikke.
-ChatGPT 5.4 Pro lager et helt åpenbart spor og fortsetter deretter med å skrive med de overdrevne metaforene og komplikasjonene som har hjemsøkt ChatGPT-fiksjonen. Pro gjorde det bedre enn Thinking, da.
-Gemini 3.1 Pro er nærmest, men isen er litt åpenbar, og det ødelegger fullstendig forklaringen på hvorfor isgreia var viktig.



Topp
Rangering
Favoritter
