Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Oblast AI potřebuje náročnější benchmarky pro testování schopností nejnovějších AI modelů. Tato aktualizace @Kaggle Game Arena s vlkodlakem a pokerem (heads-up) plus šachy nám přináší nové objektivní ukazatele reálných dovedností, jako je plánování a rozhodování v nejistotě.

30. 1. 2026
📌 Mark Your Calendar: Live Game Arena Event This Monday!
We are releasing two new games, Poker and Werewolf, along with an updated Chess leaderboard next Monday, February 2, running daily from 9:30 AM PT to 11:30 AM PT through February 4.
Na rozdíl od standardních Q&A benchmarků, které se nakonec nasytí, tyto testy automaticky ztěžují, jak se modely zlepšují. Je skvělé mít tyto ověřitelné způsoby, jak měřit pokrok směrem k AGI. Cílem je přidat stovky her pokrývajících různé aspekty inteligence, s celkovým žebříčkem
Je také skvělé vidět naše nejnovější modely Gemini 3 na vrcholu šachového žebříčku – neuvěřitelně rychlé zlepšení oproti tomu, když benchmark poprvé vyšel! Všimněte si, že všechny modely stále hrají jen na slabé amatérské úrovni, takže je potřeba hodně zlepšení.

133
Top
Hodnocení
Oblíbené
