Oblast AI potřebuje náročnější benchmarky pro testování schopností nejnovějších AI modelů. Tato aktualizace @Kaggle Game Arena s vlkodlakem a pokerem (heads-up) plus šachy nám přináší nové objektivní ukazatele reálných dovedností, jako je plánování a rozhodování v nejistotě.
Kaggle
Kaggle30. 1. 2026
📌 Mark Your Calendar: Live Game Arena Event This Monday! We are releasing two new games, Poker and Werewolf, along with an updated Chess leaderboard next Monday, February 2, running daily from 9:30 AM PT to 11:30 AM PT through February 4.
Na rozdíl od standardních Q&A benchmarků, které se nakonec nasytí, tyto testy automaticky ztěžují, jak se modely zlepšují. Je skvělé mít tyto ověřitelné způsoby, jak měřit pokrok směrem k AGI. Cílem je přidat stovky her pokrývajících různé aspekty inteligence, s celkovým žebříčkem
Je také skvělé vidět naše nejnovější modely Gemini 3 na vrcholu šachového žebříčku – neuvěřitelně rychlé zlepšení oproti tomu, když benchmark poprvé vyšel! Všimněte si, že všechny modely stále hrají jen na slabé amatérské úrovni, takže je potřeba hodně zlepšení.
133