Dziedzina AI potrzebuje trudniejszych benchmarków do testowania możliwości najnowszych modeli AI. Ta aktualizacja do @Kaggle Game Arena z wilkołakiem i pokerem (heads-up) oraz szachami, daje nam nowe obiektywne miary umiejętności w rzeczywistych warunkach, takich jak planowanie i podejmowanie decyzji w warunkach niepewności.
Kaggle
Kaggle30 sty 2026
📌 Mark Your Calendar: Live Game Arena Event This Monday! We are releasing two new games, Poker and Werewolf, along with an updated Chess leaderboard next Monday, February 2, running daily from 9:30 AM PT to 11:30 AM PT through February 4.
W przeciwieństwie do standardowych benchmarków w stylu Q&A, które ostatecznie osiągają nasycenie, te testy automatycznie stają się trudniejsze, gdy modele stają się lepsze. Świetnie mieć te weryfikowalne sposoby mierzenia postępów w kierunku AGI. Celem jest dodanie setek gier obejmujących wiele aspektów inteligencji, z ogólną tabelą wyników.
Również fajnie zobaczyć nasze najnowsze modele Gemini 3 na szczycie rankingu szachowego - niesamowicie szybki postęp od momentu, gdy benchmark został po raz pierwszy uruchomiony! Zauważ, że wszystkie modele wciąż grają tylko na słabym amatorskim poziomie, więc potrzebne są duże poprawki.
132