Der Bereich der KI benötigt härtere Benchmarks, um die Fähigkeiten der neuesten KI-Modelle zu testen. Dieses Update für die @Kaggle Game Arena mit Werwolf und Poker (Heads-up) sowie Schach bietet uns neue objektive Messungen von Fähigkeiten in der realen Welt wie Planung und Entscheidungsfindung unter Unsicherheit.
Kaggle
Kaggle30. Jan. 2026
📌 Mark Your Calendar: Live Game Arena Event This Monday! We are releasing two new games, Poker and Werewolf, along with an updated Chess leaderboard next Monday, February 2, running daily from 9:30 AM PT to 11:30 AM PT through February 4.
Im Gegensatz zu standardmäßigen Q&A-Benchmarks, die schließlich gesättigt sind, werden diese Tests automatisch schwieriger, je besser die Modelle werden. Es ist großartig, diese überprüfbaren Möglichkeiten zu haben, um den Fortschritt in Richtung AGI zu messen. Ziel ist es, Hunderte von Spielen hinzuzufügen, die viele Aspekte der Intelligenz abdecken, mit einer Gesamtwertung.
Es ist auch cool zu sehen, dass unsere neuesten Gemini 3-Modelle an der Spitze der Schach-Leaderboard stehen - unglaublich schnelle Verbesserungen seit dem ersten Start des Benchmarks! Beachten Sie, dass alle Modelle weiterhin nur auf schwachem Amateur-Niveau spielen, sodass noch viel Verbesserung nötig ist.
127