Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Der Bereich der KI benötigt härtere Benchmarks, um die Fähigkeiten der neuesten KI-Modelle zu testen. Dieses Update für die @Kaggle Game Arena mit Werwolf und Poker (Heads-up) sowie Schach bietet uns neue objektive Messungen von Fähigkeiten in der realen Welt wie Planung und Entscheidungsfindung unter Unsicherheit.

30. Jan. 2026
📌 Mark Your Calendar: Live Game Arena Event This Monday!
We are releasing two new games, Poker and Werewolf, along with an updated Chess leaderboard next Monday, February 2, running daily from 9:30 AM PT to 11:30 AM PT through February 4.
Im Gegensatz zu standardmäßigen Q&A-Benchmarks, die schließlich gesättigt sind, werden diese Tests automatisch schwieriger, je besser die Modelle werden. Es ist großartig, diese überprüfbaren Möglichkeiten zu haben, um den Fortschritt in Richtung AGI zu messen. Ziel ist es, Hunderte von Spielen hinzuzufügen, die viele Aspekte der Intelligenz abdecken, mit einer Gesamtwertung.
Es ist auch cool zu sehen, dass unsere neuesten Gemini 3-Modelle an der Spitze der Schach-Leaderboard stehen - unglaublich schnelle Verbesserungen seit dem ersten Start des Benchmarks! Beachten Sie, dass alle Modelle weiterhin nur auf schwachem Amateur-Niveau spielen, sodass noch viel Verbesserung nötig ist.

127
Top
Ranking
Favoriten
