DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Der Bereich der KI benötigt härtere Benchmarks, um die Fähigkeiten der neuesten KI-Modelle zu testen. Dieses Update für die @Kaggle Game Arena mit Werwolf und Poker (Heads-up) sowie Schach bietet uns neue objektive Messungen von Fähigkeiten in der realen Welt wie Planung und Entscheidungsfindung unter Unsicherheit.

Im Gegensatz zu standardmäßigen Q&A-Benchmarks, die schließlich gesättigt sind, werden diese Tests automatisch schwieriger, je besser die Modelle werden. Es ist großartig, diese überprüfbaren Möglichkeiten zu haben, um den Fortschritt in Richtung AGI zu messen. Ziel ist es, Hunderte von Spielen hinzuzufügen, die viele Aspekte der Intelligenz abdecken, mit einer Gesamtwertung.

Es ist auch cool zu sehen, dass unsere neuesten Gemini 3-Modelle an der Spitze der Schach-Leaderboard stehen - unglaublich schnelle Verbesserungen seit dem ersten Start des Benchmarks! Beachten Sie, dass alle Modelle weiterhin nur auf schwachem Amateur-Niveau spielen, sodass noch viel Verbesserung nötig ist.

127

Top

Ranking

Favoriten