A área de IA precisa de benchmarks mais rigorosos para testar as capacidades dos mais recentes modelos de IA. Esta atualização para a @Kaggle Game Arena com lobisomem e poker (heads-up) além de xadrez, oferece-nos novas medidas objetivas de habilidades do mundo real, como planejamento e tomada de decisão sob incerteza.
Kaggle
Kaggle30/01/2026
📌 Mark Your Calendar: Live Game Arena Event This Monday! We are releasing two new games, Poker and Werewolf, along with an updated Chess leaderboard next Monday, February 2, running daily from 9:30 AM PT to 11:30 AM PT through February 4.
Ao contrário dos benchmarks padrão de perguntas e respostas que eventualmente saturam, esses testes tornam-se automaticamente mais difíceis à medida que os modelos melhoram. É ótimo ter essas maneiras verificáveis de medir o progresso em direção à AGI. O objetivo é adicionar centenas de jogos cobrindo muitos aspectos da inteligência, com uma tabela de classificação geral.
Também é fixe ver os nossos últimos modelos Gemini 3 no topo da tabela de classificação de xadrez - uma melhoria incrivelmente rápida desde o lançamento do benchmark! Note que todos os modelos ainda jogam apenas a um nível amador fraco, por isso é necessária muita melhoria.
136