Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

A área de IA precisa de benchmarks mais rigorosos para testar as capacidades dos mais recentes modelos de IA. Esta atualização para a @Kaggle Game Arena com lobisomem e poker (heads-up) além de xadrez, oferece-nos novas medidas objetivas de habilidades do mundo real, como planejamento e tomada de decisão sob incerteza.

Ao contrário dos benchmarks padrão de perguntas e respostas que eventualmente saturam, esses testes tornam-se automaticamente mais difíceis à medida que os modelos melhoram. É ótimo ter essas maneiras verificáveis de medir o progresso em direção à AGI. O objetivo é adicionar centenas de jogos cobrindo muitos aspectos da inteligência, com uma tabela de classificação geral.

Também é fixe ver os nossos últimos modelos Gemini 3 no topo da tabela de classificação de xadrez - uma melhoria incrivelmente rápida desde o lançamento do benchmark! Note que todos os modelos ainda jogam apenas a um nível amador fraco, por isso é necessária muita melhoria.

136

Top

Classificação

Favoritos