Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Dziedzina AI potrzebuje trudniejszych benchmarków do testowania możliwości najnowszych modeli AI. Ta aktualizacja do @Kaggle Game Arena z wilkołakiem i pokerem (heads-up) oraz szachami, daje nam nowe obiektywne miary umiejętności w rzeczywistych warunkach, takich jak planowanie i podejmowanie decyzji w warunkach niepewności.

W przeciwieństwie do standardowych benchmarków w stylu Q&A, które ostatecznie osiągają nasycenie, te testy automatycznie stają się trudniejsze, gdy modele stają się lepsze. Świetnie mieć te weryfikowalne sposoby mierzenia postępów w kierunku AGI. Celem jest dodanie setek gier obejmujących wiele aspektów inteligencji, z ogólną tabelą wyników.

Również fajnie zobaczyć nasze najnowsze modele Gemini 3 na szczycie rankingu szachowego - niesamowicie szybki postęp od momentu, gdy benchmark został po raz pierwszy uruchomiony! Zauważ, że wszystkie modele wciąż grają tylko na słabym amatorskim poziomie, więc potrzebne są duże poprawki.

132

Najlepsze

Ranking

Ulubione