Недавно я обнаружил, что область оценки ИИ вошла в стадию высокой зрелости и быстрого итерационного развития. Традиционные бенчмарки (такие как MMLU, HumanEval) достигают насыщения, а новое поколение фреймворков и методов сосредоточено на реальных возможностях (агентные, компьютерные, многомодальные рассуждения), статистической строгости, количественной оценке неопределенности, безопасности/достоверности и борьбе с загрязнением/долгими хвостами. Ранее тестировались большие модели, теперь тестируются ИИ-агенты. Эти платформы помогают разработчикам и компаниям проводить полное тестирование надежности, точности, стоимости, безопасности и производительности ИИ от разработки до развертывания в производстве. Grok составил список самых популярных платформ для оценки ИИ.