近年、AI評価の分野は非常に成熟し、急速に進化する段階に入っていることが明らかになっています。 従来のベンチマーク(例:MMLU、HumanEval)は飽和状態にあり、次世代のフレームワークや手法は実際の能力(エージェント的推論、コンピュータ利用、マルチモーダル推論)、統計的厳密性、不確実性の定量化、セキュリティ・信頼性、汚染防止・ロングテールの課題に焦点を当てています。 以前は大規模モデルをテストし、今はAIエージェントのテストを行っています。 これらのプラットフォームは、開発者や企業が開発の反復から本番展開までAIの信頼性、正確性、コスト、セキュリティ、パフォーマンスをテストするのに役立ちます。 グロクで最も主流のAI評価プラットフォームのリストを整理しましょう