这些新的AI基准测试变得疯狂了。