Recientemente descubrí que el campo de la evaluación de IA ha entrado en una fase de alta madurez y rápida iteración. Las pruebas de referencia tradicionales (como MMLU, HumanEval) tienden a estar saturadas, y la nueva generación de marcos y métodos se centra en la capacidad del mundo real (agente, uso de computadoras, razonamiento multimodal), rigor estadístico, cuantificación de la incertidumbre, seguridad/credibilidad y desafíos de contaminación/cola larga. Antes se probaban grandes modelos, ahora se prueba a los Agentes de IA. Estas plataformas ayudan a desarrolladores y empresas a realizar pruebas de fiabilidad, precisión, coste, seguridad y rendimiento de la IA a lo largo de toda la cadena, desde el desarrollo y la iteración hasta el despliegue en producción. Grok ha recopilado una lista de las plataformas de evaluación de IA más populares.