Sinceramente, un panel de usuarios avanzados al estilo Consumer Reports podría ser mejor que METR, etc., para medir el progreso de la IA, mucho más robusto respecto a la spikeness. No quiero sonar escéptico, como usuario avanzado creo que ha habido un progreso muy notable en los últimos meses, por si sirve de algo.