Recentemente ho scoperto che il campo della valutazione dell'AI è entrato in una fase di alta maturità e rapida iterazione. I test di riferimento tradizionali (come MMLU, HumanEval) tendono a saturarsi, mentre la nuova generazione di framework e metodi si concentra sulle capacità del mondo reale (agente, utilizzo del computer, ragionamento multimodale), sulla rigorosità statistica, sulla quantificazione dell'incertezza, sulla sicurezza/affidabilità e sulle sfide di contaminazione/lunga coda. Prima testavamo grandi modelli, ora testiamo gli AI Agent. Queste piattaforme aiutano sviluppatori e aziende a testare l'affidabilità, l'accuratezza, i costi, la sicurezza e le prestazioni dell'AI lungo l'intera catena, dalla sviluppo all'implementazione in produzione. Grok ha stilato un elenco delle piattaforme di valutazione dell'AI più diffuse.