Viime aikoina on havaittu, että tekoälyarvioinnin ala on siirtynyt erittäin kypsään ja nopeasti iteratiiviseen vaiheeseen. Perinteiset benchmarkit (esim. MMLU, HumanEval) ovat usein ylikuormitettuja, ja seuraavan sukupolven viitekehykset ja menetelmät keskittyvät todellisten kykyjen (agentti-, tietokonekäyttö, multimodaalinen päättely), tilastolliseen tarkkuuteen, epävarmuuden kvantifiointiin, turvallisuuteen/luotettavuuteen sekä kontaminaation/pitkän hännän haasteisiin. Aiemmin testasimme suuria malleja, ja nyt testaamme tekoälyagentteja. Nämä alustat auttavat kehittäjiä ja yrityksiä testaamaan tekoälyn luotettavuutta, tarkkuutta, kustannuksia, turvallisuutta ja suorituskykyä kehitysiteraatiosta tuotantoon asti. Anna Grokin järjestää lista suosituimmista tekoälyn arviointialustoista