GPT 5.4 Pro ha appena superato il benchmark matematico più difficile, FrontierMath Tier 4, con il 38%. Questi 50 problemi matematici a livello di ricerca possono richiedere settimane ai matematici per essere risolti. Un anno fa, il migliore era il 2% (o3). Il miglior modello open source è il 4,2% (Kimi K2.5) Incredibilmente impressionante.