GPT 5.4 Pro baru saja menghancurkan tolok ukur matematika tersulit, FrontierMath Tier 4, dengan 38%. 50 masalah matematika tingkat penelitian ini dapat memakan waktu berminggu-minggu untuk dipecahkan oleh matematikawan. Setahun yang lalu, yang terbaik adalah 2% (o3). Model open source terbaik adalah 4.2% (Kimi K2.5) Sangat mengesankan.