GPT 5.4 Proは、最も難しい数学ベンチマークであるFrontierMath Tier 4を38%で圧倒しました。 これら50の研究レベルの数学問題は数学者が解くのに数週間かかることもあります。 1年前は最高2%(O3)でした。最良のオープンソースモデルは4.2%(Kimi K2.5)です。 信じられないほど印象的です。