OpenAI az önce GPT-5.4'ü çıkardı ve tüm hafta boyunca Cline'da test ettik. Bilgisayar kullanımı ve genel bilgide bir sıçrama fark ettik ve kıyaslamalar bunu doğruluyor: OSWorld (bilgisayar kullanım değerlendirmesi) %47,3'ten %75,0'a yükseldi → %72,4 ile insan performansını geride bıraktı! 🧵
GPT-5.4'ün ayrıca 1M bağlam penceresi var, ancak değerlendirmeleri iğne-in-a-haystack (MRCR v2) 16-32K jetonda %97 puan aldığını, 256-512K jetonda %57'ye ve 512K-1M'de sadece %36 olduğunu gösteriyor. Bu yüzden düzenli olarak sıkıştırmak iyi bir fikir!
67