1/ Kita tahu Transformers gagal dalam ekstrapolasi panjang. Tetapi penelitian baru menunjukkan kelemahan yang lebih dalam: mereka gagal dalam pelacakan status IN-DISTRIBUTION. Mereka tidak mempelajari aturan algoritmik, mereka hanya menghafal sirkuit terisolasi per panjang. 🧵