1/ Ми знаємо, що Трансформери зазнають невдачі у довготривалих екстраполяціях. Але нові дослідження показують глибший недолік: вони не справляються з відстеженням стану IN-DISTRIBUTION. Вони не вивчають алгоритмічні правила, а просто запам'ятовують ізольовані схеми на кожну довжину. 🧵