1/ 我們知道 Transformers 在長度外推方面失敗。但新的研究顯示出一個更深層的缺陷:它們在 IN-DISTRIBUTION 狀態追蹤方面失敗。它們不學習算法規則,只是記住每個長度的孤立電路。 🧵