1/ 我们知道变压器在长度外推方面失败。但新的研究显示了一个更深层次的缺陷:它们在分布内状态跟踪方面失败。它们并不学习算法规则,而只是记忆每个长度的孤立电路。🧵