1/ Sabemos que Transformers falham na extrapolação de longos. Mas novas pesquisas mostram uma falha mais profunda: eles falham no rastreamento de estado IN-DISTRIBUTION. Eles não aprendem regras algorítmicas, apenas memorizam circuitos isolados por comprimento. 🧵