1/ Vi vet at Transformers feiler ved ekstrapolering i lengden. Men ny forskning viser en dypere svakhet: de svikter i INN-DISTRIBUSJON tilstandssporing. De lærer ikke algoritmiske regler, de bare memorerer isolerte kretser per lengde. 🧵