1/ Wiemy, że Transformery nie radzą sobie z ekstrapolacją długości. Ale nowe badania pokazują głębszą wadę: nie radzą sobie z śledzeniem stanów w ROZKŁADZIE. Nie uczą się reguł algorytmicznych, tylko zapamiętują izolowane obwody w zależności od długości. 🧵