1/ Мы знаем, что трансформеры не справляются с экстраполяцией по длине. Но новые исследования показывают более глубокий недостаток: они не справляются с отслеживанием состояний в рамках распределения. Они не учат алгоритмические правила, они просто запоминают изолированные цепи по длине. 🧵