1/ Nous savons que les Transformers échouent à l'extrapolation de longueur. Mais de nouvelles recherches montrent un défaut plus profond : ils échouent à suivre l'état IN-DISTRIBUTION. Ils n'apprennent pas les règles algorithmiques, ils mémorisent simplement des circuits isolés par longueur. 🧵