DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

MIT vient de publier un article qui explique discrètement pourquoi le raisonnement des LLM atteint un mur et comment le dépasser. L'histoire habituelle est que les modèles échouent sur des problèmes difficiles parce qu'ils manquent d'échelle, de données ou d'intelligence. Cet article soutient quelque chose de beaucoup plus structurel : les modèles cessent de s'améliorer parce que le signal d'apprentissage disparaît. Une fois qu'une tâche devient trop difficile, les taux de réussite s'effondrent vers zéro, l'apprentissage par renforcement n'a rien à optimiser, et le raisonnement stagne. L'échec n'est pas cognitif, il est pédagogique. Les auteurs proposent un recadrage simple mais radical. Au lieu de demander comment faire en sorte que les modèles résolvent des problèmes plus difficiles, ils demandent comment les modèles peuvent générer des problèmes qui les enseignent. Leur système, SOAR, divise un seul modèle pré-entraîné en deux rôles : un étudiant qui tente des tâches cibles extrêmement difficiles, et un enseignant qui génère de nouveaux problèmes d'entraînement. Le hic, c'est que l'enseignant n'est pas récompensé pour produire des questions intelligentes ou réalistes. Il est récompensé uniquement si la performance de l'étudiant s'améliore sur un ensemble fixe de problèmes d'évaluation réels. Pas d'amélioration signifie zéro récompense. Cette incitation redessine tout. L'enseignant apprend à générer des problèmes intermédiaires, des étapes qui se situent juste à l'intérieur de la limite de capacité actuelle de l'étudiant. Ces problèmes ne sont pas des versions simplifiées de la tâche cible, et de manière frappante, ils ne nécessitent même pas de solutions correctes. Ce qui compte, c'est que leur structure force l'étudiant à pratiquer le bon type de raisonnement, permettant au signal de gradient d'émerger même lorsque la supervision directe échoue. Les résultats expérimentaux rendent le point douloureusement clair. Sur des benchmarks où les modèles commencent avec zéro succès et où l'apprentissage par renforcement standard s'aplatit complètement, SOAR brise le blocage et améliore progressivement la performance. Le modèle échappe à la limite d'apprentissage non pas en réfléchissant plus dur, mais en construisant un meilleur environnement d'apprentissage pour lui-même. L'implication plus profonde est inconfortable. Beaucoup de soi-disant "limites de raisonnement" ne sont peut-être pas des limites d'intelligence du tout. Ce sont des artefacts de configurations d'entraînement qui supposent que le monde fournit des problèmes apprenables gratuitement. Cet article suggère que si les modèles peuvent façonner leur propre programme, les plateaux de raisonnement deviennent des problèmes d'ingénierie, et non des barrières fondamentales. Pas de nouvelles architectures, pas de données humaines supplémentaires, pas de modèles plus grands. Juste un changement dans ce que nous récompensons : le progrès d'apprentissage au lieu des réponses.

Meilleurs

Classement

Favoris