DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Connor Davis

Fondateur de @getoutbox_ai Apprenez à créer des agents IA GRATUITEMENT 👉 https://t.co/q9zPwlldZ4

MIT vient de publier un article qui explique discrètement pourquoi le raisonnement des LLM atteint un mur et comment le dépasser. L'histoire habituelle est que les modèles échouent sur des problèmes difficiles parce qu'ils manquent d'échelle, de données ou d'intelligence. Cet article soutient quelque chose de beaucoup plus structurel : les modèles cessent de s'améliorer parce que le signal d'apprentissage disparaît. Une fois qu'une tâche devient trop difficile, les taux de réussite s'effondrent vers zéro, l'apprentissage par renforcement n'a rien à optimiser, et le raisonnement stagne. L'échec n'est pas cognitif, il est pédagogique. Les auteurs proposent un recadrage simple mais radical. Au lieu de demander comment faire en sorte que les modèles résolvent des problèmes plus difficiles, ils demandent comment les modèles peuvent générer des problèmes qui les enseignent. Leur système, SOAR, divise un seul modèle pré-entraîné en deux rôles : un étudiant qui tente des tâches cibles extrêmement difficiles, et un enseignant qui génère de nouveaux problèmes d'entraînement. Le hic, c'est que l'enseignant n'est pas récompensé pour produire des questions intelligentes ou réalistes. Il est récompensé uniquement si la performance de l'étudiant s'améliore sur un ensemble fixe de problèmes d'évaluation réels. Pas d'amélioration signifie zéro récompense. Cette incitation redessine tout. L'enseignant apprend à générer des problèmes intermédiaires, des étapes qui se situent juste à l'intérieur de la limite de capacité actuelle de l'étudiant. Ces problèmes ne sont pas des versions simplifiées de la tâche cible, et de manière frappante, ils ne nécessitent même pas de solutions correctes. Ce qui compte, c'est que leur structure force l'étudiant à pratiquer le bon type de raisonnement, permettant au signal de gradient d'émerger même lorsque la supervision directe échoue. Les résultats expérimentaux rendent le point douloureusement clair. Sur des benchmarks où les modèles commencent avec zéro succès et où l'apprentissage par renforcement standard s'aplatit complètement, SOAR brise le blocage et améliore progressivement la performance. Le modèle échappe à la limite d'apprentissage non pas en réfléchissant plus dur, mais en construisant un meilleur environnement d'apprentissage pour lui-même. L'implication plus profonde est inconfortable. Beaucoup de soi-disant "limites de raisonnement" ne sont peut-être pas des limites d'intelligence du tout. Ce sont des artefacts de configurations d'entraînement qui supposent que le monde fournit des problèmes apprenables gratuitement. Cet article suggère que si les modèles peuvent façonner leur propre programme, les plateaux de raisonnement deviennent des problèmes d'ingénierie, et non des barrières fondamentales. Pas de nouvelles architectures, pas de données humaines supplémentaires, pas de modèles plus grands. Juste un changement dans ce que nous récompensons : le progrès d'apprentissage au lieu des réponses.

Putain... Ce document explique discrètement pourquoi la plupart des modèles de « raisonnement » s'effondrent au moment où vous les débranchez des benchmarks propres et les plongez dans le monde réel. L'équipe de LongCat aborde une question que le domaine continue d'esquiver : si les modèles d'aujourd'hui sont si bons en raisonnement, pourquoi échouent-ils encore à un comportement d'agent de base une fois que les outils se cassent, que les instructions deviennent floues ou que les environnements réagissent ? Leur réponse est inconfortable. Le raisonnement n'échoue pas parce que les chaînes de pensée sont trop courtes. Il échoue parce que nous avons entraîné la pensée sans conséquences. Le document introduit LongCat-Flash-Thinking-2601, un modèle Mixture-of-Experts de 560 milliards de paramètres construit autour d'une idée simple mais radicale : le raisonnement ne devient fiable que lorsqu'il est contraint d'agir, d'observer l'échec et de s'adapter dans des environnements réels. Au lieu de traiter le raisonnement comme une génération de texte, ils le cadrent comme une boucle : observer → planifier → agir → obtenir des retours → réviser. Ce changement a des répercussions partout. Les données ne sont plus des invites statiques. L'entraînement n'est plus des trajectoires propres. L'évaluation n'est plus des réponses uniques. Une des contributions les plus importantes est l'échelle environnementale. Les auteurs génèrent automatiquement plus de 10 000 environnements exécutables dans plus de 20 domaines, chacun ancré dans de vrais outils, de vraies bases de données et plusieurs chemins de solution valides. La difficulté augmente structurellement, pas par des astuces d'invite astucieuses. De manière cruciale, ils ne désinfectent pas le monde. Les échecs d'outils, les instructions ambiguës, les sorties partielles et les retours bruyants sont délibérément injectés. Le bruit n'est pas un bug. C'est le programme. Pour maintenir la stabilité de l'entraînement à cette échelle, ils étendent le RL asynchrone (DORA) pour gérer des interactions à long terme et multi-tours avec des dizaines de milliers d'environnements concurrents sans s'effondrer. Au moment de l'inférence, ils introduisent le Mode de Pensée Lourde. Au lieu d'une longue chaîne de pensée, le modèle exécute des chemins de raisonnement parallèles puis réfléchit à travers eux avant d'agir. Cela bat systématiquement la cohérence interne sur des tâches complexes et agentiques. Les résultats parlent d'eux-mêmes. Performance à la pointe de la technologie sur BrowseComp, τ²-Bench et VitaBench. Excellents résultats en mathématiques, en codage et en recherche. Et surtout, bien moins de dégradation dans des conditions bruyantes. La véritable leçon est plus nette que n'importe quel chiffre de benchmark : La qualité du raisonnement n'est plus le goulet d'étranglement. La généralisation l'est. Et la généralisation ne vient pas de meilleures invites ou de pensées plus longues. Elle vient d'environnements qui réagissent. Si nous voulons des agents qui fonctionnent en dehors des démos, nous devons cesser de les entraîner dans des mondes propres et imaginaires. L'intelligence ne se forge pas là où tout va bien. Elle se forge là où les choses se cassent. Document : Rapport Technique LongCat-Flash-Thinking-2601 Lisez le document complet ici :

Meilleurs

Classement

Favoris