DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Putain... Ce document explique discrètement pourquoi la plupart des modèles de « raisonnement » s'effondrent au moment où vous les débranchez des benchmarks propres et les plongez dans le monde réel. L'équipe de LongCat aborde une question que le domaine continue d'esquiver : si les modèles d'aujourd'hui sont si bons en raisonnement, pourquoi échouent-ils encore à un comportement d'agent de base une fois que les outils se cassent, que les instructions deviennent floues ou que les environnements réagissent ? Leur réponse est inconfortable. Le raisonnement n'échoue pas parce que les chaînes de pensée sont trop courtes. Il échoue parce que nous avons entraîné la pensée sans conséquences. Le document introduit LongCat-Flash-Thinking-2601, un modèle Mixture-of-Experts de 560 milliards de paramètres construit autour d'une idée simple mais radicale : le raisonnement ne devient fiable que lorsqu'il est contraint d'agir, d'observer l'échec et de s'adapter dans des environnements réels. Au lieu de traiter le raisonnement comme une génération de texte, ils le cadrent comme une boucle : observer → planifier → agir → obtenir des retours → réviser. Ce changement a des répercussions partout. Les données ne sont plus des invites statiques. L'entraînement n'est plus des trajectoires propres. L'évaluation n'est plus des réponses uniques. Une des contributions les plus importantes est l'échelle environnementale. Les auteurs génèrent automatiquement plus de 10 000 environnements exécutables dans plus de 20 domaines, chacun ancré dans de vrais outils, de vraies bases de données et plusieurs chemins de solution valides. La difficulté augmente structurellement, pas par des astuces d'invite astucieuses. De manière cruciale, ils ne désinfectent pas le monde. Les échecs d'outils, les instructions ambiguës, les sorties partielles et les retours bruyants sont délibérément injectés. Le bruit n'est pas un bug. C'est le programme. Pour maintenir la stabilité de l'entraînement à cette échelle, ils étendent le RL asynchrone (DORA) pour gérer des interactions à long terme et multi-tours avec des dizaines de milliers d'environnements concurrents sans s'effondrer. Au moment de l'inférence, ils introduisent le Mode de Pensée Lourde. Au lieu d'une longue chaîne de pensée, le modèle exécute des chemins de raisonnement parallèles puis réfléchit à travers eux avant d'agir. Cela bat systématiquement la cohérence interne sur des tâches complexes et agentiques. Les résultats parlent d'eux-mêmes. Performance à la pointe de la technologie sur BrowseComp, τ²-Bench et VitaBench. Excellents résultats en mathématiques, en codage et en recherche. Et surtout, bien moins de dégradation dans des conditions bruyantes. La véritable leçon est plus nette que n'importe quel chiffre de benchmark : La qualité du raisonnement n'est plus le goulet d'étranglement. La généralisation l'est. Et la généralisation ne vient pas de meilleures invites ou de pensées plus longues. Elle vient d'environnements qui réagissent....

Meilleurs

Classement

Favoris