なんてこと。。。この論文は、なぜほとんどの「推論」モデルがクリーンなベンチマークから切り離し、現実世界に放り込むとすぐに崩壊する理由を静かに説明しています。 LongCatチームは、分野が避け続けている疑問に取り組んでいます。つまり、今日のモデルがこれほど推論力があるなら、ツールが壊れたり、指示が曖昧になったり、環境が反発したりすると、なぜ基本的なエージェントの動作が失敗してしまうのか? 彼らの答えは居心地の悪いものです。思考の連鎖が短すぎるからといって推論が失敗するわけではありません。失敗するのは、結果なしに思考を訓練したからです。 この論文は、LongCat-Flash-Thinking-2601という560BパラメータのMixture-of-Expertモデルを紹介しています。これはシンプルながらも根本的な考え方に基づいています。すなわち、推論は実際の環境内で行動し、失敗を観察し、適応することを強いられるときにのみ信頼できるのです。 推論をテキスト生成として扱うのではなく、ループとして捉えています: 計画→観察→行動→フィードバック→修正をしましょう。 その変化はあらゆる場所で波紋のように広がります。データはもはや静的なプロンプトではありません。トレーニングはきれいな軌跡ではありません。評価は一発の答えではありません。 最も重要な貢献の一つが環境スケーリングです。著者らは、実際のツール、実際のデータベース、複数の有効なソリューションパスに基づく20+ドメインにまたがる10,000+の実行可能環境を自動的に生成しています。難易度は巧妙なプロンプトのトリックではなく、構造的に上がる。 重要なのは、彼らは世界を美化していないということです。ツールの故障、曖昧な指示、部分的な出力、ノイズの大きいフィードバックが意図的に注入されています。ノイズはバグではありません。それはカリキュラムのせいです。 この規模での訓練を安定させるために、非同期RL(DORA)を拡張し、数万の同時環境との長期にわたる複数ターンの相互作用を崩壊せずに処理できるようにしています。 推論の段階で、ヘビーシンキングモードが導入されます。一つの長い思考の連鎖ではなく、モデルは並行した推論の道筋を走り、それを振り返ってから行動します。これは複雑で主体的なタスクにおいて自己整合性を常に上回ります。 結果は雄弁に語っています。BrowseComp、τ²-Bench、VitaBenchでの最先端性能。優れた数学、コーディング、検索結果。そして何よりも、騒音の多い環境下での劣化が格段に少なくなることです。 本当のポイントは、どんなベンチマークの数字よりも鋭いものです: 推論の質はもはやボトルネックではありません。 一般化はそうです。 一般化はより良いプロンプトや長い思考から生まれるものではありません。それは反発する環境から来ています。...