トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Connor Davis
@getoutbox_aiの創設者
無料で👉 AIエージェントを構築する方法を学びましょう https://t.co/q9zPwlldZ4
MITは最近、なぜLLMの推論が壁にぶつかり、それを乗り越える方法を静かに説明する論文を発表しました。
よくある話は、モデルが難問で失敗するのはスケールやデータ、知能が欠けているからだというものです。
この論文はもっと構造的な主張をしています。すなわち、学習信号が消えたからモデルの改善が止まるということです。課題が難しすぎると成功率はゼロに近づき、強化学習は最適化すべきものがなくなり、推論は停滞します。失敗は認知的なものではなく、教育的なものです。
著者たちはシンプルながらも根本的な再構成を提案しています。モデルにより難しい問題を解決させる方法を問う代わりに、モデルが自分に教える問題を生み出す方法を問います。
彼らのシステムであるSOARは、単一の事前学習モデルを二つの役割に分けています。非常に難しいターゲット課題に挑戦する学生と、新たな訓練問題を生み出す教師です。ただし、教師は巧妙で現実的な質問をしても報酬は得られません。これは、学生の成績が固定された実評価問題のセットで向上した場合のみ報酬が与えられます。改善がなければ報酬はゼロです。
そのインセンティブがすべてを形作り変えます。
教師は、生徒の現在の能力範囲のすぐ内側にある中間的なステップアップ問題を出すことを学びます。これらの問題は目標課題の簡略化版ではなく、驚くべきことに正しい解法すら必要としません。
重要なのは、その構造が学生に正しい推論を練習させることであり、直接指導が失敗しても勾配信号が現れることです。
実験結果はその点を痛感させるほど明確です。モデルが全く成功せず、標準的な強化学習が完全にフラットラインとなるベンチマークでは、SOARは膠着状態を打破し、着実にパフォーマンスを向上させます。
このモデルは、より深く考えることではなく、自分自身のためにより良い学習環境を構築することで学習可能性の限界から逃れます。
その深い含意は不快です。多くのいわゆる「推論的限界」は、知能の限界とは限りません。それらは、世界が無料で学習可能な問題を提供していると仮定した訓練環境の産物です。
本論文は、モデルが自らのカリキュラムを形成できるならば、推論の停滞期は根本的な障壁ではなく工学的問題となると示唆しています。
新しいアーキテクチャも、追加の人間のデータも、大規模なモデルもありません。ただ、私たちが報いるものの変化です:答えではなく、学習の進歩です。

67
なんてこと。。。この論文は、なぜほとんどの「推論」モデルがクリーンなベンチマークから切り離し、現実世界に放り込むとすぐに崩壊する理由を静かに説明しています。
LongCatチームは、分野が避け続けている疑問に取り組んでいます。つまり、今日のモデルがこれほど推論力があるなら、ツールが壊れたり、指示が曖昧になったり、環境が反発したりすると、なぜ基本的なエージェントの動作が失敗してしまうのか?
彼らの答えは居心地の悪いものです。思考の連鎖が短すぎるからといって推論が失敗するわけではありません。失敗するのは、結果なしに思考を訓練したからです。
この論文は、LongCat-Flash-Thinking-2601という560BパラメータのMixture-of-Expertモデルを紹介しています。これはシンプルながらも根本的な考え方に基づいています。すなわち、推論は実際の環境内で行動し、失敗を観察し、適応することを強いられるときにのみ信頼できるのです。
推論をテキスト生成として扱うのではなく、ループとして捉えています:
計画→観察→行動→フィードバック→修正をしましょう。
その変化はあらゆる場所で波紋のように広がります。データはもはや静的なプロンプトではありません。トレーニングはきれいな軌跡ではありません。評価は一発の答えではありません。
最も重要な貢献の一つが環境スケーリングです。著者らは、実際のツール、実際のデータベース、複数の有効なソリューションパスに基づく20+ドメインにまたがる10,000+の実行可能環境を自動的に生成しています。難易度は巧妙なプロンプトのトリックではなく、構造的に上がる。
重要なのは、彼らは世界を美化していないということです。ツールの故障、曖昧な指示、部分的な出力、ノイズの大きいフィードバックが意図的に注入されています。ノイズはバグではありません。それはカリキュラムのせいです。
この規模での訓練を安定させるために、非同期RL(DORA)を拡張し、数万の同時環境との長期にわたる複数ターンの相互作用を崩壊せずに処理できるようにしています。
推論の段階で、ヘビーシンキングモードが導入されます。一つの長い思考の連鎖ではなく、モデルは並行した推論の道筋を走り、それを振り返ってから行動します。これは複雑で主体的なタスクにおいて自己整合性を常に上回ります。
結果は雄弁に語っています。BrowseComp、τ²-Bench、VitaBenchでの最先端性能。優れた数学、コーディング、検索結果。そして何よりも、騒音の多い環境下での劣化が格段に少なくなることです。
本当のポイントは、どんなベンチマークの数字よりも鋭いものです:
推論の質はもはやボトルネックではありません。
一般化はそうです。
一般化はより良いプロンプトや長い思考から生まれるものではありません。それは反発する環境から来ています。
デモ以外で働くエージェントを望むなら、クリーンで想像上の世界でのトレーニングをやめなければなりません。すべてがうまくいくところで知性は鍛えられるものではありません。壊れた場所で鍛えられるんだ。
論文:LongCat-Flash-Thinking-2601技術報告書
全文はこちらでお読みください:

91
トップ
ランキング
お気に入り

