トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
MITは最近、なぜLLMの推論が壁にぶつかり、それを乗り越える方法を静かに説明する論文を発表しました。
よくある話は、モデルが難問で失敗するのはスケールやデータ、知能が欠けているからだというものです。
この論文はもっと構造的な主張をしています。すなわち、学習信号が消えたからモデルの改善が止まるということです。課題が難しすぎると成功率はゼロに近づき、強化学習は最適化すべきものがなくなり、推論は停滞します。失敗は認知的なものではなく、教育的なものです。
著者たちはシンプルながらも根本的な再構成を提案しています。モデルにより難しい問題を解決させる方法を問う代わりに、モデルが自分に教える問題を生み出す方法を問います。
彼らのシステムであるSOARは、単一の事前学習モデルを二つの役割に分けています。非常に難しいターゲット課題に挑戦する学生と、新たな訓練問題を生み出す教師です。ただし、教師は巧妙で現実的な質問をしても報酬は得られません。これは、学生の成績が固定された実評価問題のセットで向上した場合のみ報酬が与えられます。改善がなければ報酬はゼロです。
そのインセンティブがすべてを形作り変えます。
教師は、生徒の現在の能力範囲のすぐ内側にある中間的なステップアップ問題を出すことを学びます。これらの問題は目標課題の簡略化版ではなく、驚くべきことに正しい解法すら必要としません。
重要なのは、その構造が学生に正しい推論を練習させることであり、直接指導が失敗しても勾配信号が現れることです。
実験結果はその点を痛感させるほど明確です。モデルが全く成功せず、標準的な強化学習が完全にフラットラインとなるベンチマークでは、SOARは膠着状態を打破し、着実にパフォーマンスを向上させます。
このモデルは、より深く考えることではなく、自分自身のためにより良い学習環境を構築することで学習可能性の限界から逃れます。
その深い含意は不快です。多くのいわゆる「推論的限界」は、知能の限界とは限りません。それらは、世界が無料で学習可能な問題を提供していると仮定した訓練環境の産物です。
本論文は、モデルが自らのカリキュラムを形成できるならば、推論の停滞期は根本的な障壁ではなく工学的問題となると示唆しています。
新しいアーキテクチャも、追加の人間のデータも、大規模なモデルもありません。ただ、私たちが報いるものの変化です:答えではなく、学習の進歩です。

トップ
ランキング
お気に入り
