ベンチマークによると、Qwen3.5 4BはGPT 4oと同等の性能を持っています。 GPT 4oは~2年前(2024年5月)に発売されました。 Qwen 3.5 4Bは現代のモバイルデバイスで簡単に動作します。 したがって、データセンターのフロンティアインテリジェンスとiPhoneで同等の品質モデルを運用するまでのギャップは2〜3年かかる可能性があります。(おそらくQwen3.5の4Bが4oよりもbenchmaxx(ベンチmaxx)が多いと仮定すると3に近いでしょう) ワットあたりの知能率が上昇する傾向が変わるとは思いません。ですので、2〜3年後にはiPhoneでGPT 5.x品質のモデルを動かす可能性は十分にあります。かなりワイルドです。
@martinald計算はまだしていません(ぜひ見てみたいです)。しかし、KVキャッシュ量子化を使った10GBの電話で>10万のコンテキスト長を機能させることは可能だと思います。
文脈を教えてくれる人が問題です。限界はありますが、乗り越えられないものではありません。 Qwen 3.5はハイブリッドモデルです。8つのグローバルアテンションレイヤー(ヘッドダイム=128、キー/値ヘッド=4)があります。 8ビットKVキャッシュ量子化(品質損失なし)を仮定します。2GBなら約65,000のコンテキスト長を収められます。良いスタートですね。良くなりますよ。
文脈を教えてくれる人が問題です。限界はありますが、乗り越えられないものではありません。 Qwen 3.5はハイブリッドモデルです。8つのグローバルアテンションレイヤー(ヘッドダイム=256、キー/値ヘッド=4)があります。 8ビットKVキャッシュ量子化(品質損失なし)を仮定します。2GBなら約65,000のコンテキスト長を収められます。良いスタートですね。良くなりますよ。
@simonw(いくつかの結果を照合しましたが、私の判断では正しいです)
このモデルはbenchmaxxed(評価がリーク)されている/4oほど良くないというコメントが多いです。 理想的には隠れた多様なベンチマークを使って厳密な分析をしてくれたら嬉しいです。Qwen 3.5 4BはどのFrontierモデルと比較できるのでしょうか?フロンティアからエッジまでの時間の妥当な見積もりはどれくらいでしょうか? 今のところ、3年以上続く証拠は見当たりませんし、おそらく2〜4年程度でしょう。
166