なんと、RunAnywhereAI@sanchitmonga22 MetalRTを48時間で考案し、Apple Silicon上のLLMのデコード速度を新たなレベルにまで引き上げました。M4 Maxで同じ4ビットモデルを使い、Qwen3-0.6Bは658 tok/s、LFM 2.5-1.2B 570 tok/s、最初のトークンはわずか6.6msで動作します。 同じ文書と比較すると、Apple自身のMLXは19%、ハンマー llama.cpp平均は67%、さらにUzuやOllamaも全体的に遅れをとっています。 AppleのApple Intelligenceは常にローカル優先を強調してきましたが、ハードウェアの可能性は様々なフレームワークの制約によって実際には無駄にされており、それは封印されているのと同じです。MetalRTはMetal APIに直接攻撃し、Python層や抽象化層の複雑なオーバーヘッドを削減し、統一メモリ+GPUに合わせてこの極端なパフォーマンスの波を引き出すことです。 ローカルモデルの本当の価値は「できるならただ動かせばいい」というものではなく、十分に速く、経済的で、そして十分にプライベートで、クラウドに真に取って代わるものなのです。 6.6msの最初のトークンはチャット、音声、コードサプリメント、エージェントコールJSONを遅延なしで行います。 高いtok/sはコンテキストを拡張し、マルチツールの並列処理を行い、ジャムを回避できます。 ネットワーキングゼロ、サブスクリプションゼロ、データがデバイス外に出ないという条件で、これが生産性レベルのローカルAIの姿です。 速いのはtok/sの数値を見せびらかすためではなく、小さなモデルがAppleデバイス上のクラウド大規模モデルの応答体験を直接上回ることです。 Appleのデバイス上AIは本来こうしてプレイされるべきですが、今や本当に加速し始めています。 Appleは本当に居座っていて、オープンソースコミュニティはパンドラの箱を開けようとしています。ローカルAIはあまりにも居心地が良く、もっと知的なモデルが登場することを願っています。