微軟的新研究。 Phi-4-reasoning-vision-15B 是一個擁有 150 億參數的多模態推理模型,結合了視覺理解和結構化推理能力。 正如我所說的,並不是每個代理任務都需要前沿模型。Phi-4-reasoning-vision 展示了在 150 億參數下的可能性。 報告詳細說明了他們如何訓練一個緊湊的模型,能夠在文本和圖像之間進行推理,目標是在能力和效率之間找到最佳平衡。 處理視覺的小型推理模型對於實際的代理部署至關重要。 論文: 在我們的學院學習如何建立有效的 AI 代理: