Новое исследование от Microsoft. Phi-4-reasoning-vision-15B — это многомодальная модель рассуждений с 15 миллиардами параметров, которая сочетает визуальное понимание с возможностями структурированного рассуждения. Как я уже говорил, не каждая задача агента требует передовой модели. Phi-4-reasoning-vision показывает, что возможно при 15 миллиардах параметров. В отчете подробно описывается, как они обучили компактную модель, которая может рассуждать как над текстом, так и над изображениями, нацеливаясь на оптимальное сочетание возможностей и эффективности. Меньшие модели рассуждений, которые обрабатывают визуальную информацию, необходимы для практического развертывания агентов. Статья: Научитесь создавать эффективных AI-агентов в нашей академии: