Нове дослідження від Microsoft. Phi-4-reasoning-vision-15B — це мультимодальна модель мислення з 15 мільярдами параметрів, яка поєднує візуальне розуміння з можливостями структурованого мислення. Як я вже казав, не кожне завдання агента потребує моделі фронтиру. Phi-4-reasoning-vision показує, що можливо при параметрах 15B. У звіті детально описано, як вони навчили компактну модель, яка може аналізувати як текст, так і зображення, орієнтуючись на баланс між можливістю та ефективністю. Менші моделі мислення, що працюють із баченням, є необхідними для практичного розгортання агентів. Стаття: Навчіться створювати ефективних агентів ШІ в нашій академії: