Cercetare nouă de la Microsoft. Phi-4-reasoning-vision-15B este un model de raționament multimodal cu 15 miliarde de parametri care combină înțelegerea vizuală cu capabilități structurate de raționament. Așa cum am spus, nu orice sarcină a agentului are nevoie de un model frontieră. Phi-4-reasoning-vision arată ce este posibil la 15B parametri. Raportul detaliază modul în care au antrenat un model compact care poate raționa atât peste text, cât și peste imagini, vizând echilibrul ideal dintre capacitate și eficiență. Modelele de raționament mai mici care gestionează viziunea sunt esențiale pentru implementările practice ale agenților. Hârtie: Învață să construiești agenți AI eficienți în academia noastră: