Nový výzkum od Microsoftu. Phi-4-reasoning-vision-15B je multimodální model uvažování s 15 miliardami parametrů, který kombinuje vizuální porozumění se schopnostmi strukturovaného uvažování. Jak už jsem říkal, ne každý úkol agenta potřebuje model hranice. Phi-4-uvažování-vidění ukazuje, co je možné při parametrech 15B. Zpráva podrobně popisuje, jak trénovali kompaktní model, který dokáže uvažovat jak s textem, tak s obrázky, a zaměřit se na ideální rovnováhu mezi schopnostmi a efektivitou. Menší modely uvažování, které zvládají vizi, jsou nezbytné pro praktické nasazení agentů. Článek: Naučte se vytvářet efektivní AI agenty v naší akademii: