Nova pesquisa da Microsoft. Phi-4-reasoning-vision-15B é um modelo multimodal de raciocínio com 15 bilhões de parâmetros que combina compreensão visual com capacidades de raciocínio estruturado. Como venho dizendo, nem toda tarefa de agente precisa de um modelo de fronteira. Phi-4-raciocínio-visão mostra o que é possível em parâmetros 15B. O relatório detalha como eles treinaram um modelo compacto que pode raciocinar tanto sobre texto quanto imagens, mirando no ponto ideal entre capacidade e eficiência. Modelos de raciocínio menores que lidam com visão são essenciais para implantações práticas de agentes. Papel: Aprenda a construir agentes de IA eficazes em nossa academia: